Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
1. Periodismo de datos y
herramientas digitales
Bootcamp de Periodismo de Datos Venezuela
Carter Center - IPYS Venezuela - ICFJ Knight Fellows Program - Poderomedia
Oct 31-Nov 1, 2013
@miguelpaz
2. Qué son datos¶
Miguel Paz (@miguelpaz)
37 años
Hombre
Pelo negro
1,79 cm de estatura
100 kg
*crédito: www.schoolofdata.org
3. Hola, mi nombre es Miguel Paz (@miguelpaz), tengo 37 años, soy Hombre,
tengo pelo negro, mido 1,79 cm y peso 100 kg.
*crédito: www.schoolofdata.org
5. Tipos de datos¶
Dataset: Una colección de Datos, usualmente el mismo tipo de datos.
Ejemplo: Alumnos de este taller; un Álbum de Canciones
Metadata: Datos sobre los Datos. De dónde vienen, cuándo se
recolectaron, cómo, sus parámetros.
Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desde
cuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc.
Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar,
reusar, construir cosas con ellos y compartir los resultados
*crédito: www.schoolofdata.org
6. Periodismo de datos¶
Nombre que le damos al periodismo que utiliza herramientas y
técnicas computacionales para poder sacarle provecho a la gran
cantidad de datos existentes que superan nuestra capacidad
tradicional de reporteo, haciéndole preguntas a los datos para
convertir los resultados en historias, visualizaciones, narraciones
interactivas, bases de dato de consulta, aplicaciones de noticias, etc.
(revisa en este enlace otra definición mas extensa)
7. Pasos a seguir¶
Conocer su audiencia: Quién es su audiencia? Cuáles son sus
necesidades? Qué puede hacer para resolver esas necesidades?
Definir la/s pregunta/s de investigación
Buscar datos
Obtener datos
Limpiar / filtrar datos
Analizar y validar datos
Visualizar datos
Comunicar datos
*crédito: Brian Boyer y Mirko Lorenz
13. Un periodista y sus datos (antes)
Un periodista de datos, antes¶
14. Un periodista de datos, hoy¶
Ahora se necesita un periodista...
● Que sepa escribir
● Que sepa sacar fotos
● Que sepa programar
● Que sepa scraping
● Que sepa de estadística
● Que sepa de Excel
● Que sepa visualizar
● Que sepa volar...
33. Metas del reportero en la web¶
Conseguir la mejor calidad de información en el menor tiempo posible
Acceso a documentos oficiales
Recolectar datos, ponerlos en un contexto y darles un significado
Obtener primicias
Guardar copias (siempre sacar pantallazos, son material de prueba)
*crédito: @sandracrucianelli
34. Búsquedas¶
Directorio: Remite a la página inicial del sitio Web
Se utilizan con más frecuencia para búsquedas cuando se tiene una vaga
idea de lo que se quiere y cuando apreciaría que alguien lo ayude
Motor de Búsqueda: Remite a la página exacta en la que aparece la
palabra o frase que se busca
Se usan cuando se quiere llegar a un tema o dato particular de manera
rápida
Bases de datos: Remite a sets de datos estructurados sobre tópicos
específicos
*crédito: @sandracrucianelli
35. Documentos en la web¶
De libre acceso en la red (sin costo)
Previo pago (en bases de datos comerciales o institucionales)
Por búsqueda simple (chequeo de fuentes: contrastar lo virtual versus lo
real)
Por petición formal o vía correo electrónico
*crédito: @sandracrucianelli
36. Cómo guardar un documento¶
www.google.com
Busque un documento
Abra el documento
Botón derecho: “guardar destino cómo”
Para guardar páginas Web:
Como archivo único (multimedia activa)
Como HTML (solo texto)
Para verlo sin salir del navegador: “abrir como nueva ventana”
*crédito: @sandracrucianelli
37. Cómo buscar¶
Siempre use Búsqueda Avanzada (ej: http://www.google.com/
advanced_search)
Refine sus búsquedas usando operadores
El signo + añade criterios. El signo – los restringe.
Las comillas permiten buscar “frases exactas”
*crédito: @sandracrucianelli
38. Cómo buscar¶
Siempre use Búsqueda Avanzada (ej: http://www.google.com/
advanced_search)
Use comillas para la frase exacta: “corrupción en América Latina”
Combine comillas con años: “corrupción en América Latina” + 2013
Combine dos frases exactas: “corrupción en América Latina” + “mayo de
2013”
¿Conclusión?
*crédito: @sandracrucianelli
39. Por qué usar búsqueda avanzada¶
Permite buscar formatos específicos:
Excel para estadísticas y datos en columnas/filas (ej: sueldos)
PDF cuando busca documentos importantes
PPT para buscar presentaciones
Doc y RTF para textos en Word
KML y KMZ para información geolocalizada
*crédito: @sandracrucianelli
40. Por qué usar búsqueda avanzada¶
Permite localizar búsquedas a:
Idioma
Región
Fecha de actualización
Sitio o dominio específico
Decida buscar los documentos más nuevos
Buscar siempre 100 resultados (Evitará cambiar de página cada 10)
*crédito: @sandracrucianelli
43. Buscadores de redes sociales¶
- Topsy (noticias y menciones redes sociales): http://www.topsy.com
- Booshaka http://www.booshaka.com/
- Greplin https://www.greplin.com/
- Social Mention http://www.socialmention.com/
44. Bases de datos¶
(Apenas algunas para mencionar)
- Sitios web gubernamentales chilenos mostrados en clase “Cómo y dónde investigar
en la web”
- Datos Abiertos Gobierno de Chile http://datos.gob.cl
- Open Data Latinoamérica http://www.opendatalatinoamerica.org
- Datos Abiertos Banco Mundial http://data.worldbank.org
- Estadísticas Naciones Unidas http://www.un.org/spanish/databases/databases.htm
- Organización Mundial de la Salud http://www.who.int/whr/annexes/es/
- Organización Internacional del Trabajo http://www.ilo.org/public/spanish/support/
lib/index.htm
- Datos Mundiales de Educación http://www.icpsr.umich.edu/IAED/
- OCDE http://www.oecd.org/home/
- Archivos Públicos USA http://publicrecords.onlinesearches.com/
- SIPRI (Datos de Defensa de todo el mundo) http://www.sipri.org/contents/milap/
milex/mex_database1.html
46. Scrapear¶
“To Scrape” o Raspar. Hacer scraping o web scraping básicamente es el
acto de extraer datos de sitios web utilizando software, scripts y/o
servicios web parahacer minería de datos.
Los “scrapers” pueden automatizarse para que hagan el trabajo de
obtener la información repetidamente como si fuese un robot o bot que
efectúa la tarea mientras dormimos:)
Como el proceso es levemente complejo de explicar en tan poco tiempo,
sugeriremos algunas herramientas y tutoriales que pueden revisar.
47. Herramientas de scraping¶
- Google Docs: Permite usar fórmulas para scrapear información y organizarla en
Spreadsheets
- Scrape Similar: Extensión para Chrome. Fácil de usar. Puedes subir los resultados a
Google Docs. https://chrome.google.com/webstore/detail/scraper/
mbigbapnjcgaffohmbkdlecaccepngjd
- Import.IO: Funciona como una aplicación de escritorio que debemos instalar. Después
sólo tenemos que indicar las URL´s a rastrear, para que la aplicación nos encuentre
los patrones que nos permitan obtener los datos. http://import.io/
- Scraperwiki: Plataforma online que permite recabar información pública de la web y
agruparla de forma ordenada en una base de datos (Excel, tablas, etc.) https://
scraperwiki.com/
- OutWit Hub: Recopila y organiza automáticamente los datos http://www.outwit.com/
- Pipes: Sirve para procesar, mezclar, manipular, o filtrar uno o varios feeds RSS, con
el objetivo de generar un único feed RSS final, que contiene sólamente la información
que nos interesa obtener, ya procesada y filtrada. http://pipes.yahoo.com/pipes/
48. Tutoriales de scraping¶
- Tutorial Scraping con Google Spreadsheets, Scrape Similar y Refine, Michael Bauer
https://docs.google.com/document/d/
15hz0BWFSXgGvdgiipdpuo6WN7HHBhthqPgmvQNgQerY/edit?usp=sharing
- Web Scraping without Programming, de Michelle Minkoff http://
michelleminkoff.com/web-scraping-without-programming-nicar-2012-hands-ontutorial/
- Scraping for Journalist, a guide for collecting data, Dan Nguyen http://
www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data
- Manual de Scraping para periodistas de Paul Bradshaw https://leanpub.com/
scrapingforjournalists
50. Limpiar datos del scraping¶
- Open Refine (ex Google Refine): Herramienta para trabajar con datos desordenados,
limpiarlos o transformarlos de un formato a otro. No se ejecuta en el navegador, es
una aplicación de escritorio. Debes descargarlo. Funciona bien con Chrome y Firefox
http://openrefine.org
- Tutoriales de Refine: Cómo usar Open Refine para trabajar una base de datos (La
Nación Data), ProPublica (inglés),
- Data Wrangler: Herramienta interactiva para la limpieza y transformación de datos.
http://vis.stanford.edu/wrangler/
51. Conversión de .PDF`s¶
- Cometdocs: Con una intefaz simple convierte archivos PDF en XLS (Excel), ODS, TXT y
otros formatos http://www.cometdocs.com/
- Zamzar: Sube el archivo y recibirás la nueva versión por correo electrónico.
Advertencia: al convertir archivos PDF de varias páginas en formatos de hojas de
cálculo, los datos son separados en tablas, haciendo que el trabajo de limpieza y
organización sea aún mayor. http://www.zamzar.com/
-Cogniview: Crea hojas de cálculo extrayendo datos de archivos PDF a Excel
http://www.cogniview.com/es/pdf-a-excel-convertidor?campaign=Spanish
%20Search&adgroup=main&ad=PDFaExcel&gclid=CPaP84z5w7kCFe1_QgodyV0Adw
-Nitro Pro 8: Herramienta que convierte archivos PDF en hojas de cálculo (Excel).
Aunque se trata de un servicio pago, ofrece una versión de prueba.
http://www.nitropdf.com/es/sem/2013/nitro-pdf-software?
gclid=CMSa__X5w7kCFZFcQgod_GkAhQ
52. Conversión de .PDF`s¶
- Tabula: Aplicación gratuita y de código abierto que permite subir archivos y
seleccionar las tablas que deseas convertir a CSV. Hace un buen trabajo incluso con
tablas que tengan gráficas. Su principal obstáculo es su instalación, la cual no es
simple para la mayoría de los usuarios.
Introducción
http://source.mozillaopennews.org/en-US/articles/introducing-tabula/
Manual de instalación
https://github.com/jazzido/tabula
54. Herramientas visualización¶
- Datawrapper: Sube datos y arma gráficos. Muy fácil http://www.datawrapper.de.
Un ejemplo paso a paso: http://www.mirkolorenz.com/?id=270
- Timeline JS: Línea de tiempo. Permite contar una historia usando múltiples formatos.
A través de Google Spreadsheet, facilita la reutilización de los datos. http://
timeline.verite.co/
- Global Wamp: Arma mapas a partir de un Google Spreadsheet http://
globalwamp.github.io
- Popcorn.js: Permite mezclar video con recursos de la web (mapas, enlaces, redes
sociales, etc) https://popcorn.webmaker.org
-Infogr.am (sube excel y crea gráficos de datos)
de gente, barras, etc. Fácil de usar. Aún en beta
http.//infogr.am Gráficos de tortas,
-Usando Google Charts para visualizaciones http://ruby.bastardsbook.com/chapters/
csurgeries-visualization/
55. Herramientas visualización¶
- Overview: Herramienta de código abierto que ayuda a los periodistas a encontrar
historias en grandes volúmenes de información a través de la exploración visual de los
mismos. Entrega visualizaciones de grupos de documentos y permite búsquedas a
partir de nombres y keywords, favoreciendo así establecer relaciones entre temas,
personas, lugares y otros datos. http://overview.ap.org/
- Google Fusion Tables http://tables.googlelabs.com
- Tutorial Fusion Tables Andy Tow http://blogs.lanacion.com.ar/data/argentina/andytow-un-argentino-apasionado-por-los-datos-y-las-visualizaciones/
- Cómo hacer mapas usando Google Fusion Tables http://www.computerworld.com/
slideshow/detail/68971
Tutorial de Fusion Tables de Google http://support.google.com/fusiontables/bin/
answer.py?hl=en&answer=184641
56. Herramientas visualización¶
- Making Maps With Fusion Tables, tutorial de Peter Aldhous http://
www.peteraldhous.com/CAR/Making_maps_with_Google_Fusion_Tables.pdf
57. Más recursos¶
- Manual de Periodismo de Datos http://interactivos.lanacion.com.ar/manual-data/
- Cómo ser un periodista de datos http://www.guardian.co.uk/news/datablog/2010/
oct/01/data-journalism-how-to-guide
- Source, el hogar de los news data nerds http://source.mozillaopennews.org
- OpenDataHandbook http://opendatahandbook.org/
- Manual de Open Data http://opengovdata.io/
- Curso de Periodismo de Datos de Derek Willis http://dwillis.github.io/data-reporting/
outline.html
- Brian Boyer: Welcome to Hacker Journalism 101, take your seats http://
www.niemanlab.org/2012/09/brian-boyer-welcome-to-hacker-journalism-101-takeyour-seats/
- Bastards on Ruby (Tutorial de Ruby escrito por Dan Nguyen) http://
ruby.bastardsbook.com/
58. Más recursos¶
- McDiva: Tools and slides from NICAR 13: http://www.chryswu.com/blog/2013/02/27/
tools-slides-links-tutorials-nicar13/
- Tutoriales de NICAR 13 http://ire.org/conferences/nicar-2013/tipsheets/
- Criptoperiodismo (Manual de Seguridad en Internet) http://cryptoperiodismo.org/
- Herramientas ProPublica http://www.propublica.org/tools/
- Listado de aplicaciones de noticias hechas por Chicago Tribune Team
http://blog.apps.chicagotribune.com/2011/09/02/show-your-work/
- NYTimes: Repositorio de aplicaciones de código abierto https://github.com/nytimes
61. Gracias!
Periodismo de datos
y herramientas
digitales
Bootcamp de Periodismo de Datos Venezuela
Carter Center-IPYS Venezuela-ICFJ Knight Fellows Program-Poderomedia
Oct 31-Nov 1, 2013 #bootcampve
@miguelpaz I www.poderopedia.org I www.poderomedia.org