SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
“OK, but where did that data come from?”


          Data validation in the
              Digital Age

Tom Johnson                                          Cheryl Phillips
Managing Director                           Data Enterprise Editor
Inst. for Analytic Journalism                        Seattle Times
Santa Fe, New Mexico USA                  Seattle, Washington USA
tom@jtjohnson.com
                                cphillips@seattletImes.com
                                                                  1
“OK, pero ¿de dónde provienen los datos?”


    Validación de datos en
         la Era Digital

Tom Johnson
Managing Director
Inst. for Analytic Journalism
Santa Fe, New Mexico USA
tom@jtjohnson.com
                                              2
Data validation in the
                     Digital Age
Presentation by Cheryl Phillips and Tom Johnson at
National Institute of Computer-Assisted Reporting Conference
Date/Time: Friday, Feb. 24 at 11 a.m.
Location: Frisco/Burlington Room
St. Louis, Missouri USA


This PowerPoint deck and Tipsheets posted at:


http:// s d r v . m s / w N t i M 7


                                                               3
Validación de datos en la Era Digital

Presentación por Tom Johnson en
Fecha/Hora:
Locación:
    Gracias a Cheryl Phillips, Data Enterprise Editor, Seattle Times
    Seattle, Washington USA


Esta presentación de Power Point y hoja de tips están
publicados en
FIX THIS http:// s d r v . m s / w N t
iM7
                                                                       4
The methodology / = the value of the data set and your story




                                                                1
                                           Important point

    Open data is
    good; bad data
    is bad.

                                                                    5
The methodology / = the value of the data set and your story




                                                                1
                                           Punto importante
              Siempre se debe
    Open data es que todos los
            asumir
    buena, pero están sucios. Por
           datos
    datos malos, son deben ser
             lo tanto,
    malos.    probados para la
                  validación.
                                                                    6
The methodology / = the value of the data set and your story




                                                                2
                                           Important point

    A data base (or
    report) is only as
    good as the
    methodology used
    to create it.
                                                                    7
2
The methodology / = the value of the data set and your story




                                           Punto importante


    Una base de datos (o
    informe) es sólo tan
    buena como la
    metodología utilizada
    para crearla.
                                                                    8
3
Data sets are living things; they have pedigree and genealogy




                                    Important points
    •Most [all?] data sets are living
    things.
    •And they have a pedigree, a
    genealogy.
    •Data sets live in a dynamic
    environment.
    •Understand the DB ecology

                                                                    9
3
Data sets are living things; they have pedigree and genealogy




                                   Punto importante
    •La mayoría [casi todos] los
    conjuntos de datos se refieren
    a seres vivos
    •Y tienen un árbol genealógico,
    una genealogía.
    •Los conjuntos de datos viven
    en un ambiente dinámico.
    •Entender la ecología de las
    bases de datos
                                                                10
How bad data can mislead
Illinois and Missouri sex-offender DB
•“St. Louis Post-Dispatch - 2 May 1999: A11 – “ABOUT 700 SEX
OFFENDERS DO NOT APPEAR TO LIVE AT THE ADDRESSES
LISTED ON A ST. LOUIS REGISTRY; MANY SEX OFFENDERS NEVER
MAKE THE LIST” By Reese Dunklin; Data Analysis By David Heath and Julie
Luca
•Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A
“Criminal checks deficient; State's database of convictions is
hurt by lack of reporting, putting public safety at risk, law
officials say” By Diane Jennings and Darlean Spangenberger
•See stories here
Cómo los malos datos pueden inducir a error
La base de datos de los delicuentes sexuales de
los estados de Illinois y Missouri
“St. Louis Post-Dispatch - 2 Mayo 1999: A11 – “Alrededor de
700 delincuentes sexuales no parecen vivir en las direcciones
señaladas en un registro de ST. LUIS. Muchos delincuentes
sexuales no aparecen en la lista” By Reese Dunklin; Data Analysis By
David Heath and Julie Luca
•Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A
“Controles criminales deficientes. La base de datos de las
condenas del estado se ve perjudicada por la falta de
información, poniendo en riesgo la seguridad pública, afirman
los funcionarios encargados .” By Diane Jennings and Darlean
Spangenberger
•Vea la historia aquí
VideoClip   URL
Reportero de WKRC televisión vinculado a
delincuente sexual registrado




El reportero de WKRC, Rich Jaffe, enfrenta un problema: de acuerdo a documentos policiales, él es un
delicuente sexual


Ejemplo de un reportero que descubre que su nombre
está en una base de datos de delincuentes sexuales
porque alguien usó su número de seguro social. (Como
si usaran la "cédula“ o carnet de identificación.) URL
 VideoClip
How bad data can do you wrong
2011 - New Mexico Sec. of State’s “questionable
voters” data set – “The Big Bundle”
•~1.1m voters
•Previous SoS didn’t clean voter rolls
•Matched name, address, DoB and SS#
  – SSA data base; NM driver’s licenses
  – 2 variables “mismatch” =  Questionable?
  – Asked State Police (not AG’s office) to investigate
Cómo los datos incorrectos pueden hacerle daño
  2011 – Conjunto de datos de votantes
  cuestionables de la Secretaría del Estado de
  Nuevo México- "El paquete grande“
  ~1.1m votantes en total: cuestionables 67.000
  •El SoS previo no limpió las lista de votantes
  •Se cotejaron nombres, dirección, fecha de nacimiento
  y #SS
     – Las bases de datos de la SSA, las licencias de conducir de
       Nuevo México
     – 2 variables “no coincidieron" cuestionable?
     – Se solicitó a la policía del Estado (no a la oficina AG) que
       investigara
Problems with Sec. of State methodology

• What’s the error rate of original DB?
  •  Definition of “error”? (Gonzales or Gonzalez)
  •  Sample(s) by county and state total?
  •  Error rates of comparative DBs?
  •  Aggregation of error problem
• 2011 Help America Vote Verification Transaction
  Totals, Year-to-Date, by State
  https://www.socialsecurity.gov/open/havv/havv-year-
Problemas con la metodología de la Sec. de Estado

• ¿Cuál es la tasa de error de la base de datos
  original?
  •   Definición de "error"? (Gonzáles o González)
  •   Totales de las muestras por condados y estados?
  •   Tasas de error de bases de datos comparativas?
  •   El problema de la agregación del error.
• Totales del 2011 de las transacciones de
  verificación de Ayude a América a Votar, Año a
  fecha por estado.
• https://www.socialsecurity.gov/open/havv/havv-year-to
There be dragons!

                                 A most
Data base
                                wonderful
rich with                        story!!!
potential




                                            19
Validación del proceso de bases de
datos

                  Hay dragones!


   Base de                               Un
   datos rica                         reportaje
   en potencial                      maravilloso




                                                   20
Building genealogy for target DB

1. Pre-plan                                                         1. Acquire latest data and
  •2nd monitor                                                         related documents
  •“Logbook” apps                                                   1. Do tables conform to
1. Lit. review/ interview peers                                        record layout?
1. Do data fit theoretical                                          1. Do documents specify expected
   models?                                                             ranges & frequencies?

1. Do a “critical biography” of                                     1. Are data values missing or
   the data                                                            out of range?
1. Does biography raise                                           1. Statistical analysis
   critical warnings?
1. Have others run analysis of                                             Review major checklist
   this data?
Source: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe,
NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459
Construyendo una genealogía para la base de
datos objeto.
1. Planificación previa                                             1. Adquirir los últimos datos y
 - Segundo monitor                                                     documentos relacionados
 - Aplicaciones de bitácora                                         1. ¿Las tablas se ajustan al
1. Revisión de la literatura /                                         diseño determinado?
   entrevista de colegas
                                                                    1. ¿ Los documentos especifican los
1. Los datos se ajustan a los                                          rangos y frecuencias esperados?
   modelos teóricos?                                                1. ¿Hay valores de datos
1. Haga una "biografía crítica"                                        faltantes o fuera de rango?
   de los datos
1. ¿La biografía crea                                             1. Análisis estadístico
   advertencias críticas?                                             Revise los puntos de atención
1. Otros han realizado el                                                        mayores
   análisis de estos datos?
Fuente: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe,
NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459
Building genealogy for target DB

1. Pre-plan                      1. Acquire latest data and
• Changes in
  •2nd monitor                      related docs
  definitions?
  •“Logbook” apps                1. Do tables conform to
     • review/ interview peers
1. Lit. By administrators?          record layout?
        • Formal or informal?
1. Do By statute?
     • data fit theoretical      1. Do docs specify expected
   models?                          ranges & frequencies?
• Changes in collection
1.methods, data entry,
  Do a “critical biography” of   1. Are data values missing or
  the data                          out of range?
  vetting, updating, file
1.type/format?raise
  Does biography              1. Review major checklist
  critical warnings?
• Changes in users and
1.usage
  Have others run analysis of
  this data?
• Data cleaning
Construyendo una genealogía para la base de
datos objeto.- Advertencias importantes
 1. Planificación previa          1. Adquirir los últimos datos y
• ¿Hay cambios en las
  - Segundo monitor                  documentos relacionados
  - Aplicaciones
  definiciones? de bitácora       1. ¿Las tablas se ajustan al
    • ¿Por los administradores?
 1. Revisión de la literatura /      diseño determinado?
    • ¿ Formal o colegas
    entrevista deinformal?
    • ¿ Por ley?                  1. ¿ Los documentos especifican los
•1. Los datos se ajustan a los
  ¿ Hay cambios en los               rangos y frecuencias esperados?
    modelos teóricos?
  métodos de recolección,         1. ¿Hay valores de datos
 1. Haga una datos, vetos,
  ingreso de "biografía crítica"       faltantes o fuera de rango?
  actualización, el tipo/formato
    de los datos
  de archivo ? crea              1. Análisis estadístico
 1. ¿La biografía
• ¿Hay cambios críticas?
    advertencias en los usuarios Revise los puntos de atención
  y en el uso?
 1. Otros han realizado el                      mayores
• Limpieza de los datos
    análisis de estos datos?
Data Quality checkpoints

• Constancy of definitions and coding categories?
  • All at same time and location?
• Completeness: How many records have unfilled
  cells? Are the tendencies of “nulls” consistent in
  all records, variable types?
• Precision: Are the numbers rounded or?
  • Hope for fine-grained, not summaries or aggregates
  • Can be especially important with temporal and
    geographic data, i.e. What is the range(s) of the time
    scales?
Puntos de control de la calidad de los
datos
• ¿Hay constancia de las definiciones y categorías
  de codificación?
   • Todo en el mismo momento y lugar?
• Integridad: ¿Cuántos registros de datos tienen
  células sin llenar? ¿Son las tendencias de "nulos"
  consistentes en todos los registros, tipos de
  variables?
• Precisión: ¿Están los números redondeados o no?
• Espere datos detallados y no resúmenes o agregados
   • Puede ser especialmente importante con datos
     temporales y geográficos, ej. ¿ Cuál es el rango (s) de
     las escalas de tiempo?
Newsroom methods for
       measuring data quality




• Test frequencies on key fields
  Bicycle accidents in Seattle included a time field. But
  it was almost always noon when accidents occurred.
  Caveat: Don’t over-reach with your conclusions or
  analysis
Métodos de las salas de prensa o redacciones
     para medir la calidad de los datos




• Ponga a prueba las frecuencias en las áreas clave
   – La base de datos de los accidentes de bicicleta en Seattle
     incluye un campo de hora. Pero casi siempre era mediodía,
     cuando los accidentes se producían.
   – Advertencia: No se extralimite en sus
     conclusiones o análisis
Outliers are important
    Explore the reasons behind anomalies or unexpected
    trends in the data.
From the state of WA: After
going back and forth with our
analyst on this, we decided it
would be easiest for her to
just pull the data. You would
have been able to get most of
the way there through that
fiscal.wa.gov site, but there
was some stimulus money
you wouldn’t have captured
and we included the changes
so far to the current
biennium (based on the
supplemental the legislature
approved in December).
Los valores extremos son importantes
  Explore las razones detrás de las anomalías o tendencias
  inesperadas en los datos.
Desde el estado de WA: Después
de ir para adelante y para atrás
con nuestro analista en esto,
decidimos que sería más fácil
para ella sólo sacar los datos. Se
hubiera podido obtener las
mismas conclusiones a través del
sitio fiscal.wa.gov, pero había
dinero de estímulo que no se
hubiera conseguido así que se
incluyeron los cambios hasta el
momento para el bienio actual
(basado en el suplemento que la
Asamblea Legislativa aprobó en
diciembre).
Other Key Data Checks

            – When updating data,
              make sure nothing
              has changed. Check
              definitions for
              expansion or
              reduction. Talk to
              creator of the data.
            – Be ready to kill a
              story.
Otros controles claves de los datos
                                           • Al actualizar los datos,
                                             asegúrese de que nada
                                             ha cambiado. Revise las
King County inspecciones de restaurantes
                                             definiciones para la
                                             expansión o reducción.
                                             Hable con el creador de
                                             los datos.
                                           • Esté preparado para
                                             eliminar una historia.
                                           • O cambiar la historia
Other Key Data Checks
 – Do the math: run sums, percent change, other
   calculations. Test your math against the results in
   the database – do they match?
 – Look for unexpected nulls
 – Run a group by query and sort alphabetically by
   major fields to test for misspellings or other
   categorization errors.
 – If your data should include every city, or every
   county in the state, does it? Are you missing
   data?
Aspectos adicionales para validar los datos
 •   Haga el cálculo: ejecute las sumas, cambio en los
     porcentajes, otros cálculos. Ponga a prueba su
     matemáticas contra los resultados de la base de datos.
     ¿Coinciden?
 •   Busque nulos inesperados
 •   Corra un grupo de consulta y ordénelo alfabéticamente
     en los campos más importantes para probar si no hay
     errores ortográficos u otros errores en la
     categorización.
 •   Revise si los datos contemplan la información de todo
     lo que debería estar incluido. Por ejemplo, todas las
     ciudades o condados del estado. ¿Están? ¿Le faltan
     datos?
Other Key Data Checks

 – Check with experts
    • Research the methodology used with the kind of data
      you are working with.
    • Have experts test your analysis.
 – Version control for Web frameworks – use some
   kind of version control for your database, even if
   it’s in an Excel spreadsheet. Any time you change
   it, log what you did and when and why.
Aspectos adicionales para validar los datos

• Consulte con expertos
   • Investigue acerca de la metodología utilizada con
     datos similares a los datos con los que se está
     trabajando.
   • Haga que expertos prueben su análisis

   • El control de versiones para marcos en la web -
     Utilice algún tipo de control de versión de su base
     de datos, incluso aunque esté en una hoja de cálculo
     Excel. Cada vez que lo cambie, registre lo que hizo y
     cuándo y por qué.
Other Key Data Checks
– Test the data against source documents.
Aspecto adicional para validar los datos

 • Prueba de los datos contra los
   documentos originales.
   • ¿Existen leyes que originaron la base de
     datos que se creó?
   • Si es así, ¿los datos reflejan el lenguaje y la
     intención de esas leyes?
     ¿No es así? Entonces, el trabajo del
     periodista es preguntar "¿Por qué?"
Building genealogy for target DB
• Pre-plan                        • Acquire latest data and
   2nd monitor                      related docs

      NOW you are ready to
   “Logbook” apps
                                  • Do tables conform to record
• Lit. review/ interview peers      layout?

      write a story•Do docs&specifyon
• Do data fit theoretical
  models?
                                  based expected
                                 ranges frequencies?
                   a data base!values missing or
• Do a “critical biography” of
  the data
                               • Are data
                                 out of range?
• Does biography raise critical   • Review major checklist
  warnings?
• Have others run analysis of             Analysis
  this data?
Construyendo una genealogía para la base de
datos objeto.
• Planificación previa          •   Adquirir los últimos datos y
 - Segundo monitor                  documentos relacionados

        AHORA usted tablas se ajustan al
                   • ¿Las está
 - Aplicaciones de bitácora
• Revisión de la literatura /
                     diseño determinado?
      listo para escribir una
   entrevista de colegas        •   ¿Los documentos especifican
• Los datos se ajustan a los        los rangos y frecuencias
   modelos teóricos?                esperados?
        historia basada en datos
                   • ¿Hay valores de
• Haga una "biografía
                     faltantes o fuera de rango?
   crítica" de los datos
        una base deRevisede atenciónmayores
                   • datos!
• ¿La biografía crea         los puntos
   advertencias críticas?
• Otros han realizado el                    Análisis
  análisis de estos datos?
Summing Up

• Databases are constantly dynamic, “living” things.
  Look for and measure their energy and change.
• Beware of rounding error
   – Always try to get the most fine-grained data possible in its
     ORIGINAL data form or application, i.e. avoid PDFs with
     SUMMARY data
• Beware of changing definitions
• Beware of changing…
   • Data collectors, data entry personnel, changing process of
     editing and usage.
Recapitulación

• Las bases de datos son cosas constantemente
  dinámicas y vivas. Busca y mide su energía y
  cambio.
• Tenga cuidado con los errores de redondeo
  • Siempre trate de obtener los datos más detallados posible en su
    forma de datos o aplicación original, es decir, evitar los archivos
    PDF con los datos RESUMEN
• Tenga cuidado con las definiciones cambiantes
• Tenga cuidado con los cambios de …
  • Los recolectores de datos, personal que ingresa los
    datos, el cambio en el proceso de edición y uso.
“OK, but where did that data come from?”

         Many Thanks
        Data validation in the
 This PowerPoint deck and Tipsheets posted at:


    http:// s d r v . m s / w N t i M 7
Tom Johnson                                          Cheryl Phillips
Managing Director                           Data Enterprise Editor
Inst. for Analytic Journalism                        Seattle Times
Santa Fe, New Mexico USA                  Seattle, Washington USA
tom@jtjohnson.com
                                cphillips@seattletImes.com
                                                                 43
“OK, pero de dónde vinieron los datos?”

        Muchas Gracias
        Data validation in the
 Esta presentación de PowerPoint y Hojas de Tips están
 publicadas en:


   http:// s d r v . m s / w N t i M 7
Tom Johnson                                              Cheryl Phillips
Director Gerente                                Data Enterprise Editor
                                                         Seattle Times
Instituto de Periodismo Analítico
                                              Seattle, Washington USA
Santa Fe, New Mexico USA
                                    cphillips@seattletImes.com
tom@jtjohnson.com
                                                                     44
Big topic:
       Are there other
       agencies or institutions
       already looking at the
       same data?
Source: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html
2011 Data de Verificación de Ayuda a América a Votar




       Gran tema:
       ¿Hay otras agencias o
       instituciones que ya
       están revisando los
       mismos datos?
Fuente: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Contenu connexe

Similaire à Esp #002-validación de datos en la era digital-traducido

Biología Computacional
Biología ComputacionalBiología Computacional
Biología ComputacionalYajamal
 
Tableau Public: Herramienta para la visualización de datos 1
Tableau Public: Herramienta para la visualización de datos 1Tableau Public: Herramienta para la visualización de datos 1
Tableau Public: Herramienta para la visualización de datos 1Francisco Pesante
 
Acceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actoresAcceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actoresTorres Salinas
 
IIBI Seminario Q.pptx
IIBI Seminario Q.pptxIIBI Seminario Q.pptx
IIBI Seminario Q.pptxLourdes Feria
 
Analisis y diseño de una base de datos proyecto 1era parte
Analisis y diseño de una base de datos  proyecto 1era parte Analisis y diseño de una base de datos  proyecto 1era parte
Analisis y diseño de una base de datos proyecto 1era parte Jaime David Romero Olivo
 
Periodismo de Datos: Definiciones y Buenas Prácticas
Periodismo de Datos: Definiciones y Buenas PrácticasPeriodismo de Datos: Definiciones y Buenas Prácticas
Periodismo de Datos: Definiciones y Buenas PrácticasSandra Crucianelli
 
Mirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigaciónMirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigaciónFernando-Ariel Lopez
 
Taller No. 1 Introducción Bases de Datos - Bairon Martinez.pdf
Taller No. 1 Introducción Bases de Datos - Bairon Martinez.pdfTaller No. 1 Introducción Bases de Datos - Bairon Martinez.pdf
Taller No. 1 Introducción Bases de Datos - Bairon Martinez.pdfBaironMartinez7
 
Técnicas investigación social
Técnicas investigación socialTécnicas investigación social
Técnicas investigación socialMarjorie Picott
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 
@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datos@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datosgrmadryn
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasFelipe Vera (Prodigio Consultores)
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDataLab Community
 
Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...
Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...
Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...Miguel Palau
 

Similaire à Esp #002-validación de datos en la era digital-traducido (20)

Biología Computacional
Biología ComputacionalBiología Computacional
Biología Computacional
 
Big data
Big dataBig data
Big data
 
Tableau Public: Herramienta para la visualización de datos 1
Tableau Public: Herramienta para la visualización de datos 1Tableau Public: Herramienta para la visualización de datos 1
Tableau Public: Herramienta para la visualización de datos 1
 
Open Data, Linked Data, .... Big Data
Open Data, Linked Data, .... Big DataOpen Data, Linked Data, .... Big Data
Open Data, Linked Data, .... Big Data
 
Acceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actoresAcceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actores
 
IIBI Seminario Q.pptx
IIBI Seminario Q.pptxIIBI Seminario Q.pptx
IIBI Seminario Q.pptx
 
Analisis y diseño de una base de datos proyecto 1era parte
Analisis y diseño de una base de datos  proyecto 1era parte Analisis y diseño de una base de datos  proyecto 1era parte
Analisis y diseño de una base de datos proyecto 1era parte
 
Información, informática y cienciometría para envejecimiento
Información, informática y cienciometría  para envejecimientoInformación, informática y cienciometría  para envejecimiento
Información, informática y cienciometría para envejecimiento
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Periodismo de Datos: Definiciones y Buenas Prácticas
Periodismo de Datos: Definiciones y Buenas PrácticasPeriodismo de Datos: Definiciones y Buenas Prácticas
Periodismo de Datos: Definiciones y Buenas Prácticas
 
Mirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigaciónMirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigación
 
Taller No. 1 Introducción Bases de Datos - Bairon Martinez.pdf
Taller No. 1 Introducción Bases de Datos - Bairon Martinez.pdfTaller No. 1 Introducción Bases de Datos - Bairon Martinez.pdf
Taller No. 1 Introducción Bases de Datos - Bairon Martinez.pdf
 
Técnicas investigación social
Técnicas investigación socialTécnicas investigación social
Técnicas investigación social
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datos@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datos
 
BIG DATA - Jhonatan Cárdenas COL
BIG DATA - Jhonatan Cárdenas COLBIG DATA - Jhonatan Cárdenas COL
BIG DATA - Jhonatan Cárdenas COL
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecas
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data Science
 
Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...
Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...
Etnomineria de Datos: Caracterización (etnopsi-quiatríca) de una muestra de u...
 

Plus de J T "Tom" Johnson

Doing Journalism in The Digital Age.
Doing Journalism in The Digital Age.  Doing Journalism in The Digital Age.
Doing Journalism in The Digital Age. J T "Tom" Johnson
 
Death (or Live?) of American Journalism-Part 2
 Death (or Live?) of American Journalism-Part 2 Death (or Live?) of American Journalism-Part 2
Death (or Live?) of American Journalism-Part 2J T "Tom" Johnson
 
Death (or Live?) of American Journalism-Part 1
 Death (or Live?) of American Journalism-Part 1 Death (or Live?) of American Journalism-Part 1
Death (or Live?) of American Journalism-Part 1J T "Tom" Johnson
 
Dominican republic journos cir 31 jan 2020
Dominican republic journos   cir 31 jan 2020Dominican republic journos   cir 31 jan 2020
Dominican republic journos cir 31 jan 2020J T "Tom" Johnson
 
Presentation to Journalists from the Dominican Republic
Presentation to Journalists from the Dominican RepublicPresentation to Journalists from the Dominican Republic
Presentation to Journalists from the Dominican RepublicJ T "Tom" Johnson
 
Data can only dance with its music NICAR17
Data can only dance with its music NICAR17Data can only dance with its music NICAR17
Data can only dance with its music NICAR17J T "Tom" Johnson
 
Building Data-centric Media Organizations
Building Data-centric Media OrganizationsBuilding Data-centric Media Organizations
Building Data-centric Media OrganizationsJ T "Tom" Johnson
 
Esp #003-open-datamovement-traducido
 Esp #003-open-datamovement-traducido Esp #003-open-datamovement-traducido
Esp #003-open-datamovement-traducidoJ T "Tom" Johnson
 
Esp #004-proceso de periodismo en el nuevo datosfera-traducido
 Esp #004-proceso de periodismo en el nuevo datosfera-traducido Esp #004-proceso de periodismo en el nuevo datosfera-traducido
Esp #004-proceso de periodismo en el nuevo datosfera-traducidoJ T "Tom" Johnson
 
Data validation in the Digital Age
Data validation in the Digital AgeData validation in the Digital Age
Data validation in the Digital AgeJ T "Tom" Johnson
 
The Global Open Data Movement
The Global Open Data MovementThe Global Open Data Movement
The Global Open Data MovementJ T "Tom" Johnson
 
The s+a3 project: leveraging analytic resources
The s+a3 project: leveraging analytic resourcesThe s+a3 project: leveraging analytic resources
The s+a3 project: leveraging analytic resourcesJ T "Tom" Johnson
 
It's not the documents; it's the DATA
It's not the documents; it's the DATAIt's not the documents; it's the DATA
It's not the documents; it's the DATAJ T "Tom" Johnson
 
IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...
IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...
IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...J T "Tom" Johnson
 
Analytic Journalism: Digital Evolution in the Datasphere
Analytic Journalism: Digital Evolution in the DatasphereAnalytic Journalism: Digital Evolution in the Datasphere
Analytic Journalism: Digital Evolution in the DatasphereJ T "Tom" Johnson
 
Be your own publisher seminar 2010-session A
Be your own publisher seminar 2010-session ABe your own publisher seminar 2010-session A
Be your own publisher seminar 2010-session AJ T "Tom" Johnson
 
Be your own publisher seminar calif april 2010-session1_b_darkbkgd
Be your own publisher seminar  calif april 2010-session1_b_darkbkgdBe your own publisher seminar  calif april 2010-session1_b_darkbkgd
Be your own publisher seminar calif april 2010-session1_b_darkbkgdJ T "Tom" Johnson
 
Be your own publisher seminar calif april 2010-session1_c_darkbkgd
Be your own publisher seminar  calif april 2010-session1_c_darkbkgdBe your own publisher seminar  calif april 2010-session1_c_darkbkgd
Be your own publisher seminar calif april 2010-session1_c_darkbkgdJ T "Tom" Johnson
 

Plus de J T "Tom" Johnson (20)

Doing Journalism in The Digital Age.
Doing Journalism in The Digital Age.  Doing Journalism in The Digital Age.
Doing Journalism in The Digital Age.
 
Death (or Live?) of American Journalism-Part 2
 Death (or Live?) of American Journalism-Part 2 Death (or Live?) of American Journalism-Part 2
Death (or Live?) of American Journalism-Part 2
 
Death (or Live?) of American Journalism-Part 1
 Death (or Live?) of American Journalism-Part 1 Death (or Live?) of American Journalism-Part 1
Death (or Live?) of American Journalism-Part 1
 
Dominican republic journos cir 31 jan 2020
Dominican republic journos   cir 31 jan 2020Dominican republic journos   cir 31 jan 2020
Dominican republic journos cir 31 jan 2020
 
Presentation to Journalists from the Dominican Republic
Presentation to Journalists from the Dominican RepublicPresentation to Journalists from the Dominican Republic
Presentation to Journalists from the Dominican Republic
 
Data can only dance with its music NICAR17
Data can only dance with its music NICAR17Data can only dance with its music NICAR17
Data can only dance with its music NICAR17
 
Building Data-centric Media Organizations
Building Data-centric Media OrganizationsBuilding Data-centric Media Organizations
Building Data-centric Media Organizations
 
Esp #003-open-datamovement-traducido
 Esp #003-open-datamovement-traducido Esp #003-open-datamovement-traducido
Esp #003-open-datamovement-traducido
 
Esp #004-proceso de periodismo en el nuevo datosfera-traducido
 Esp #004-proceso de periodismo en el nuevo datosfera-traducido Esp #004-proceso de periodismo en el nuevo datosfera-traducido
Esp #004-proceso de periodismo en el nuevo datosfera-traducido
 
Data validation in the Digital Age
Data validation in the Digital AgeData validation in the Digital Age
Data validation in the Digital Age
 
The Global Open Data Movement
The Global Open Data MovementThe Global Open Data Movement
The Global Open Data Movement
 
It's the people's data
It's the people's dataIt's the people's data
It's the people's data
 
The s+a3 project: leveraging analytic resources
The s+a3 project: leveraging analytic resourcesThe s+a3 project: leveraging analytic resources
The s+a3 project: leveraging analytic resources
 
It's not the documents; it's the DATA
It's not the documents; it's the DATAIt's not the documents; it's the DATA
It's not the documents; it's the DATA
 
IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...
IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...
IRE "Better Watchdog" workshop presentation "Data: Now I've got it, what do I...
 
Analytic Journalism: Digital Evolution in the Datasphere
Analytic Journalism: Digital Evolution in the DatasphereAnalytic Journalism: Digital Evolution in the Datasphere
Analytic Journalism: Digital Evolution in the Datasphere
 
Numeracy for journos
Numeracy for journosNumeracy for journos
Numeracy for journos
 
Be your own publisher seminar 2010-session A
Be your own publisher seminar 2010-session ABe your own publisher seminar 2010-session A
Be your own publisher seminar 2010-session A
 
Be your own publisher seminar calif april 2010-session1_b_darkbkgd
Be your own publisher seminar  calif april 2010-session1_b_darkbkgdBe your own publisher seminar  calif april 2010-session1_b_darkbkgd
Be your own publisher seminar calif april 2010-session1_b_darkbkgd
 
Be your own publisher seminar calif april 2010-session1_c_darkbkgd
Be your own publisher seminar  calif april 2010-session1_c_darkbkgdBe your own publisher seminar  calif april 2010-session1_c_darkbkgd
Be your own publisher seminar calif april 2010-session1_c_darkbkgd
 

Dernier

BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfBITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfsolidalilaalvaradoro
 
4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx
4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx
4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptxfotofamilia008
 
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.karlazoegarciagarcia
 
Buenas Practicas de Manufactura para Industria Farmaceutica
Buenas Practicas de Manufactura para Industria FarmaceuticaBuenas Practicas de Manufactura para Industria Farmaceutica
Buenas Practicas de Manufactura para Industria FarmaceuticaMarco Camacho
 
MEDIACIÓN INTERNACIONAL MF 1445 vl45.pdf
MEDIACIÓN INTERNACIONAL MF 1445 vl45.pdfMEDIACIÓN INTERNACIONAL MF 1445 vl45.pdf
MEDIACIÓN INTERNACIONAL MF 1445 vl45.pdfJosé Hecht
 
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...MagalyDacostaPea
 
5º SOY LECTOR PART1- MD EDUCATIVO.pdfde
5º SOY LECTOR PART1- MD  EDUCATIVO.pdfde5º SOY LECTOR PART1- MD  EDUCATIVO.pdfde
5º SOY LECTOR PART1- MD EDUCATIVO.pdfdeBelnRosales2
 
Catálogo general de libros de la Editorial Albatros
Catálogo general de libros de la Editorial AlbatrosCatálogo general de libros de la Editorial Albatros
Catálogo general de libros de la Editorial AlbatrosGustavoCanevaro
 
Campaña Verano 2024 en Bergara - Colonias 2024
Campaña Verano 2024 en Bergara - Colonias 2024Campaña Verano 2024 en Bergara - Colonias 2024
Campaña Verano 2024 en Bergara - Colonias 2024Bergarako Udala
 
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docxMagalyDacostaPea
 
Presentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsa
Presentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsaPresentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsa
Presentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsaFarid Abud
 
HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).
HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).
HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).hebegris04
 
Presentación MF 1445 EVALUACION COMO Y QUE
Presentación MF 1445 EVALUACION COMO Y QUEPresentación MF 1445 EVALUACION COMO Y QUE
Presentación MF 1445 EVALUACION COMO Y QUEJosé Hecht
 
Filosofía del gobierno del general Alfaro
Filosofía del gobierno del general AlfaroFilosofía del gobierno del general Alfaro
Filosofía del gobierno del general AlfaroJosé Luis Palma
 
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...Martin M Flynn
 
Docencia en la Era de la Inteligencia Artificial UB4 Ccesa007.pdf
Docencia en la Era de la Inteligencia Artificial UB4  Ccesa007.pdfDocencia en la Era de la Inteligencia Artificial UB4  Ccesa007.pdf
Docencia en la Era de la Inteligencia Artificial UB4 Ccesa007.pdfDemetrio Ccesa Rayme
 
✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf
✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf
✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdfrevelesyessica91
 
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJODIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJOLeninCariMogrovejo
 

Dernier (20)

BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfBITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
 
4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx
4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx
4° SEM23 ANEXOS DEL DOCENTE 2023-2024.pptx
 
Acuerdo segundo periodo - Grado Noveno.pptx
Acuerdo segundo periodo - Grado Noveno.pptxAcuerdo segundo periodo - Grado Noveno.pptx
Acuerdo segundo periodo - Grado Noveno.pptx
 
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
 
Buenas Practicas de Manufactura para Industria Farmaceutica
Buenas Practicas de Manufactura para Industria FarmaceuticaBuenas Practicas de Manufactura para Industria Farmaceutica
Buenas Practicas de Manufactura para Industria Farmaceutica
 
MEDIACIÓN INTERNACIONAL MF 1445 vl45.pdf
MEDIACIÓN INTERNACIONAL MF 1445 vl45.pdfMEDIACIÓN INTERNACIONAL MF 1445 vl45.pdf
MEDIACIÓN INTERNACIONAL MF 1445 vl45.pdf
 
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
 
5º SOY LECTOR PART1- MD EDUCATIVO.pdfde
5º SOY LECTOR PART1- MD  EDUCATIVO.pdfde5º SOY LECTOR PART1- MD  EDUCATIVO.pdfde
5º SOY LECTOR PART1- MD EDUCATIVO.pdfde
 
Catálogo general de libros de la Editorial Albatros
Catálogo general de libros de la Editorial AlbatrosCatálogo general de libros de la Editorial Albatros
Catálogo general de libros de la Editorial Albatros
 
Campaña Verano 2024 en Bergara - Colonias 2024
Campaña Verano 2024 en Bergara - Colonias 2024Campaña Verano 2024 en Bergara - Colonias 2024
Campaña Verano 2024 en Bergara - Colonias 2024
 
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
 
Presentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsa
Presentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsaPresentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsa
Presentacionde Prueba 2024 dsdasdasdsadsadsadsadasdasdsadsa
 
Acuerdo segundo periodo - Grado Septimo.pptx
Acuerdo segundo periodo - Grado Septimo.pptxAcuerdo segundo periodo - Grado Septimo.pptx
Acuerdo segundo periodo - Grado Septimo.pptx
 
HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).
HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).
HISTORIETA: AVENTURAS VERDES (ECOLOGÍA).
 
Presentación MF 1445 EVALUACION COMO Y QUE
Presentación MF 1445 EVALUACION COMO Y QUEPresentación MF 1445 EVALUACION COMO Y QUE
Presentación MF 1445 EVALUACION COMO Y QUE
 
Filosofía del gobierno del general Alfaro
Filosofía del gobierno del general AlfaroFilosofía del gobierno del general Alfaro
Filosofía del gobierno del general Alfaro
 
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
 
Docencia en la Era de la Inteligencia Artificial UB4 Ccesa007.pdf
Docencia en la Era de la Inteligencia Artificial UB4  Ccesa007.pdfDocencia en la Era de la Inteligencia Artificial UB4  Ccesa007.pdf
Docencia en la Era de la Inteligencia Artificial UB4 Ccesa007.pdf
 
✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf
✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf
✨☀🛰LOS_ECLIPSES_Y_EL_SISTEMA_SOLAR_🚀☄CUADERNILLO_DE_ACTIVIDADES🌌Esmeralda.pdf
 
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJODIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
 

Esp #002-validación de datos en la era digital-traducido

  • 1. “OK, but where did that data come from?” Data validation in the Digital Age Tom Johnson Cheryl Phillips Managing Director Data Enterprise Editor Inst. for Analytic Journalism Seattle Times Santa Fe, New Mexico USA Seattle, Washington USA tom@jtjohnson.com cphillips@seattletImes.com 1
  • 2. “OK, pero ¿de dónde provienen los datos?” Validación de datos en la Era Digital Tom Johnson Managing Director Inst. for Analytic Journalism Santa Fe, New Mexico USA tom@jtjohnson.com 2
  • 3. Data validation in the Digital Age Presentation by Cheryl Phillips and Tom Johnson at National Institute of Computer-Assisted Reporting Conference Date/Time: Friday, Feb. 24 at 11 a.m. Location: Frisco/Burlington Room St. Louis, Missouri USA This PowerPoint deck and Tipsheets posted at: http:// s d r v . m s / w N t i M 7 3
  • 4. Validación de datos en la Era Digital Presentación por Tom Johnson en Fecha/Hora: Locación: Gracias a Cheryl Phillips, Data Enterprise Editor, Seattle Times Seattle, Washington USA Esta presentación de Power Point y hoja de tips están publicados en FIX THIS http:// s d r v . m s / w N t iM7 4
  • 5. The methodology / = the value of the data set and your story 1 Important point Open data is good; bad data is bad. 5
  • 6. The methodology / = the value of the data set and your story 1 Punto importante Siempre se debe Open data es que todos los asumir buena, pero están sucios. Por datos datos malos, son deben ser lo tanto, malos. probados para la validación. 6
  • 7. The methodology / = the value of the data set and your story 2 Important point A data base (or report) is only as good as the methodology used to create it. 7
  • 8. 2 The methodology / = the value of the data set and your story Punto importante Una base de datos (o informe) es sólo tan buena como la metodología utilizada para crearla. 8
  • 9. 3 Data sets are living things; they have pedigree and genealogy Important points •Most [all?] data sets are living things. •And they have a pedigree, a genealogy. •Data sets live in a dynamic environment. •Understand the DB ecology 9
  • 10. 3 Data sets are living things; they have pedigree and genealogy Punto importante •La mayoría [casi todos] los conjuntos de datos se refieren a seres vivos •Y tienen un árbol genealógico, una genealogía. •Los conjuntos de datos viven en un ambiente dinámico. •Entender la ecología de las bases de datos 10
  • 11. How bad data can mislead Illinois and Missouri sex-offender DB •“St. Louis Post-Dispatch - 2 May 1999: A11 – “ABOUT 700 SEX OFFENDERS DO NOT APPEAR TO LIVE AT THE ADDRESSES LISTED ON A ST. LOUIS REGISTRY; MANY SEX OFFENDERS NEVER MAKE THE LIST” By Reese Dunklin; Data Analysis By David Heath and Julie Luca •Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A “Criminal checks deficient; State's database of convictions is hurt by lack of reporting, putting public safety at risk, law officials say” By Diane Jennings and Darlean Spangenberger •See stories here
  • 12. Cómo los malos datos pueden inducir a error La base de datos de los delicuentes sexuales de los estados de Illinois y Missouri “St. Louis Post-Dispatch - 2 Mayo 1999: A11 – “Alrededor de 700 delincuentes sexuales no parecen vivir en las direcciones señaladas en un registro de ST. LUIS. Muchos delincuentes sexuales no aparecen en la lista” By Reese Dunklin; Data Analysis By David Heath and Julie Luca •Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A “Controles criminales deficientes. La base de datos de las condenas del estado se ve perjudicada por la falta de información, poniendo en riesgo la seguridad pública, afirman los funcionarios encargados .” By Diane Jennings and Darlean Spangenberger •Vea la historia aquí
  • 13. VideoClip URL
  • 14. Reportero de WKRC televisión vinculado a delincuente sexual registrado El reportero de WKRC, Rich Jaffe, enfrenta un problema: de acuerdo a documentos policiales, él es un delicuente sexual Ejemplo de un reportero que descubre que su nombre está en una base de datos de delincuentes sexuales porque alguien usó su número de seguro social. (Como si usaran la "cédula“ o carnet de identificación.) URL VideoClip
  • 15. How bad data can do you wrong 2011 - New Mexico Sec. of State’s “questionable voters” data set – “The Big Bundle” •~1.1m voters •Previous SoS didn’t clean voter rolls •Matched name, address, DoB and SS# – SSA data base; NM driver’s licenses – 2 variables “mismatch” =  Questionable? – Asked State Police (not AG’s office) to investigate
  • 16. Cómo los datos incorrectos pueden hacerle daño 2011 – Conjunto de datos de votantes cuestionables de la Secretaría del Estado de Nuevo México- "El paquete grande“ ~1.1m votantes en total: cuestionables 67.000 •El SoS previo no limpió las lista de votantes •Se cotejaron nombres, dirección, fecha de nacimiento y #SS – Las bases de datos de la SSA, las licencias de conducir de Nuevo México – 2 variables “no coincidieron" cuestionable? – Se solicitó a la policía del Estado (no a la oficina AG) que investigara
  • 17. Problems with Sec. of State methodology • What’s the error rate of original DB? • Definition of “error”? (Gonzales or Gonzalez) • Sample(s) by county and state total? • Error rates of comparative DBs? • Aggregation of error problem • 2011 Help America Vote Verification Transaction Totals, Year-to-Date, by State https://www.socialsecurity.gov/open/havv/havv-year-
  • 18. Problemas con la metodología de la Sec. de Estado • ¿Cuál es la tasa de error de la base de datos original? • Definición de "error"? (Gonzáles o González) • Totales de las muestras por condados y estados? • Tasas de error de bases de datos comparativas? • El problema de la agregación del error. • Totales del 2011 de las transacciones de verificación de Ayude a América a Votar, Año a fecha por estado. • https://www.socialsecurity.gov/open/havv/havv-year-to
  • 19. There be dragons! A most Data base wonderful rich with story!!! potential 19
  • 20. Validación del proceso de bases de datos Hay dragones! Base de Un datos rica reportaje en potencial maravilloso 20
  • 21. Building genealogy for target DB 1. Pre-plan 1. Acquire latest data and •2nd monitor related documents •“Logbook” apps 1. Do tables conform to 1. Lit. review/ interview peers record layout? 1. Do data fit theoretical 1. Do documents specify expected models? ranges & frequencies? 1. Do a “critical biography” of 1. Are data values missing or the data out of range? 1. Does biography raise 1. Statistical analysis critical warnings? 1. Have others run analysis of Review major checklist this data? Source: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe, NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459
  • 22. Construyendo una genealogía para la base de datos objeto. 1. Planificación previa 1. Adquirir los últimos datos y - Segundo monitor documentos relacionados - Aplicaciones de bitácora 1. ¿Las tablas se ajustan al 1. Revisión de la literatura / diseño determinado? entrevista de colegas 1. ¿ Los documentos especifican los 1. Los datos se ajustan a los rangos y frecuencias esperados? modelos teóricos? 1. ¿Hay valores de datos 1. Haga una "biografía crítica" faltantes o fuera de rango? de los datos 1. ¿La biografía crea 1. Análisis estadístico advertencias críticas? Revise los puntos de atención 1. Otros han realizado el mayores análisis de estos datos? Fuente: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe, NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459
  • 23. Building genealogy for target DB 1. Pre-plan 1. Acquire latest data and • Changes in •2nd monitor related docs definitions? •“Logbook” apps 1. Do tables conform to • review/ interview peers 1. Lit. By administrators? record layout? • Formal or informal? 1. Do By statute? • data fit theoretical 1. Do docs specify expected models? ranges & frequencies? • Changes in collection 1.methods, data entry, Do a “critical biography” of 1. Are data values missing or the data out of range? vetting, updating, file 1.type/format?raise Does biography 1. Review major checklist critical warnings? • Changes in users and 1.usage Have others run analysis of this data? • Data cleaning
  • 24. Construyendo una genealogía para la base de datos objeto.- Advertencias importantes 1. Planificación previa 1. Adquirir los últimos datos y • ¿Hay cambios en las - Segundo monitor documentos relacionados - Aplicaciones definiciones? de bitácora 1. ¿Las tablas se ajustan al • ¿Por los administradores? 1. Revisión de la literatura / diseño determinado? • ¿ Formal o colegas entrevista deinformal? • ¿ Por ley? 1. ¿ Los documentos especifican los •1. Los datos se ajustan a los ¿ Hay cambios en los rangos y frecuencias esperados? modelos teóricos? métodos de recolección, 1. ¿Hay valores de datos 1. Haga una datos, vetos, ingreso de "biografía crítica" faltantes o fuera de rango? actualización, el tipo/formato de los datos de archivo ? crea 1. Análisis estadístico 1. ¿La biografía • ¿Hay cambios críticas? advertencias en los usuarios Revise los puntos de atención y en el uso? 1. Otros han realizado el mayores • Limpieza de los datos análisis de estos datos?
  • 25. Data Quality checkpoints • Constancy of definitions and coding categories? • All at same time and location? • Completeness: How many records have unfilled cells? Are the tendencies of “nulls” consistent in all records, variable types? • Precision: Are the numbers rounded or? • Hope for fine-grained, not summaries or aggregates • Can be especially important with temporal and geographic data, i.e. What is the range(s) of the time scales?
  • 26. Puntos de control de la calidad de los datos • ¿Hay constancia de las definiciones y categorías de codificación? • Todo en el mismo momento y lugar? • Integridad: ¿Cuántos registros de datos tienen células sin llenar? ¿Son las tendencias de "nulos" consistentes en todos los registros, tipos de variables? • Precisión: ¿Están los números redondeados o no? • Espere datos detallados y no resúmenes o agregados • Puede ser especialmente importante con datos temporales y geográficos, ej. ¿ Cuál es el rango (s) de las escalas de tiempo?
  • 27. Newsroom methods for measuring data quality • Test frequencies on key fields Bicycle accidents in Seattle included a time field. But it was almost always noon when accidents occurred. Caveat: Don’t over-reach with your conclusions or analysis
  • 28. Métodos de las salas de prensa o redacciones para medir la calidad de los datos • Ponga a prueba las frecuencias en las áreas clave – La base de datos de los accidentes de bicicleta en Seattle incluye un campo de hora. Pero casi siempre era mediodía, cuando los accidentes se producían. – Advertencia: No se extralimite en sus conclusiones o análisis
  • 29. Outliers are important Explore the reasons behind anomalies or unexpected trends in the data. From the state of WA: After going back and forth with our analyst on this, we decided it would be easiest for her to just pull the data. You would have been able to get most of the way there through that fiscal.wa.gov site, but there was some stimulus money you wouldn’t have captured and we included the changes so far to the current biennium (based on the supplemental the legislature approved in December).
  • 30. Los valores extremos son importantes Explore las razones detrás de las anomalías o tendencias inesperadas en los datos. Desde el estado de WA: Después de ir para adelante y para atrás con nuestro analista en esto, decidimos que sería más fácil para ella sólo sacar los datos. Se hubiera podido obtener las mismas conclusiones a través del sitio fiscal.wa.gov, pero había dinero de estímulo que no se hubiera conseguido así que se incluyeron los cambios hasta el momento para el bienio actual (basado en el suplemento que la Asamblea Legislativa aprobó en diciembre).
  • 31. Other Key Data Checks – When updating data, make sure nothing has changed. Check definitions for expansion or reduction. Talk to creator of the data. – Be ready to kill a story.
  • 32. Otros controles claves de los datos • Al actualizar los datos, asegúrese de que nada ha cambiado. Revise las King County inspecciones de restaurantes definiciones para la expansión o reducción. Hable con el creador de los datos. • Esté preparado para eliminar una historia. • O cambiar la historia
  • 33. Other Key Data Checks – Do the math: run sums, percent change, other calculations. Test your math against the results in the database – do they match? – Look for unexpected nulls – Run a group by query and sort alphabetically by major fields to test for misspellings or other categorization errors. – If your data should include every city, or every county in the state, does it? Are you missing data?
  • 34. Aspectos adicionales para validar los datos • Haga el cálculo: ejecute las sumas, cambio en los porcentajes, otros cálculos. Ponga a prueba su matemáticas contra los resultados de la base de datos. ¿Coinciden? • Busque nulos inesperados • Corra un grupo de consulta y ordénelo alfabéticamente en los campos más importantes para probar si no hay errores ortográficos u otros errores en la categorización. • Revise si los datos contemplan la información de todo lo que debería estar incluido. Por ejemplo, todas las ciudades o condados del estado. ¿Están? ¿Le faltan datos?
  • 35. Other Key Data Checks – Check with experts • Research the methodology used with the kind of data you are working with. • Have experts test your analysis. – Version control for Web frameworks – use some kind of version control for your database, even if it’s in an Excel spreadsheet. Any time you change it, log what you did and when and why.
  • 36. Aspectos adicionales para validar los datos • Consulte con expertos • Investigue acerca de la metodología utilizada con datos similares a los datos con los que se está trabajando. • Haga que expertos prueben su análisis • El control de versiones para marcos en la web - Utilice algún tipo de control de versión de su base de datos, incluso aunque esté en una hoja de cálculo Excel. Cada vez que lo cambie, registre lo que hizo y cuándo y por qué.
  • 37. Other Key Data Checks – Test the data against source documents.
  • 38. Aspecto adicional para validar los datos • Prueba de los datos contra los documentos originales. • ¿Existen leyes que originaron la base de datos que se creó? • Si es así, ¿los datos reflejan el lenguaje y la intención de esas leyes? ¿No es así? Entonces, el trabajo del periodista es preguntar "¿Por qué?"
  • 39. Building genealogy for target DB • Pre-plan • Acquire latest data and 2nd monitor related docs NOW you are ready to “Logbook” apps • Do tables conform to record • Lit. review/ interview peers layout? write a story•Do docs&specifyon • Do data fit theoretical models? based expected ranges frequencies? a data base!values missing or • Do a “critical biography” of the data • Are data out of range? • Does biography raise critical • Review major checklist warnings? • Have others run analysis of Analysis this data?
  • 40. Construyendo una genealogía para la base de datos objeto. • Planificación previa • Adquirir los últimos datos y - Segundo monitor documentos relacionados AHORA usted tablas se ajustan al • ¿Las está - Aplicaciones de bitácora • Revisión de la literatura / diseño determinado? listo para escribir una entrevista de colegas • ¿Los documentos especifican • Los datos se ajustan a los los rangos y frecuencias modelos teóricos? esperados? historia basada en datos • ¿Hay valores de • Haga una "biografía faltantes o fuera de rango? crítica" de los datos una base deRevisede atenciónmayores • datos! • ¿La biografía crea los puntos advertencias críticas? • Otros han realizado el Análisis análisis de estos datos?
  • 41. Summing Up • Databases are constantly dynamic, “living” things. Look for and measure their energy and change. • Beware of rounding error – Always try to get the most fine-grained data possible in its ORIGINAL data form or application, i.e. avoid PDFs with SUMMARY data • Beware of changing definitions • Beware of changing… • Data collectors, data entry personnel, changing process of editing and usage.
  • 42. Recapitulación • Las bases de datos son cosas constantemente dinámicas y vivas. Busca y mide su energía y cambio. • Tenga cuidado con los errores de redondeo • Siempre trate de obtener los datos más detallados posible en su forma de datos o aplicación original, es decir, evitar los archivos PDF con los datos RESUMEN • Tenga cuidado con las definiciones cambiantes • Tenga cuidado con los cambios de … • Los recolectores de datos, personal que ingresa los datos, el cambio en el proceso de edición y uso.
  • 43. “OK, but where did that data come from?” Many Thanks Data validation in the This PowerPoint deck and Tipsheets posted at: http:// s d r v . m s / w N t i M 7 Tom Johnson Cheryl Phillips Managing Director Data Enterprise Editor Inst. for Analytic Journalism Seattle Times Santa Fe, New Mexico USA Seattle, Washington USA tom@jtjohnson.com cphillips@seattletImes.com 43
  • 44. “OK, pero de dónde vinieron los datos?” Muchas Gracias Data validation in the Esta presentación de PowerPoint y Hojas de Tips están publicadas en: http:// s d r v . m s / w N t i M 7 Tom Johnson Cheryl Phillips Director Gerente Data Enterprise Editor Seattle Times Instituto de Periodismo Analítico Seattle, Washington USA Santa Fe, New Mexico USA cphillips@seattletImes.com tom@jtjohnson.com 44
  • 45. Big topic: Are there other agencies or institutions already looking at the same data? Source: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html
  • 46. 2011 Data de Verificación de Ayuda a América a Votar Gran tema: ¿Hay otras agencias o instituciones que ya están revisando los mismos datos? Fuente: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Notes de l'éditeur

  1. “ The devil is in the data” “ How pure/faulty/legit are the “genes” in your data? =================================================== Opener: They don’t believe us (perhaps with good reason). Get some stats on public’s trust of journalism and journalists. Way to save and perhaps improve our reputation is to make sure of the truthfulness – the validity – of what we are reporting. As we do more and more analysis of data as part of our stories, make sure we are analyzing correct and valid pure–quality data becomes crucial. (We should also be sharing out methods and data with the public, but that’s a topic for another session.)
  2. “ El diablo está en los datos” Qué tan puros/defectuosos/legítimos son los “genes” en sus datos? =================================================== Para abrir: Ellos no nos creen (quizás por buenas razones) Consiga unas estadísticas acerca de la confianza pública en los periodistas o el periodismo. Una manera de salvar y quizás mejorar nuestra reputación es aseguraranos de la veracidad –la validez- de lo que estamos informando. A medida que hacemos más y más análisis de datos como parte de nuestras historias, se vuelve crucial que nos aseguremos de que estamos analizando correcta y válidamente datos de calidad pura. (También deberíamos estar compartiendo los métodos y los datos con el público, pero eso es un tópico para otra sesión)
  3. Finding the headwaters of your data Tracing the process of DB creation Type of agency? Gov’t, NGO, non-profit, profit Who’s responsible for the DB conception? Mandated by legislation, federal or state regulations, executive order? Some administrator For what purpose? Who’s responsible for designing and defining… Variables Collection methods Quantitative or qualitative data? Degree of precision in classification, geography, dates, time-factor Self-reported? Census or sampling? Training for data collectors? Training and verification of classification assignment?
  4. Encontrando los orígenes de los datos Siguiendo el proceso de creación de base de datos Tipo de agencia? Gobierno? ONG? Sin fines de lucro, con fines de lucro Quién es responsable de la concepción de la base de datos? De acuerdo a la legislación, los reglamentos federales o estatales, un decreto ejecutivo? Algún administrador? Con qué propósito? Quién es el responsable de diseñar y definir ... Variables Formas de recolección Datos cualitativos o cuantitativos? Grado de precisión en la clasificación, geografía, fechas, factor tiempo Auto administrado? Censo o muestra? Entrenamiento para los encuestadores? Entrenamiento y verificación de las asignaciones de clasificación?
  5. The methodology determines the value of the data set and your story I’m suspicious of -- and reluctant to use – sweeping generalities and Adjectives, but in this case…. Do NOT assume that the data you receive from ANY source is valid. Appropriateness of method ALWAYS determines the validity of the analysis, though the method(s) (i.e. analytic tools) may vary depending on your objectives. Methods used to create a data set ALWAYS determine the validity and functionality of the data set Ergo, before we start crunching data and data mining, we need to recognize and know…. The methods used to create the data set determine: The reliability of the data set The functionality (for multiple audiences) of the data set (e.g. who called for the creation of this data set, when and why? Who is to use it for what ends? What is its “measured” value for original users and for our readers? Knowing and understanding those “methods of creation” determines the value of your analysis and, hence, your story.
  6. The methodology determines the value of the data set and your story I’m suspicious of -- and reluctant to use – sweeping generalities and Adjectives, but in this case…. Do NOT assume that the data you receive from ANY source is valid. Appropriateness of method ALWAYS determines the validity of the analysis, though the method(s) (i.e. analytic tools) may vary depending on your objectives. Methods used to create a data set ALWAYS determine the validity and functionality of the data set Ergo, before we start crunching data and data mining, we need to recognize and know…. The methods used to create the data set determine: The reliability of the data set The functionality (for multiple audiences) of the data set (e.g. who called for the creation of this data set, when and why? Who is to use it for what ends? What is its “measured” value for original users and for our readers? Knowing and understanding those “methods of creation” determines the value of your analysis and, hence, your story.
  7. The methodology determines the value of the data set and your story I’m suspicious of -- and reluctant to use – sweeping generalities and Adjectives, but in this case…. Do NOT assume that the data you receive from ANY source is valid. Appropriateness of method ALWAYS determines the validity of the analysis, though the method(s) (i.e. analytic tools) may vary depending on your objectives. Methods used to create a data set ALWAYS determine the validity and functionality of the data set Ergo, before we start crunching data and data mining, we need to recognize and know…. The methods used to create the data set determine: The reliability of the data set The functionality (for multiple audiences) of the data set (e.g. who called for the creation of this data set, when and why? Who is to use it for what ends? What is its “measured” value for original users and for our readers? Knowing and understanding those “methods of creation” determines the value of your analysis and, hence, your story.
  8. The methodology determines the value of the data set and your story I’m suspicious of -- and reluctant to use – sweeping generalities and Adjectives, but in this case…. Do NOT assume that the data you receive from ANY source is valid. Appropriateness of method ALWAYS determines the validity of the analysis, though the method(s) (i.e. analytic tools) may vary depending on your objectives. Methods used to create a data set ALWAYS determine the validity and functionality of the data set Ergo, before we start crunching data and data mining, we need to recognize and know…. The methods used to create the data set determine: The reliability of the data set The functionality (for multiple audiences) of the data set (e.g. who called for the creation of this data set, when and why? Who is to use it for what ends? What is its “measured” value for original users and for our readers? Knowing and understanding those “methods of creation” determines the value of your analysis and, hence, your story.
  9. Most [all?] data sets are living things . A data base, may look to be just a static matrix of text or numbers, but there are living, breathing dynamic forces at work in and around any data set that can provide an interesting context of understanding for journalists. And they have a pedigree, a genealogy. If we don’t understand that genealogy, we can’t evaluate – or properly use – that DB Data sets live in a dynamic environment. All data sets “live” in a context, in an environment in the datasphere that is constantly changing in terms of the validity of the data, who is collecting/updating/editing the data, who is using the data for what purposes and how often? How is Data Set A (or parts of it) related to DS B and C and G. And how do the administrators/analysts of the secondary data measure the quality of the data they are getting from DS A, if they do it at all? Understand the DB ecology See how the data set relates to other sets of data, agencies and users.
  10. Most [all?] data sets are living things . A data base, may look to be just a static matrix of text or numbers, but there are living, breathing dynamic forces at work in and around any data set that can provide an interesting context of understanding for journalists. And they have a pedigree, a genealogy. If we don’t understand that genealogy, we can’t evaluate – or properly use – that DB Data sets live in a dynamic environment. All data sets “live” in a context, in an environment in the datasphere that is constantly changing in terms of the validity of the data, who is collecting/updating/editing the data, who is using the data for what purposes and how often? How is Data Set A (or parts of it) related to DS B and C and G. And how do the administrators/analysts of the secondary data measure the quality of the data they are getting from DS A, if they do it at all? Understand the DB ecology See how the data set relates to other sets of data, agencies and users.
  11. Tom will had hyperlinks to these stories, though we might include them in handouts Get bibliography on SSA publications
  12. Illinois and Missouri sex-offender DB “ St. Louis Post-Dispatch - 2 May 1999: A11 – “ABOUT 700 SEX OFFENDERS DO NOT APPEAR TO LIVE AT THE ADDRESSES LISTED ON A ST. LOUIS REGISTRY; MANY SEX OFFENDERS NEVER MAKE THE LIST” By Reese Dunklin; Data Analysis By David Heath and Julie Luca Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A “Criminal checks deficient; State's database of convictions is hurt by lack of reporting, putting public safety at risk, law officials say” By Diane Jennings and Darlean Spangenberger See stories here
  13. Example of a reporter who had the same name in a data base of sexual criminal because the criminal used the reporter’s Social Security Administration number. Ejemplo de un reportero que descubre que su nombre está en una base de datos de delincuentes sexuales porque alguien usó su número de seguro social. (Como si usaran la "cédula“ o carnet de identificación.)
  14. ~1.1m voters 2011 - New Mexico Sec. of State’s “questionable voters” data set – “The Big Bundle” ~1.1m voters Previous SoS didn’t clean voter rolls Matched name, address, DoB and SS# SSA data base; NM driver’s licenses 2 variables “mismatch” =  Questionable? Asked State Police (not AG’s office) to investigate Get bibliography on SSA publications “ The biggest problem with E-Verify is that it’s based on SSA’s inaccurate records. SSA estimates that 17.8 million (or 4.1 percent) of its records contain discrepancies related to name, date of birth, or citizenship status, with 12.7 million of those records pertaining to U.S. citizens. That means E-Verify will erroneously tell you that 1 in 26 of your legal workforce is not actually legal.” http://www.laborcounselors.com/index.php?option=com_content&view=article&id=715:social-security-mismatch-and-immigration-2011-where-do-we-go-from-here&catid=44&Itemid=300008 “ The error rate for US citizens in the SSA data base is estimated to be 11 percent, meaning that 12.7 million of the 17.8 million "bad" SSNs in 2006 are believed to belong to US citizens, according to SSA's inspector general. “http://migration.ucdavis.edu/mn/more.php?id=3315_0_2_0 2011 Help America Vote Verification Transaction Totals, Year-to-Date, by State https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html Tom: I think the answer depends on how many records are in each db. If db1 is very large in comparison to db2, then the error rate should be close to 4.5%.  And vice versa. There's probably a formula for this, but I sure don't know it.  I'd do the match and then check a sample of the results to estimate the combined error rate. Steve Doig ======================= Let's say each db holds similar data and is the same size, 1000 records. Let's also assume that there are no records duplicated in the two databases, either internally or from one data set to the other. Then you have 45 bad records in one set, and 137 in the other. Combining, you have (45+137) = 182 bad records, in 2000 total records, or an error rate of 9.1%. Same process can be used to calculate error rate combining data from any number of sets, of any size as long as no records are duplicated. Error LIMITS/confidence intervals would be quite a different matter. Steve Ross Ah, but what if one DB has an error rate of 73% and the other has an error rate of 82%. How could you have an error rate >100%? Ergo, the question becomes: What is the lowest “acceptable” error rate for meaningful analysis. (Whatever “meaningful” means.)
  15. Conseguir bibliografía sobre las publicaciones de SSA El problema más grande con E-Verify es que está basado en los records inexactos del SSA. El SSA estima que 17.8 millones (el 4.1%) de sus records contienen discrepacias relacionadas con el nombre , fecha de nacimiento, estatus de ciudadanía, donde 12.7 millones de esos records pertenencen ciudadanos Norteamericanos. Eso quiere decir que E-Verify erroneamente reportará que 1 de cada 26 personas en la fuerza laboral legal, no son legales.” http://www.laborcounselors.com/index.php?option=com_content&view=article&id=715:social-security-mismatch-and-immigration-2011-where-do-we-go-from-here&catid=44&Itemid=300008 “ La tasa de error de los ciudadanos norteamericanos en la base de datos del SSA está estimado en un 11%, lo que quiere decir 12.7 millones de los 17.8 millions de números de seguro social incorrectos se supone que pertenecen a ciudadanos norteamericanos , según el inspector general del SSA. “http://migration.ucdavis.edu/mn/more.php?id=3315_0_2_0 Totales de 2011 de la verificación de transacciones del Ayude a América a Votar, Año a la fecha, por estado. https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html Tom: Yo creo que las respuestas dependen de cuántos records hay en cada base de datos. Si la base de datos 1 es muy grande en comparación con la base de datos 2 entonces el margen de error debería estar cerca al 4.5%. Y viceversa. Seguramente debe haber una fórmula para esto pero yo no la se. Yo haría el cotejo y luego revisaría una muestra de los resultados para estimar la tasa de error combinada. Steve Doig ======================= Digamos que cada base de datos tiene datos similares y que son del mismo tamaño, 1000 records. También asumamos que no hay records duplicados en estas dos bases de datos, ni internamente ni de un conjunto de datos al otro. Entonces se tiene 45 records malos en un conjunto y 137 en el otro. Combinándolos, se tiene, (45+137)= 182 records malos en un total de 2000 records, o una tasa de error del 9.1%. El mismo proceso se puede utilizar para calcular la tasa de error combinando datos de de cualquier número de conjuntos, de cualquier tamaño, mientras que ningún record esté duplicado. Los LÍMITES de error/intervalos de confianza serían un asunto muy distinto. Steve Ross Ah, pero que tal si una base de datos tiene una tasa de error del 73% y la otra tiene una tasa de error del 82%. Cómo se podría tener una tasa de error >100%? Ergo, la pregunta sería: Cuál es la tasa de error más baja “aceptable” para un análisis significativo? What is the lowest “acceptable” error rate for meaningful analysis. (Independientemente de lo que “significativo” pudiera significar.)
  16. Always a VERY complex problem for analysis bcs of “definitions,” changes over time and then statistical evaluation methods Asuma que puede determinar para el muestreo, que la Base de Datos “A” tiene un 8.5% de errores en los records. Asuma que la Base de Datos “B” tiene 11.3% de records con errores, ( ¿cómo definir “error”?) Si compara la una con la otra su probabilidad de error será 8.5+11.3 o 19.8% Ah, pero que tal si una base de datos tiene una tasa de error del 73% y la otra tiene una tasa de error del 82%. Cómo se podría tener una tasa de error >100%? Ergo, la pregunta sería: Cuál es la tasa de error más baja “aceptable” para un análisis significativo? What is the lowest “acceptable” error rate for meaningful analysis. (Independientemente de lo que “significativo” pudiera significar.) Las transacciones de Ayude a América a Votar? Note que Nuevo México no ha solicitado ninguna aclaración. El Seguro Social pone a disposición los datos del acta de Ayude a América a Votar   http://www.socialsecurity.gov/pressoffice/pr/HAVA-pr.html ( Versión amistosa para imprimir ) Michael J. Astrue, Comisionado del Seguro Social, anunció hoy que la agencia está publicando datos en su sitio de Gobierno Abierto www.socialsecurity.gov/open acerca de las verificaciones que la agencia conduce para los Estados que están bajo el acta de Ayude a América a Votar (HAVA) del 2002. Bajo HAVA a la mayoría de los Estados se les exige que verifiquen los últimos cuatro números del Seguro Social de la gente que son nuevos votantes y que no poseen una licencia de conducir válida del Estado. “ Yo respaldo firmemente el compromiso del Presidente Obama de crear un gobierno abierto y transparente” dijo el Comisionado Astrue. Mientras nos acercamos a otro año de elecciones federales se mantiene absolutamente crítico que los Americanos puedan registrarse para votar sin obstáculos indebidos. Poniendo estos datos a disposición del público permitirá que los medios y el público oportunamente plantee preguntas acerca de patrones imprevistos a los oficiales del Estado apropiados.” Los datos disponibles en www.socialsecurity.gov/open/havv representan un resumen de los resultados para cada Estado del cotejo de los cuatro dígitos realizados por el Seguro Social bajo el HAVA. # # # http://www.socialsecurity.gov/pressoffice/pr/HAVA-pr.html
  17. Problems with Sec. of State methodology What’s the error rate of original DB? Definition of “error”? (Gonzale s or Gonzale z ) Sample(s) by county and state total? Error rates of comparative DBs? Aggregation of error problem 2011 Help America Vote Verification Transaction Totals, Year-to-Date, by State https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html Siempre un problema MUY complejo para el análisis debido a las “definiciones”, cambios en el tiempo y además, métodos de evaluación estadística. Assume you can determine, from sampling, that Data Base “A” has 8.5% records with errors. Assume DB “B” has 11.3% of records with errors (how to define “error”?). If you compare one to the other, your probability of errors will be 8.5+11.3 or 19.8%. Ah, but what if one DB has an error rate of 73% and the other has an error rate of 82%. How could you have an error rate >100%? Ergo, the question becomes: What is the lowest “acceptable” error rate for meaningful analysis. (Whatever “meaningful” means.) Help America Vote Transactions? Note that New Mexico has not sought any clarifications. Social Security Makes Help America Vote Act Data Available   http://www.socialsecurity.gov/pressoffice/pr/HAVA-pr.html ( Printer friendly version ) Michael J. Astrue, Commissioner of Social Security, today announced the agency is publishing data on its Open Government website www.socialsecurity.gov/open about verifications the agency conducts for States under the Help America Vote Act (HAVA) of 2002.  Under HAVA, most States are required to verify the last four digits of the Social Security number of people newly registering to vote who do not possess a valid State driver's license. “ I strongly support President Obama’s commitment to creating an open and transparent government,” Commissioner Astrue said.  “As we approach another federal election year, it remains absolutely critical that Americans are able to register to vote without undue obstacles.  Making this data publicly available will allow the media and the public on a timely basis to raise questions about unexpected patterns with the appropriate State officials.” The data available at www.socialsecurity.gov/open/havv represents the summary results for each State of the four-digit match performed by Social Security under HAVA. # # # http://www.socialsecurity.gov/pressoffice/pr/HAVA-pr.html
  18. Base de datos rica en potencial
  19. Source: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146 Ver 1.0 Proceedings, IAJ Press (Santa Fe, NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459 1. Pre-plan 1a. 2 nd monitor 2a. “logbook” applications 2. Lit. review/ interview peers 3. Do data fit theoretical models? 4. Do a “critical biography” of the data 5. Does biography raise critical warnings? 6. Have others run analysis of this data? 7. Acquire latest data and related docs 8. Do tables conform to record layout? 9. Do docs specify expected ranges & frequencies? 10. Are data values missing or out of range? 11. Review major checklist
  20. Fuente: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146 Ver 1.0 Proceedings, IAJ Press (Santa Fe, NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459 1. Pre-plan 1a. 2nd monitor 2a. “logbook” applications 2. Lit. review/ interview peers 3. Do data fit theoretical models? 4. Do a “critical biography” of the data 5. Does biography raise critical warnings? 6. Have others run analysis of this data? 7. Acquire latest data and related docs 8. Do tables conform to record layout? 9. Do docs specify expected ranges & frequencies? 10. Are data values missing or out of range? 11. Review major checklist
  21. Changes in definitions? By administrators? Formal or informal? By statute? Changes in collection methods, data entry, vetting, updating, file type/format? Changes in users and usage Data cleaning
  22. Source: http://nsu.aphis.usda.gov/outlook/issue5/data_quality_part2.pdf Constancy of definitions and coding categories ? All at same time and location? Completeness: How many records have unfilled cells? Are the tendencies of “nulls” consistent in all records, variable types? Precision: Are the numbers rounded or? Hope for fine-grained, not summaries or aggregates Can be especially important with temporal and geographic data, i.e. What is the range(s) of the time scales? Can be a lot of difference in traffic counts, for example, if the data is hourly vs. 15-minute intervals. Or in range of ages.
  23. Data Quality checkpoints Source: http://nsu.aphis.usda.gov/outlook/issue5/data_quality_part2.pdf Constancy of definitions and coding categories ? All at same time and location? Completeness: How many records have unfilled cells? Are the tendencies of “nulls” consistent in all records, variable types? Precision: Are the numbers rounded or? Hope for fine-grained, not summaries or aggregates Can be especially important with temporal and geographic data, i.e. What is the range(s) of the time scales? Can be a lot of difference in traffic counts, for example, if the data is hourly vs. 15-minute intervals. Or in range of ages.
  24. Important to note not to jump to conclusions, or try to do more analysis than makes sense. For example, rates would have been misleading because we don’t have good bicycle counts by street or intersection, much less car-traffic counts. But we could use this anecdotally in the story: In the city's annual mid-September count, there were 3,251 cyclists commuting into downtown in 2010, up from 2,273 in 2007. So, accidents are holding steady while the number of commuters is increasing.
  25. Important to note not to jump to conclusions, or try to do more analysis than makes sense. For example, rates would have been misleading because we don’t have good bicycle counts by street or intersection, much less car-traffic counts. But we could use this anecdotally in the story: In the city's annual mid-September count, there were 3,251 cyclists commuting into downtown in 2010, up from 2,273 in 2007. So, accidents are holding steady while the number of commuters is increasing. Es importante hacer notar que no se debe saltar a las conclusiones, o tratar de hacer más análisis del que tenga sentido. Por ejemplo, las tasas hubieran sido engañosas por que no tenemos buenos conteos de bicicletas por calle o intersección, mucho menos, conteo de tráfico automovilístico. Pero hubiéramos podido utilizar esta anécdota en el reportaje: En el conteo annual de la ciudad de mediados de septiembre, había 3.251 ciclistas trasladándose hacia el centro de la ciudad en 2010, sobre los 2.273 del 2007. Así que los accidentes se han mantenido estables mientras que el número de ciclistas en tránsito está aumentando.
  26. Important to note not to jump to conclusions, or try to do more analysis than makes sense. For example, rates would have been misleading because we don’t have good bicycle counts by street or intersection, much less car-traffic counts. But we could use this anecdotally in the story: In the city's annual mid-September count, there were 3,251 cyclists commuting into downtown in 2010, up from 2,273 in 2007. So, accidents are holding steady while the number of commuters is increasing.
  27. Important to note not to jump to conclusions, or try to do more analysis than makes sense. For example, rates would have been misleading because we don’t have good bicycle counts by street or intersection, much less car-traffic counts. But we could use this anecdotally in the story: In the city's annual mid-September count, there were 3,251 cyclists commuting into downtown in 2010, up from 2,273 in 2007. So, accidents are holding steady while the number of commuters is increasing. “ Desde el estado de WA: Después de ir para adelante y para atrás con nuestro analista en esto, decidimos que sería más fácil para ella sólo sacar los datos. Se hubiera podido obtener las mismas conclusiones a través del sitio fiscal.wa.gov, pero había dinero de estímulo que no se hubiera conseguido así que se incluyeron los cambios hasta el momento para el bienio actual (basado en el suplemento que la Asamblea Legislativa aprobó en diciembre).”
  28. Last year, editors at The Seattle Times noticed more food trucks around. There must be a story about the safety record of these trucks, they thought. So, of course, we checked it out. What we found? Food trucks were just as clean, met inspection rules, just as much as all other types of restaurants. In part, this was because their food came from prep sites most of the time and was not cooked in a mobile unit. And, just to be sure, we checked the prep sites. They got good grades too.
  29. Other Key Data Checks When updating data, make sure nothing has changed. Check definitions for expansion or reduction. Talk to creator of the data. Be ready to kill a story. El a ño pasado, los editores del The Seattle Times se percataron de que había más carros de comida en los alrededores. Pensaron que debía haber algo que reportar acerca de la seguridad de estos carros de comida. Así que lo revisamos. ¿Qué encontramos? Los carros de comida son tan limpios y cumplen con las inspecciones de ley tanto como cualquier otro restaurant. En parte esto es porque su comida viene de sitios que la preparan y ésta no es cocinada en las unidades. Y sólo para estar seguros revisamos los sitios de preparación de comida. Obtuvieron buenas notas también.
  30. Other Key Data Checks Do the math: run sums, percent change, other calculations. Test your math against the results in the database – do they match? Look for unexpected nulls Run a group by query and sort alphabetically by major fields to test for misspellings or other categorization errors. If your data should include every city, or every county in the state, does it? Are you missing data? Aspectos adicionales para validar los datos Haga el cálculo: ejecute las sumas, cambio en los porcentajes, otros cálculos. Ponga a prueba su matemáticas contra los resultados de la base de datos. ¿Coinciden? Busque nulos inesperados Corra un grupo de consulta y ordénelo alfabéticamente en los campos más importantes para probar si no hay errores ortográficos u otros errores en la categorización. Revise si los datos contemplan la información de todo lo que debería estar incluido. Por ejemplo, todas las ciudades o condados del estado. ¿Están? ¿Le faltan datos?
  31. Other key data checks Check with experts Research the methodology used with the kind of data you are working with. Have experts test your analysis. Version control for Web frameworks – use some kind of version control for your database, even if it’s in an Excel spreadsheet. Any time you change it, log what you did and when and why.
  32. Other key data checks Check with experts Research the methodology used with the kind of data you are working with. Have experts test your analysis. Version control for Web frameworks – use some kind of version control for your database, even if it’s in an Excel spreadsheet. Any time you change it, log what you did and when and why. Aspectos adicionales para validar los datos Consulte con expertos Investigue acerca de la metodología utilizada con datos similares a los datos con los que se está trabajando. Haga que expertos prueben su análisis El control de versiones para marcos en la web - Utilice algún tipo de control de versión de su base de datos, incluso aunque esté en una hoja de cálculo Excel. Cada vez que lo cambie, registre lo que hizo y cuándo y por qué.
  33. Prueba de los datos contra los documentos originales. ¿Existen leyes que originaron la base de datos que se creó? Si es así, ¿los datos reflejan el lenguaje y la intención de esas leyes? ¿No es así? Entonces, el trabajo del periodista es preguntar "¿Por qué?"
  34. AHORA usted está listo para escribir una historia basada en una base de datos!
  35. Summing Up Databases are constantly dynamic , “living” things. Look for and measure their energy and change. Beware of rounding error Always try to get the most fine-grained data possible in its ORIGINAL data form or application, i.e. avoid PDFs with SUMMARY data Beware of changing definitions Beware of changing … Data collectors, data entry personnel, changing process of editing and usage. Recapitulación Las bases de datos son cosas constantemente dinámicas y vivas. Busca y mide su energía y cambio. Tenga cuidado con los errores de redondeo Siempre trate de obtener los datos más detallados posible en su forma de datos o aplicación original, es decir, evitar los archivos PDF con los datos RESUMEN Tenga cuidado con las definiciones cambiantes Tenga cuidado con los cambios de … Los recolectores de datos, personal que ingresa los datos, el cambio en el proceso de edición y uso.
  36. “ The devil is in the data” “ How pure/faulty/legit are the “genes” in your data? =================================================== Opener: They don’t believe us (perhaps with good reason). Get some stats on public’s trust of journalism and journalists. Way to save and perhaps improve our reputation is to make sure of the truthfulness – the validity – of what we are reporting. As we do more and more analysis of data as part of our stories, make sure we are analyzing correct and valid pure–quality data becomes crucial. (We should also be sharing out methods and data with the public, but that’s a topic for another session.)
  37. “ El diablo está en los datos” Qué tan puros/defectuosos/legítimos son los “genes” en sus datos? =================================================== Para abrir: Ellos no nos creen (quizás por buenas razones) Consiga unas estadísticas acerca de la confianza pública en los periodistas o el periodismo. Una manera de salvar y quizás mejorar nuestra reputación es asegurarnos de la veracidad –la validez- de lo que estamos informando. A medida que hacemos más y más análisis de datos como parte de nuestras historias, se vuelve crucial que nos aseguremos de que estamos analizando correcta y válidamente datos de calidad pura. (También deberíamos estar compartiendo los métodos y los datos con el público, pero eso es un tópico para otra sesión)
  38. DYNAMIC DATA & DATA BASE OR SET https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html What do these terms mean? The following list describes the types of data in the HAVV dataset. Total Transactions: The total number of verification requests made during the time period. Unprocessed Transactions: The total number of verification requests that could not be processed because the data sent to us was invalid, (e.g., missing, not formatted correctly). Total Matches:   The total number of verification requests where there is at least one match in our records on the name, last four digits of the SSN and date of birth. Total Non Matches: The total number of verification requests where there is no match in our records on the name, last four digits of the SSN or date of birth. Multiple Matches Found – At least one alive and at least one deceased : The total number of verification requests where there are multiple matches on name, date of birth, and the last four digits of the SSN, and at least one of the number holders is alive and at least one of the number holders is deceased. Single Match Found – Alive: The total number of verification requests where there is only one match in our records on name, last four digits of the SSN and date of birth, and the number holder is alive. Single Match Found – Deceased: The total number of verification requests where there is only one match in our records on name, date of birth, and last four digits of the SSN, and the number holder is deceased. Multiple Matches Found – All Alive: The total number of verification requests where there are multiple matches on name, date of birth, and last four digits of the SSN, and each match indicates the number holder is alive. Multiple Match Found – All Deceased:  The total number of verification requests where there are multiple matches on name, date of birth, and the last four digits of the SSN, and each match indicates the  number holder is deceased.
  39. DATOS DINÁMICOS & BASE DE DATOS O CONJUNTO https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html ¿Qué significan estos términos? La siguiente lista describe los tipos de datos en el conjunto de la base de HAVV Total de transacciones: El número total de solicitudes de verificación realizados durante un período dado. Transacciones no procesadas: El número total de solicitudes de verificación que no pudieron ser procesadas porque los datos que recibimos eran inválidos. (Ej. Faltantes, no formateados correctamente) Total de coincidencias:   El número total de solicitudes de verifiación en las cuales existe al menos una coincidencia en nuestros records del nombre, últimos cuatro dígitos del número de seguro social o fecha de nacimiento Total de no coincidencias: El número total de solicitudes de verifiación en las cuales no existe una coincidencia en nuestros records del nombre, últimos cuatro dígitos del número de seguro social o fecha de nacimiento. Coincidencias múltiples– Al menos una viva y al menos una muerta : El número total de solicitudes de verificación donde hay múltiples coincidencias en el nombre, fecha de nacimiento, cuatro últimos números del seguro social y al menos uno de los portadores de los números está vivo y al menos uno de los portadores de los números está muerto. Coincidencia única– Vivo: El número total de solicitudes de verificación donde hay sólo una coincidencia en nuestros records en el nombre, últimos cuatro números del seguro social y fecha de nacimiento y el portador está vivo. Coincidencia única- Muerto: El número total de solicitudes de verificación donde hay sólo una coincidencia en nuestros records en el nombre, últimos cuatro números del seguro social y fecha de nacimiento y el portador está muerto. Coincidencias múltiples– Todos vivos: El número total de solicitudes de verificación donde hay múltiples coincidencias en el nombre, fecha de nacimiento y cuatro últimos números del seguro social y cada coincidencia indica que el portador está vivo. Coincidencias múltiples– Todos muertos:   El número total de solicitudes de verificación donde hay múltiples coincidencias en el nombre, fecha de nacimiento y cuatro últimos números del seguro social y cada coincidencia indica que el portador está muerto.