La difusión estadística y la apertura de datos: un viaje de ida y vuelta
1. La difusión estadística
y la apertura de datos
un viaje de ida y vuelta
Xavier Badosa
Instituto de Estadística de Cataluña
Sevilla, 22 de junio del 2012
Máster en Estadística Pública
Universidad de Sevilla
20. Siempre digo que el trabajo “sexy”
en los próximos 10 años será el de
estadístico. La gente piensa que
bromeo, pero ¿quién se habría
imaginado que el de ingeniero
informático sería el trabajo “sexy”
de los 90?
45. Poniendo datos gubernamentales en
línea en formatos universalmente
accesibles para
permitir que los ciudadanos los
usen para comentarlos, derivar valor y
actuar en sus propias comunidades
Senator Barack Obama
Mountain View,
14 Nov 2007
48. 1
completos
Deben ofrecerse todos los datos públicos. Datos
públicos son aquellos que no están sujetos a
limitaciones legítimas por razones de privacidad,
seguridad o privilegios.
49. 2
primarios
Los datos son los que se recogieron en la fuente
original, con el máximo nivel de granularidad, no
de forma agregada o modificada.
50. 3
puntuales
Los datos son ofrecidos tan pronto como sea
necesario para preservar su valor.
51. 4
accesibles
Los datos son ofrecidos al más amplio rango de
usuarios para el más amplio rango de fines.
52. 5
procesables por máquinas
Los datos están razonablemente estructurados
para permitir el procesamiento automatizado.
53. 6
no discriminatorios
Los datos se ofrecen a cualquiera, sin requisitos
de registro.
54. 7
no propietarios
Los datos son ofrecidos en un formato sobre el
cual ninguna entidad tiene un control exclusivo.
55. 8
libres de licencia
Los datos no están sujetos a ningún copyright,
patente, marca registrada o regulación de
secreto comercial. Pueden admitirse restricciones
razonables por motivos de privacidad, seguridad y
privilegio.
68. 5 procesables por máquinas
Los datos están razonablemente estructurados para permitir el
procesamiento automatizado.
Formato
7 no propietarios
Los datos son ofrecidos en un formato sobre el cual ninguna entidad tiene
un control exclusivo.
Licencia
8 libres de licencia
Los datos no están sujetos a ningún copyright, patente, marca registrada o
regulación de secreto comercial.
69. 5 procesables por máquinas
Los datos están razonablemente estructurados para permitir el
procesamiento automatizado.
Formato
Formato
7 no propietarios
Los datos son ofrecidos en un formato sobre el cual ninguna entidad tiene
un control exclusivo.
Licencia
Licencia
8 libres de licencia
Los datos no están sujetos a ningún copyright, patente, marca registrada o
regulación de secreto comercial.
70. 5 Formato
La visión
7 del
W3C
Licencia
8 Tim Berners-Lee
Director of the W3C
71. en el que los ordenadores son capaces de analizar todos
los datos de la Web –el contenido, los enlaces, las
transacciones entre personas y ordenadores–. La
“Web Semántica”, que debería hacer esto posible, aún
ha de surgir, pero cuando lo haga, los mecanismos
diarios del comercio, de la burocracia y de nuestras vidas
serán manejados por máquinas hablando con máquinas.
Tim Berners-Lee
Director of the W3C, 1999
74. ★ En la WWW (en cualquier formato), con licencia abierta
★★ Datos estructurados procesables por máquinas (p.e. Excel)
★★ ★ Formato no propietario (p.e. CSV)
sujeto
cosas
★★ ★★ Formato RDF predicado
direcciones
objeto
★★ ★★★ Enlazados con otros datos
75. ★ En la WWW (en cualquier formato), con licencia abierta
★★ Datos estructurados procesables por máquinas (p.e. Excel)
★★ ★ Formato no propietario (p.e. CSV)
sujeto
cosas
★★ ★★ Formato RDF predicado
direcciones
objeto
★★ ★★★ Enlazados con otros datos
85. Statistical “Cube” Data. Este grupo producirá un
vocabulario, compatible con SDMX, para expresar
algunos tipos de datos estadísticos. Éste no es
preciso que sea tan expresivo como todo el SDMX,
sino que puede proporcionar un subconjunto, como en el RDF Data
Cube Vocabulary.
86. 5 procesables por máquinas
Los datos están razonablemente estructurados para permitir el
procesamiento automatizado.
Formato
Formato
7 no propietarios
Los datos son ofrecidos en un formato sobre el cual ninguna entidad tiene
un control exclusivo.
Licencia
Licencia
8 libres de licencia
Los datos no están sujetos a ningún copyright, patente, marca registrada o
regulación de secreto comercial.
87. Licencia
8 libres de licencia
Los datos no están sujetos a ningún copyright, patente, marca registrada o
regulación de secreto comercial.
95. Muchas de las licencias ampliamente reconocidas ni están
destinadas ni son adecuadas para ser aplicadas a datos o a
colecciones de datos. Aquí se describen un abanico de renuncias
y licencias que se han diseñado y adecuado al tratamiento de los
datos. Las licencias de Creative Commons (excepto de CCZero),
la GFDL, la GPL, la BSD… NO son adecuadas para los datos y se
desaconseja DECIDIDAMENTE su uso.
148. ¿Aumento del quantum de datos abiertos?
Laxitud del concepto “conjunto de datos”
151. ¿Aumento del quantum de datos abiertos?
Laxitud del concepto “conjunto de datos”
No todos los datos incluidos son “abiertos”
(en el sentido de los 8 principios, sí según W3C)
154. ¿Aumento del quantum de datos abiertos?
Laxitud del concepto “conjunto de datos”
No todos los datos incluidos son “abiertos”
(en el sentido de los 8 principios)
Licencias no siempre adecuadas
157. ¿Aumento del quantum de datos abiertos?
Laxitud del concepto “conjunto de datos”
No todos los datos incluidos son “abiertos”
(en el sentido de los 8 principios)
Licencias no siempre adecuadas
Un modelo basado sobre todo en descargas
160. ¿Aumento del quantum de datos abiertos?
Laxitud del concepto “conjunto de datos”
No todos los datos incluidos son “abiertos”
(en el sentido de los 8 principios)
Licencias no siempre adecuadas
Un modelo basado sobre todo en descargas
¿Escalabilidad?
174. Ley 4/1989,
de 12 de
Principal proveedor
y las oficinas estadísticas
diciembre,
de Estadística
de la Comunidad Autónoma de Andalucía
(Artículo 30. Competencias y funciones)
f. Crear, mantener y gestionar bases de datos de
interés estadístico para la Comunidad
Autónoma.
k. Difundir los resultados estadísticos obtenidos
por el Instituto.
175. Ley 4/1989,
Consultables libremente
de 12 de
diciembre,
+ descargables
de Estadística
de la Comunidad Autónoma de Andalucía
en un formato abierto
(Artículo 30. Competencias y funciones)
(¿5 estrellas W3C: RDF Data Cube Vocabulary?)
f. Crear, mantener y gestionar bases de datos de
interés estadístico para la Comunidad
Autónoma.
k. Difundir los resultados estadísticos obtenidos
por el Instituto.
181. Ley 4/1989,
Consultables libremente
de 12 de
diciembre,
+ descargables
de Estadística
de la Comunidad Autónoma de Andalucía
en un formato abierto
(Artículo 30. Competencias y funciones)
(W3C: RDF Data Cube)
f. Crear, mantener y gestionar bases de datos de
No sólo tablas de resultados
interés estadístico para la Comunidad
Autónoma.
k. Difundir los resultados estadísticos obtenidos
por el Instituto.
188. ¿Cliente?
El Gobierno, los partido políticos, la prensa,
las universidades, los centros de investigación,
las empresas de investigación de mercado...