De documentos a datos 
9ª jornada de usuarios Ex-Libris 2014 
30 de septiembre de 2014 
Christian Sifaqui
Introducción 
Algunos conceptos
Introducción 
Web 
Repleta de información 
Orientada al ser humano: 
para comprender el contenido de una 
página 
para rel...
Introducción 
Originalmente la web 
fue creada para 
compartir 
“documentos”
Introducción 
Estándares: 
Documento  “Bolsa” de palabras 
Links entre documentos 
Palabras y enlaces como el centro del ...
Introducción 
Lo que “entiende” Lo que “entiende” 
un programa un ser humano
Introducción 
Web 
Buscadores actuales funcionan bien, 
pero orientados al keyword 
Análisis de palabras y textos 
Análisi...
Introducción 
Soluciones 
• ad hoc: usar métodos de IA para 
analizar la información no 
estructurada existente en la Web ...
Introducción 
Estándares
Introducción 
Estándares 
Grafos 
Árboles
Introducción 
Tablas Árboles Grafos 
--------------------- ------------- ------------- 
BD relacional XML RDF 
SQL XQUERY ...
Introducción 
Datos abiertos (open data) 
es un idea que impulsa la publicación 
de datos de forma libre y asequible a 
cu...
Introducción 
Datos enlazados (linked data): 
es usar la web para conectar datos 
que no estaban relacionados 
previamente...
Introducción 
Modelo web clásica 
Use HTTP 
Use URI 
Use HTML 
Navegue y siga links 
Buscador: proveedor lo hace por usted
Introducción 
Modelo datos abiertos 
Publique datos en formatos estándares para 
que sean asequibles 
Indique licencias 
Y...
Introducción 
Modelo datos enlazados 
Use URIs para expresar “cosas” 
Use HTTP URIs para que estas “cosas” 
puedan ser ref...
Introducción 
Esquema de las 5 estrellas 
★ coloque sus cosas en la web en cualquier formato 
bajo una licencia abierta 
★...
Ejemplos 
Buenos ejemplos: 
http://datos.gob.cl (septiembre 2011) 
http://datos.bcn.cl (mayo 2011) 
http://data.worldbank....
Ejemplos 
Mal ejemplo: 
http://opendata.congreso.cl/ (julio 2014)
Ejemplos 
Mal ejemplo: 
http://opendata.congreso.cl/ (julio 2014) 
No hay licencia explícita 
No hay manuales 
Usa diversa...
Algunos detalles 
Pero la web originalmente fue 
concebida para documentos… 
¿cómo llegar a una web de 
datos?
Algunos detalles 
Algunos caminos: 
Agregar metadatos a los documentos, y que 
estos metadatos estén en el modelo de 
dato...
Algunos detalles 
Lo que se quiere es que el 
significado de la información 
pueda ser procesada 
algorítmicamente 
Ejempl...
Algunos detalles 
Una forma de lograr lo anterior es 
mediante la “representación del 
conocimiento”
Algunos detalles 
Lógica: proporciona la estructura formal 
para formular reglas, permitiendo que 
los algoritmos puedan o...
Algunos detalles 
Ontologías: son representaciones, 
de un conjunto de conceptos y 
las relaciones entre ellos en un 
domi...
Algunos detalles 
Las ontologías se utilizan como 
medio de estructuración de la 
información y para el intercambio 
de da...
SStrtriningg 
Artista 
Obra 
produce 
producida_por 
talla 
Escultor Escultura 
tallado_por 
pinta 
Pintor Cuadro 
Técnica...
Algunos detalles 
Conceptos, clases 
Tipos 
Instancias 
Relaciones 
Herencia 
Axiomas
PPaabblolo 
GGaarrççoonn à à l ala p pipipee 
pinta 
PPicicaassssoo utiliza 
talla 
nombre 
apellido 
nombre ÓÓleleoo s so...
Algunos detalles 
Lenguajes para ontologías: 
RDF-Schema (extiende RDF con un 
vocabulario de esquema y permite 
inferenci...
Algunos detalles 
RDF 
Resource Description Framework (1998) 
Descripción de recursos 
Recurso = identificado por una URI ...
Algunos detalles 
Tripletas RDF 
Sujeto 
•URI 
•Nodo anónimo 
Sujeto 
•URI 
•Nodo anónimo 
Predicado 
•URI 
Predicado 
•UR...
Algunos detalles 
Tripletas RDF 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l ilt...
Algunos detalles 
Tripletas RDF 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l ilt...
Algunos detalles 
Tripletas RDF 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l ilt...
Ejemplo 
LeyChile, liberado en 2008 
Idea: añadirle datos abiertos enlazados 
(linked open data) 
- http://dl.acm.org/cita...
Ejemplo 
Paso 1: 
Use URIs para expresar “cosas” 
¿Cómo definir estas URIs? 
Ley 20000 podría ser: http://datos.bcn.cl/rec...
Ejemplo 
Pero las normas tienen modificaciones, 
por lo que la norma podría verse como 
una fuente bibliográfica y así ser...
Ejemplo 
Paso 3: 
Recurso 
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 
Versión original 
ht...
Ejemplo 
Ontología
Ejemplo 
Paso 4: 
Relaciones a otros datasets: países 
(tratados internacionales) 
DBPedia, Geonames 
Reutilizar vocabular...
Ejemplo 
Consulta compleja usando SPARQL 
Encontrar todas las normas emitidas por una municipalidad 
entre los años 1995 y...
Ejemplo 
Visualizaciones
Ejemplo 
Visualizaciones
Ejemplo (si hay tiempo) 
Reseñas biográficas
Ejemplo (si hay tiempo) 
Reseñas biográficas
Ejemplo (si hay tiempo) 
http://datos.bcn.cl/recurso/persona/2376
Ejemplo (si hay tiempo) 
Visualizaciones
Ejemplo (si hay tiempo) 
Visualizaciones
Bibliotecas 
Kungliga biblioteket 
https://github.com/libris/librisxl/ 
http://librisbloggen.kb.se/ 
https://twitter.com/l...
Bibliotecas 
Library data cannot be used in a Linked Data environment 
without having Uniform Resource Identifiers (URIs) ...
Bibliotecas 
Bibliotecas ofrecen/ofrecerán su acervo 
en datos abiertos enlazados desde el 
punto de vista bibliográfico
Bibliotecas 
Oferta de acervo desde el punto de 
vista literario 
SSaararahh B Baartrltelettt,t ,2 2001100
Bibliotecas 
Pablo Neruda 
http://datos.bcn.cl/recurso/persona/2559 
http://id.worldcat.org/fast/34660 
http://dbpedia.org...
Finalmente 
Dos mundos 
• Mundo de documentos  para el ser 
humano 
• Mundo de datos  para las máquinas
¿Futuro? 
Documentos 
• OCR 
• aplicación de algoritmos Named-entity 
Recognition 
• enlaces a ontologías 
• Ejemplos: 
• ...
Referencias 
http://users.dcc.uchile.cl/~cgutierr/sw/ 
http://manzanamecanica.org/2014/07/open_data_en_el_congres 
o_chile...
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Prochain SlideShare
Chargement dans…5
×

Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

615 vues

Publié le

Presentación realizada para la 9a Jornada de Usuarios Ex-Libris, Universidad Gabriela Mistral, 1 de octubre de 2014

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

  1. 1. De documentos a datos 9ª jornada de usuarios Ex-Libris 2014 30 de septiembre de 2014 Christian Sifaqui
  2. 2. Introducción Algunos conceptos
  3. 3. Introducción Web Repleta de información Orientada al ser humano: para comprender el contenido de una página para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  4. 4. Introducción Originalmente la web fue creada para compartir “documentos”
  5. 5. Introducción Estándares: Documento  “Bolsa” de palabras Links entre documentos Palabras y enlaces como el centro del universo Lenguajes y protocolos: HTML y HTTP
  6. 6. Introducción Lo que “entiende” Lo que “entiende” un programa un ser humano
  7. 7. Introducción Web Buscadores actuales funcionan bien, pero orientados al keyword Análisis de palabras y textos Análisis de los enlaces ¿y la semántica? Ejemplo: “diputados o senadores cuyos hermanos hayan sido jueces”
  8. 8. Introducción Soluciones • ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  9. 9. Introducción Estándares
  10. 10. Introducción Estándares Grafos Árboles
  11. 11. Introducción Tablas Árboles Grafos --------------------- ------------- ------------- BD relacional XML RDF SQL XQUERY SPARQL
  12. 12. Introducción Datos abiertos (open data) es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo
  13. 13. Introducción Datos enlazados (linked data): es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  14. 14. Introducción Modelo web clásica Use HTTP Use URI Use HTML Navegue y siga links Buscador: proveedor lo hace por usted
  15. 15. Introducción Modelo datos abiertos Publique datos en formatos estándares para que sean asequibles Indique licencias Y nada más
  16. 16. Introducción Modelo datos enlazados Use URIs para expresar “cosas” Use HTTP URIs para que estas “cosas” puedan ser referenciadas por personas y programas Proporcione información útil acerca de la “cosa” (cuando se acceda a la URI) usando estándares como RDF o SPARQL Incluya enlaces a otras “cosas” (usando sus URIs)
  17. 17. Introducción Esquema de las 5 estrellas ★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta ★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada ★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel ★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas ★★★★★ enlace sus datos a otros datos para proveer contexto
  18. 18. Ejemplos Buenos ejemplos: http://datos.gob.cl (septiembre 2011) http://datos.bcn.cl (mayo 2011) http://data.worldbank.org/ (abril 2010) http://data.gov.uk/ (enero 2010) http://www.data.gov/ (mayo 2009)
  19. 19. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014)
  20. 20. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014) No hay licencia explícita No hay manuales Usa diversas variedades de tecnologías (algunas ya arcaicas) No hay posibilidad de contacto Estamos en Chile… ¿porqué “opendata”?
  21. 21. Algunos detalles Pero la web originalmente fue concebida para documentos… ¿cómo llegar a una web de datos?
  22. 22. Algunos detalles Algunos caminos: Agregar metadatos a los documentos, y que estos metadatos estén en el modelo de datos enlazados, o Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u Otra manera
  23. 23. Algunos detalles Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente Ejemplo: El <Río>Mapocho</Río> es el principal curso de agua de <Ciudad>Santiago</Ciudad>.
  24. 24. Algunos detalles Una forma de lograr lo anterior es mediante la “representación del conocimiento”
  25. 25. Algunos detalles Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias Ontología: define los objetos, que existen en un dominio particular Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real
  26. 26. Algunos detalles Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente
  27. 27. Algunos detalles Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos
  28. 28. SStrtriningg Artista Obra produce producida_por talla Escultor Escultura tallado_por pinta Pintor Cuadro Técnica Museo Cubista Flamenca SStrtriningg SStrtriningg SStrtriningg SStrtriningg nombre nombre nombre utiliza pintado_por expuesta_en nombre apellido
  29. 29. Algunos detalles Conceptos, clases Tipos Instancias Relaciones Herencia Axiomas
  30. 30. PPaabblolo GGaarrççoonn à à l ala p pipipee pinta PPicicaassssoo utiliza talla nombre apellido nombre ÓÓleleoo s soobbrree l ileiennzzoo TTiziziaiannoo VVeecceelllili nombre apellido utiliza pinta FFuuggaa i nin E Eggitittoto nombre MMigiguueel lÁ Ánnggeell BBuuoonnaarrrrootit i nombre apellido MMuusseeoo d deel lH Heerrmmitiataggee JJoovveenn e enn c cuucclillillalass expuesta_en nombre expuesta_en nombre Pintor:I1 nombre Cuadro:I2 Pintor:I4 Escultor:I7 Técnica:I3 Cuadro:I5 Museo:I6 Escultura:I8
  31. 31. Algunos detalles Lenguajes para ontologías: RDF-Schema (extiende RDF con un vocabulario de esquema y permite inferencias) OWL (añade mayor expresividad) DAML+OIL Topic Maps F-Logic WSML KIF …
  32. 32. Algunos detalles RDF Resource Description Framework (1998) Descripción de recursos Recurso = identificado por una URI Se basa en tripletas Sujeto  Predicado Objeto
  33. 33. Algunos detalles Tripletas RDF Sujeto •URI •Nodo anónimo Sujeto •URI •Nodo anónimo Predicado •URI Predicado •URI Objeto •URI •Literal •Nodo anónimo Objeto •URI •Literal •Nodo anónimo UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l
  34. 34. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l
  35. 35. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School”
  36. 36. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School” http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 http://www.w3.org /2000/01/rdf-schema# http://www.w3.org /2000/01/rdf-schema# label label “Cardiff High School” “Cardiff High School”
  37. 37. Ejemplo LeyChile, liberado en 2008 Idea: añadirle datos abiertos enlazados (linked open data) - http://dl.acm.org/citation.cfm?id=2063529 - h ttp://conference.ifla.org/conference/past/ifla78/214-
  38. 38. Ejemplo Paso 1: Use URIs para expresar “cosas” ¿Cómo definir estas URIs? Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000 ¿Decretos? Se requiere: número, fecha y organismo Decreto 341 del 11 de noviembre de 2008 del Ministerio de Educación http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
  39. 39. Ejemplo Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial
  40. 40. Ejemplo Paso 3: Recurso http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 Versión original http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07 Última versión http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20
  41. 41. Ejemplo Ontología
  42. 42. Ejemplo Paso 4: Relaciones a otros datasets: países (tratados internacionales) DBPedia, Geonames Reutilizar vocabularios/ontologías SKOS, DC, FOAF, DBPedia, ORG
  43. 43. Ejemplo Consulta compleja usando SPARQL Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) } ORDER BY (?pubDate) } ORDER BY (?pubDate)
  44. 44. Ejemplo Visualizaciones
  45. 45. Ejemplo Visualizaciones
  46. 46. Ejemplo (si hay tiempo) Reseñas biográficas
  47. 47. Ejemplo (si hay tiempo) Reseñas biográficas
  48. 48. Ejemplo (si hay tiempo) http://datos.bcn.cl/recurso/persona/2376
  49. 49. Ejemplo (si hay tiempo) Visualizaciones
  50. 50. Ejemplo (si hay tiempo) Visualizaciones
  51. 51. Bibliotecas Kungliga biblioteket https://github.com/libris/librisxl/ http://librisbloggen.kb.se/ https://twitter.com/librisnytt http://devkat.libris.kb.se/ usuario test password test Library of Congress British Library Bibliothèque nationale de France Deutsche Nationalbibliothek Biblioteca Nacional de España BIBFRAME http://www.loc.gov/bibframe/
  52. 52. Bibliotecas Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned. Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.
  53. 53. Bibliotecas Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico
  54. 54. Bibliotecas Oferta de acervo desde el punto de vista literario SSaararahh B Baartrltelettt,t ,2 2001100
  55. 55. Bibliotecas Pablo Neruda http://datos.bcn.cl/recurso/persona/2559 http://id.worldcat.org/fast/34660 http://dbpedia.org/page/Pablo_Neruda https://www.freebase.com/m/066c_ http://viaf.org/viaf/95126958/ http://d-nb.info/gnd/118587005 http://www.idref.fr/027337960
  56. 56. Finalmente Dos mundos • Mundo de documentos  para el ser humano • Mundo de datos  para las máquinas
  57. 57. ¿Futuro? Documentos • OCR • aplicación de algoritmos Named-entity Recognition • enlaces a ontologías • Ejemplos: • proyecto Historia de la Ley y Labor Parlamentaria • proyecto sentencias Corte Suprema
  58. 58. Referencias http://users.dcc.uchile.cl/~cgutierr/sw/ http://manzanamecanica.org/2014/07/open_data_en_el_congres o_chileno_lo_bueno_lo_malo_y_lo_feo.html http://de.wikipedia.org/wiki/Ontologie_(Informatik) http://www.slideshare.net/der42 http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

×