3. Introducción
Web
Repleta de información
Orientada al ser humano:
para comprender el contenido de una
página
para relacionar contenidos dentro de una
página (textos, imágenes, videos, etc.)
5. Introducción
Estándares:
Documento “Bolsa” de palabras
Links entre documentos
Palabras y enlaces como el centro del
universo
Lenguajes y protocolos:
HTML y HTTP
7. Introducción
Web
Buscadores actuales funcionan bien,
pero orientados al keyword
Análisis de palabras y textos
Análisis de los enlaces
¿y la semántica?
Ejemplo: “diputados o senadores cuyos
hermanos hayan sido jueces”
8. Introducción
Soluciones
• ad hoc: usar métodos de IA para
analizar la información no
estructurada existente en la Web
• a priori: estructurar la información en
la Web para facilitar el análisis
automático Web Semántica
12. Introducción
Datos abiertos (open data)
es un idea que impulsa la publicación
de datos de forma libre y asequible a
cualquier persona, para que sean
usados y republicados sin
restricciones de ningún tipo
13. Introducción
Datos enlazados (linked data):
es usar la web para conectar datos
que no estaban relacionados
previamente. Usa algunas de las
mejores prácticas de la Web
Semántica
14. Introducción
Modelo web clásica
Use HTTP
Use URI
Use HTML
Navegue y siga links
Buscador: proveedor lo hace por usted
15. Introducción
Modelo datos abiertos
Publique datos en formatos estándares para
que sean asequibles
Indique licencias
Y nada más
16. Introducción
Modelo datos enlazados
Use URIs para expresar “cosas”
Use HTTP URIs para que estas “cosas”
puedan ser referenciadas por personas y
programas
Proporcione información útil acerca de la
“cosa” (cuando se acceda a la URI)
usando estándares como RDF o SPARQL
Incluya enlaces a otras “cosas” (usando sus
URIs)
17. Introducción
Esquema de las 5 estrellas
★ coloque sus cosas en la web en cualquier formato
bajo una licencia abierta
★★ coloque sus cosas como datos estructurados, por
ejemplo, Excel en vez de una imagen escaneada
★★★ utilice formatos no propietarios, por ejemplo, CSV
en vez de Excel
★★★★ use URIs para expresar cosas, de tal manera que
las personas puedan referirse a sus cosas
★★★★★ enlace sus datos a otros datos para proveer
contexto
20. Ejemplos
Mal ejemplo:
http://opendata.congreso.cl/ (julio 2014)
No hay licencia explícita
No hay manuales
Usa diversas variedades de tecnologías
(algunas ya arcaicas)
No hay posibilidad de contacto
Estamos en Chile… ¿porqué “opendata”?
21.
22. Algunos detalles
Pero la web originalmente fue
concebida para documentos…
¿cómo llegar a una web de
datos?
23. Algunos detalles
Algunos caminos:
Agregar metadatos a los documentos, y que
estos metadatos estén en el modelo de
datos enlazados, o
Crear sitios especiales con datos
descriptivos acorde al modelo de datos
enlazados, o
Crear documentos con marcas semánticas y
que estas marcas estén acorde al modelo
de datos enlazados, u
Otra manera
24. Algunos detalles
Lo que se quiere es que el
significado de la información
pueda ser procesada
algorítmicamente
Ejemplo:
El <Río>Mapocho</Río> es el principal curso
de agua de <Ciudad>Santiago</Ciudad>.
25. Algunos detalles
Una forma de lograr lo anterior es
mediante la “representación del
conocimiento”
26. Algunos detalles
Lógica: proporciona la estructura formal
para formular reglas, permitiendo que
los algoritmos puedan obtener
inferencias
Ontología: define los objetos, que
existen en un dominio particular
Computabilidad: es una propiedad de
una base de conocimientos, que
permite que sea efectiva/real
27. Algunos detalles
Ontologías: son representaciones,
de un conjunto de conceptos y
las relaciones entre ellos en un
dominio determinado,
lingüísticamente precisas y
estructuradas formalmente
28. Algunos detalles
Las ontologías se utilizan como
medio de estructuración de la
información y para el intercambio
de datos
29. SStrtriningg
Artista
Obra
produce
producida_por
talla
Escultor Escultura
tallado_por
pinta
Pintor Cuadro
Técnica
Museo
Cubista Flamenca
SStrtriningg
SStrtriningg
SStrtriningg
SStrtriningg
nombre
nombre
nombre
utiliza
pintado_por
expuesta_en
nombre
apellido
31. PPaabblolo
GGaarrççoonn à à l ala p pipipee
pinta
PPicicaassssoo utiliza
talla
nombre
apellido
nombre ÓÓleleoo s soobbrree l ileiennzzoo
TTiziziaiannoo
VVeecceelllili
nombre
apellido
utiliza
pinta FFuuggaa i nin E Eggitittoto nombre
MMigiguueel lÁ Ánnggeell
BBuuoonnaarrrrootit i
nombre
apellido
MMuusseeoo d deel lH Heerrmmitiataggee
JJoovveenn e enn c cuucclillillalass
expuesta_en
nombre
expuesta_en
nombre
Pintor:I1
nombre
Cuadro:I2
Pintor:I4
Escultor:I7
Técnica:I3
Cuadro:I5
Museo:I6
Escultura:I8
32. Algunos detalles
Lenguajes para ontologías:
RDF-Schema (extiende RDF con un
vocabulario de esquema y permite
inferencias)
OWL (añade mayor expresividad)
DAML+OIL
Topic Maps
F-Logic
WSML
KIF
…
33. Algunos detalles
RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = identificado por una URI
Se basa en tripletas
Sujeto Predicado Objeto
34. Algunos detalles
Tripletas RDF
Sujeto
•URI
•Nodo anónimo
Sujeto
•URI
•Nodo anónimo
Predicado
•URI
Predicado
•URI
Objeto
•URI
•Literal
•Nodo anónimo
Objeto
•URI
•Literal
•Nodo anónimo
UUnn c cooleleggioio Tiene como
Tiene como
nombre/etiqueta
nombre/etiqueta
UUnn l iltieteraral l
35. Algunos detalles
Tripletas RDF
UUnn c cooleleggioio Tiene como
Tiene como
nombre/etiqueta
nombre/etiqueta
UUnn l iltieteraral l
36. Algunos detalles
Tripletas RDF
UUnn c cooleleggioio Tiene como
Tiene como
nombre/etiqueta
nombre/etiqueta
UUnn l iltieteraral l
http://education.d
ata.gov.uk/id/sch
ool/401874
http://education.d
ata.gov.uk/id/sch
ool/401874
Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
“Cardiff High
School”
“Cardiff High
School”
37. Algunos detalles
Tripletas RDF
UUnn c cooleleggioio Tiene como
Tiene como
nombre/etiqueta
nombre/etiqueta
UUnn l iltieteraral l
http://education.d
ata.gov.uk/id/sch
ool/401874
http://education.d
ata.gov.uk/id/sch
ool/401874
Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
“Cardiff High
School”
“Cardiff High
School”
http://education.d
ata.gov.uk/id/sch
ool/401874
http://education.d
ata.gov.uk/id/sch
ool/401874
http://www.w3.org
/2000/01/rdf-schema#
http://www.w3.org
/2000/01/rdf-schema#
label
label
“Cardiff High
School”
“Cardiff High
School”
38.
39. Ejemplo
LeyChile, liberado en 2008
Idea: añadirle datos abiertos enlazados
(linked open data)
- http://dl.acm.org/citation.cfm?id=2063529
- h
ttp://conference.ifla.org/conference/past/ifla78/214-
40. Ejemplo
Paso 1:
Use URIs para expresar “cosas”
¿Cómo definir estas URIs?
Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000
¿Decretos?
Se requiere: número, fecha y organismo
Decreto 341 del 11 de noviembre de 2008 del Ministerio de
Educación
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
41. Ejemplo
Pero las normas tienen modificaciones,
por lo que la norma podría verse como
una fuente bibliográfica y así sería
posible de aplicar FRBR para obtener
el recurso, o una versión actualizada o
una manifestación específica en algún
formato especial
42. Ejemplo
Paso 3:
Recurso
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
Versión original
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07
Última versión
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20
54. Bibliotecas
Kungliga biblioteket
https://github.com/libris/librisxl/
http://librisbloggen.kb.se/
https://twitter.com/librisnytt
http://devkat.libris.kb.se/ usuario test password test
Library of Congress
British Library
Bibliothèque nationale de France
Deutsche Nationalbibliothek
Biblioteca Nacional de España
BIBFRAME http://www.loc.gov/bibframe/
55. Bibliotecas
Library data cannot be used in a Linked Data environment
without having Uniform Resource Identifiers (URIs) both for
specific resources and for library-standard concepts. The
official owners of resource data and standards should
assign URIs as soon as possible, since application
developers and other users of such data will not delay their
activities, but are more likely to assign URIs themselves,
outside of the owning institution. When owners are not able
to assign URIs in good time, they should seek partners for
this work or delegate the assignment and maintenance of
URIs to others in order to avoid the proliferation of URIs for
the same thing and to encourage the re-use of URIs already
assigned.
Agencies responsible for the creation of catalog records and
other metadata, such as national bibliographies, are the
logical organizations to take a leading role in creating URIs
for their described resources.
59. Finalmente
Dos mundos
• Mundo de documentos para el ser
humano
• Mundo de datos para las máquinas
60. ¿Futuro?
Documentos
• OCR
• aplicación de algoritmos Named-entity
Recognition
• enlaces a ontologías
• Ejemplos:
• proyecto Historia de la Ley y Labor
Parlamentaria
• proyecto sentencias Corte Suprema