Este documento presenta las tecnologías de la Web Semántica y datos abiertos enlazados. Jose Emilio Labra Gayo, del Departamento de Informática de la Universidad de Oviedo, explica que desde 2004 su grupo de investigación WESO se dedica a la Web Semántica. Labra también es miembro del grupo de trabajo W3C sobre datos en forma y presidente del grupo de trabajo W3C sobre mejores prácticas de datos abiertos multilingües enlazados. El documento describe brevemente el crecimiento exponencial de la Web,
1. Tecnologías de la Web Semántica
Datos abiertos enlazados
Jose Emilio Labra Gayo
Departamento de Informática
Universidad de Oviedo, España
2. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Presentación
Desde 2004, grupo investigación WESO (WEb Semántics Oviedo)
Miembro del W3c WG Data Shapes
Chairman W3c Best practices Multilingual linked open data
Libro Web Semántica
Editorial NetBiblo, Colección Pocket Innova
http://www.netbiblo.com
Oviedo
3. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La charla en 1’
¿Qué pasa?
¿Porqué?
¿Cómo?
La era de los datos
Razones para publicar datos
Portles de datos Web Semántica
Ejemplos de portales de datos
Mitos y realidades
5. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Evolución de la Web
Crecimiento casi exponencial
Fuente: http://www.internetlivestats.com
Dic. 2015:
965,049,928 sitios web online
3,264,979,367 usuarios de internet
Sitios web
Año
6. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
http://www.facebook.com/note.php?note_id=76191543919
http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/
Datos y datos...
Facebook: 1556 millones usuarios activos
Youtube: 100 horas de video subidas/minuto
Twitter: 500 millones de tweets/día
Flickr: 48 millones de fotos/mes
...y lo que está por llegar...
Fuente: http://www.coverpop.com/pop/flickr_interesting
Fuente: http://www.internetlivestats.com
7. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Avalancha de datos
Tendencias Open
Producir datos es tecnológicamente fácil
Movimientos:
Open Software
Open Content
Open Data
Open Science
Open Government
Viejos modelos afectados
Música, Cine, finanzas,...
¿Educación?
¿Gobierno?
...
8. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿Porqué publicar datos?
2 razones (para los gobiernos)
Trasparencia
Liderazgo
9. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Trasparencia
Publicar datos abiertos
Aumentar credibilidad
Confianza en el gobierno
Legitimar decisiones tomadas
Facilitar medidas anti-corrupción
10. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Trasparencia
Fomentar la investigación
Acelerar tasa de descubrimiento
Bien común de la ciudadanía
Facilitan contribuciones externas
Sabiduría de las masas
11. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Trasparencia
Datos creados con dinero público
Son nuestros
Los hemos pagado con nuestros impuestos
Retorno de inversión
Rendición de cuentas
Eficiencia
12. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Liderazgo
Gobierno como catalizador
Fomentar nuevas iniciativas
Colaboración ciudadana
Prevención de catástrofes
Portales de salud
Nuevas Apps
13. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Liderazgo
Contrarrestar fuentes de datos no oficiales
¿Cómo evitar filtraciones de datos?
Posibilidades
1.- Aumerntar seguridad
2.- Publicar datos oficiales
14. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Liderazgo
Aumentar calidad del software
Datos oficiales interoperables
Reducción de costes de mantenimiento
Ejemplo:
¿Última lista de barrios en una ciudad?
15. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Dedicado a los administradores de Bases de Datos
17. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El mayor reto = Integración
En general, el problema no es informatizar algo
El problema es integrar los sistemas
Interoperabilidad
No basta con publicar
datos…
18. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Publicar = hacer accesible
Niveles de accesibilidad
Discapacidad física
Discapacidad técnica: otros entornos
Intelectual y cultural
Analfabetismo
Barreras de conocimiento
Otros idiomas…
Accesible para las máquinas
19. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Pérdida semántica
Pérdida de semántica al publicar
La persona que publica tiene información que se pierde
publicador
Contenido
publicado
Múltiples formatos:
HTML, PDF, JPG,
...
consumidor
(persona)
consumidor
(agente)
próximo
sábado
Semántica
20. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿Publicar para personas y
computadoras a la vez?
Problema: entes muy diferentes
Las computadoras necesitan un contexto
Hay que buscar solución de compromiso
001010000100
100010010010
010000010001
Formato ideal Formato ideal
El texto en lenguaje natural
es el formato ideal para tí...
21. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Cadenas de texto = ambigüas
¿Qué significa "Oviedo" ?
Puede ser una ciudad en España
...o una ciudad en Florida, USA
...o un jugador de fútbol
...o....¿Cómo sabemos a qué se refiere?
URIs como identificadores únicos
http://www.oviedo.es/
http://www.cityofoviedo.net/
https://twitter.com/Bryan_Oviedo
22. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Modelo de Estrellas*
★ Publicar los datos
(en cualquier formato)
★★ Utilizar formato estructurado
(Excel en lugar de imágenes escaneadas)
★★★ Usar formatos no propietarios
(CSV en lugar de Excel)
★★★★ Usar URIs para identificar datos
(otros sistemas puedan enlazar nuestros datos)
★★★★★ Enlazar con otros datos externos
(proporcionar contexto)
* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010
http://www.youtube.com/watch?v=ga1aSJXCFe0
23. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos no estructurados
Formatos “caja negra”: Imágenes, vídeos,
música, etc.
Formatos binarios: PDF, PS, etc.
Requieren técnicas de tratamiento de la
señal, reconocimiento de patrones, etc.
★
24. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo:
Servicio Público de Empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/
★
25. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos estructurados
Los datos tienen una estructura
Ejemplo: Hojas de cálculo
Problema con formatos propietarios
Requieren herramientas que no son públicas
★ ★
26. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo:
Servicio Público de empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
★ ★
27. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos no propietarios
Utilizar formatos abiertos estructurados
Ejemplos: CSV, HTML, XML, JSON,...
Puede procesarse automáticamente
Problema:
El procesado depende del contexto
Difícil reutilizar técnicas entre diferentes sistemas
★ ★ ★
28. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
CSV
“Comma separated values” valores
delimitados por comas
★ ★ ★
29. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
HTML
HTML = información que se visualiza en navegador
Seres humanos que usan un navegador
Etiquetas de presentación: h1, p, br, table, ...
★ ★ ★
Procesar HTML automáticamente
puede ser muy complicado
30. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
URIs para identificar datos
Utilizar URIs para identificar datos
Los datos pueden ser referenciados
Diferentes representaciones mediante
negociación de contenido:
• Para humanos (HTML,...)
• Para máquinas (RDF,...)
★ ★ ★ ★
32. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿Varias representaciones
para lo mismo?
¿Se puede hacer un sitio web bonito para los
humanos y útil para las máquinas?
★ ★ ★ ★
Metáfora: Bolsa de patatas fritas
33. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¡5 estrellas!
Datos enlazados
Las representaciones devuelven enlaces a
otros datos
Enlaces entre datasets
Ventajas:
Los consumidores podrán reutilizar y descubrir
nuevos datos
Aplicaciones "no previstas"
★ ★ ★ ★ ★
35. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Principios Linked Open Data
1. Utilizar URIs para denotar cosas
2. Permitir que las URIs sean dereferenciables
3. Proporcionar información útil
Para personas y máquinas (HTML, RDF)
4. Incluir enlaces a otras cosas relacionadas
★ ★ ★ ★ ★
La mejor manera de explotar tus
datos se le ocurrirá a otro
Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
36. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2007)
37. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2008)
38. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2009)
39. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2010)
40. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2011)
41. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2014)
42. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Portales de datos enlazados
Algunas iniciativas
data.gov.uk
...
datos.bcn.cl
data.webfoundation.org
landportal.info
43. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La Web Semántica
Web semántica Web de Datos
Visión donde los datos se publican y se
enlazan con otros datos
Objetivos:
Reutilizar
Automatizar
Integrar
Tim Berners Lee, inventor de la WWW
44. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Algunas tecnologías
RDF
Descripción datos
SPARQL
Consultas
OWL - RDFS
Inferencias
SHEX - SHACL
Validación
45. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = se identifica con URI
Se basa en tripletas
Sujeto Predicado Objeto
46. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Tripletas RDF
http://purl.org/dc/elements/1.1/creator
Sujeto
URI que Identifica Facultad Biología
Predicado
URI que identifica
propiedad de creación
Objeto
URI que identifica Juan
@prefix dc: <http://purl.org/dc/elements/1.1/>.
@prefix uni: <http://uniovi.es/> .
uni:biologia dc:creator uni:juan .
http://uniovi.es/biology
http://uniovi.es/juan
RDF en notación Turtle
51. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos RDF
Numerosos formatos y sintaxis:
N3
RDF/XML
N-Triples
Turtle
json-ld
RDFa
etc.
52. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
Simple Protocol and RDF Query Language
Lenguaje de consultas para la web semántica
Se basa en encaje de grafos
Extrae información de modelos RDF
Un protocolo
Mecanismo para invocar SPARQL en un servicio
Endpoint SPARQL: Servicio que cumple el protocolo
53. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
Ejemplo:
Buscar páginas cuyo autor sea un profesor
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix uni: <http://uniovi.es/> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?p ?c WHERE {
?p dc:creator ?c .
?c rdf:type uni:Profesor.
}
55. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
OWL, RDF Schema
Permite definir clases, propiedades,...
OWL permite declarar ontologías
RDF Schema es un poco más sencillo
Se pueden hacer inferencias
56. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo con inferencias
rdf:type
uni:Profesor
rdfs:subClassOf
uni:PersonaEjemplo
uni:juan
rdf:type
57. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL + Inferencia
Combinar SPARQL e inferencia
Ejemplo:
Páginas cuyo autor sea una persona
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix uni: <http://uniovi.es/> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?p ?c WHERE {
?p dc:creator ?c .
?p rdf:type uni:Persona.
}
59. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ontologías
RDF Schema permite hacer inferencias sencillas
Poca expresividad
OWL (Web Ontology Language)
Añade más expresividad
Formalizar dominios concretos: ontologías
Expresividad vs Complejidad
60. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
ShEx - SHACL
Objetivo: Describir y validar datos en RDF
ShEx (Shape Expressions)
Comienza a desarrollarse en 2014
Versión 1.0 (inicios de 2016)
SHACL (Shapes Constraint Language)
Grupo de trabajo W3c RDF Data Shapes
Primer borrador (Oct. 2015)
62. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
ShEx - SHACL
SHACL: borrador de trabajo Oct. 2015
Sintaxis RDF de momento
Podría utilizarse sintaxis similar a ShEx
Semántica a través de SPARQL
2 niveles: básico y avanzado (más SPARQL)
Más información: http://www.w3.org/TR/shacl/
Expresividad vs Complejidad
63. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
WESO
Web Semantics Oviedo
Grupo de investigación creado en 2004
Algunos proyectos
Tecnologías semánticas
Conciliación de entidades, multimedia, validación, ...
Portales de datos:
BOPA Asturias, BCN Chile, Licitaciones públicas,...
2 ejemplos seleccionados:
WebIndex - Web Foundation
LandPortal
64. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
WebIndex
Índice del impacto de la Web a nivel mundial
Presentado por Tim Berners-Lee
http://data.webfoundation.org/webindex/v2013/country/PER
65. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
LandPortal
Portal con datos de la tierra
Desarrollado para la IFAD (Naciones Unidas)
66. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Mitos y realidades
Web Semántica
Navegador inteligente
Una nueva Web
El cerebro global
La gran verdad: Una única ontología
Una etiqueta para cada cosa
Nadie querrá compartir datos
Demasiada apertura
Moda pasajera
No hay Killer application
67. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El navegador inteligente
Mito:
El objetivo es conseguir sistemas que
naveguen por internet de forma inteligente
Realidad:
Objetivo = desarrollar tecnologías que faciliten
el procesamiento automático de la
información de la Web y su integración
No es Inteligencia Artificial pero sí se utilizan
técnicas de esa disciplina
68. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Una nueva Web
Mito:
La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo
lo que ya hay
Realidad:
Se propone transición gradual.
Tecnologías semánticas ofrecen valor añadido.
"A Little semantics goes a long way"
J. A. hendler
69. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El cerebro global
Mito:
La Web semántica generará un cerebro global
Realidad:
Objetivo: facilitar un mejor uso de los datos de la
web.
Sí es un camino hacia la inteligencia colectiva
70. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La gran verdad
Mito:
Se propone la creación de una única ontología
con todo el conocimiento de la humanidad
Realidad:
Múltiples ontologías para diferentes dominios
Facilitar la integración
Mejorar la descripción de dominios
71. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Una etiqueta para cada cosa
Mito:
Quieren asignar una etiqueta similar a RFID
para cada cosa
Realidad
No es factible que cada cosa conlleve sus
propios metadatos
Descripciones de recursos externas a ellos
72. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Nadie querrá compartir datos
Mito:
Los publicadores de datos no estarán
motivados a liberar los datos
Realidad:
Lo harán cuando encuentren un retorno de
inversión adecuado
Posicionamiento semántico
http://schema.org
Principales buscadores indexan datos estructurados
Google, Yandex, Yahoo, Bing
73. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Demasiada apertura
Mito:
Si sacamos los datos de las bases de datos, los
perdemos
Realidad:
Existen tecnologías para limitar acceso
Declarar de dónde provienen los datos
Establecer propiedad legal de los datos (licencias)
74. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Moda pasajera
Mito:
Mito1: La Web semántica es algo nuevo
Mito 2: La Web semántica es algo viejo
Realidad:
Planteada ya en 1994, visión a largo plazo
Exceso de entusiasmo vs escepticismo
Casos de éxito no siempre asociados a web semántica:
RSS, microformatos, XBRL, Schema, …
75. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
No hay killer application
Mito:
No se ha desarrollado una killer application
Realidad:
¿Es necesaria?
¿Linked Open Data?
76. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Es caro
Mito:
Publicar datos enlazados es caro
Realidad
El trabajo más difícil suele estar ya hecho
Lo más difícil es convencer a las personas
Involucrar a desarrolladores, organizaciones, etc.
Existe mucho código abierto disponible
Pero...
...publicar datos enlazados no es a coste cero
77. Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Conclusiones y retos
Proyecto Linked Open Data es imparable
De portales Web a portales de datos
Primera fase = producción
Segunda fase = consumo
¿Qué quieren los usuarios?
Calidad es cada vez más importante