SlideShare una empresa de Scribd logo
1 de 47
Descargar para leer sin conexión
Datos enlazados para
instituciones
culturales
Daniel Vila Suero
dvila@fi.upm.es
Ontology Engineering Group, Universidad Politécnica de Madrid
Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano,
Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others)
Seminario para la Biblioteca Nacional de Colombia
Viernes 12 de Julio de 2013
This work is funded by the Spanish Project
TIN2010-17550 for the BabeLData project, and by BNE
Principios
básicos
2
Datos enlazados para LAM
•  LAM (Library, Archives and Museums)
•  Datos enlazados para bibliotecas, archivos y
museos.
•  ¿Qué? Publicar los datos de estas instituciones
siguiendo los principios de Linked Data.
•  ¿Cuáles son esos principios y cómo se
transladan al dominio de patrimonio cultural e
histórico?
3
Recordatorio: Los 4 Principios
(1) Utilizar URIs para identificar las cosas (en la Web)
(2) Utilizar HTTP URIs para que se puedan recuperar
sus descripciones (en la Web)
(3) Describir las cosas (los recursos, objetos,
entidades) usando estándares de la Web semántica
(RDF, RDFS, SPARQL)
(4) Incluir enlaces a otras HTTP URIs para facilitar el
descubrimiento de más recursos
4
Principios 1 y 2
(1, 2) Utilizar HTTP URIs para identificar y permitir
recuperar nuestros objetos (en la Web)
Cada objeto, recurso, activo relevante tiene su propio
identificador en la Web: HTTP URI.
Por ejemplo:
- Personas: Gabriel García Márquez
! h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
- Obras: Cien años de soledad
= h"p://datos.bibliotecanacional.gov.co/obras/Cien_años_de_soledad=
5
Buenas prácticas HTTP URIs
•  Cool URI's don't change:
-  Las URIs deben ser estables, no deben cambiar en el
tiempo pues son el punto de acceso a nuestros recursos. El
dominio y los servidores deben estar manejados por nuestra
institución
-  URIs bien estructuradas y predecibles:
•  /personas/ID: todas las URIs que siguen este patrón
son Personas
-  Omitir detalles de la tecnología utilizada, fechas, etc.:
•  MAL: http://datos.bibliotecanacional.gov.co/index.php?
persona=Garcia_Marquez
-  Las HTTP URIs son principalmente para ser manejadas por
las máquinas, si existe un ID único en los datos de origen
se debería utilizar. Por ejemplo el 001 de MARC 21
6
(Paréntesis)
•  Formato compacto para las URIs  CURIEs (Compact
URIs)
•  Mejoran la legibilidad (en general y para esta
presentación en particular):
URI completa:
h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!
ID: Gabriel_García_Márquez
= = =
7
(Paréntesis)
•  Formato compacto para las URIs  CURIEs (Compact
URIs)
•  Mejoran la legibilidad (en general y para esta
presentación en particular):
URI completa:
h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez=
Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/!
ID: Gabriel_García_Márquez
= = =
8
bncPersona:Gabriel_García_Márquez
(Paréntesis)
9
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
Todo son HTTP URIs incluídos los conceptos del vocabulario
utilizado (esquema, ontología)
(Paréntesis)
10
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Todo son HTTP URIs incluídos los conceptos del vocabulario
utilizado (esquema, ontología)
Principio 3
(2) Describir las cosas (los recursos, objetos,
entidades) usando estándares de la Web semántica
(RDF, RDFS, SPARQL)
Describimos:
- Mediante tripletas RDF los atributos de nuestros
recursos.
- Utilizando clases y propiedades de
vocabularios o ontologías (FRBR, ISBD, etc)
11
Principio 3
12
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Tripleta describiendo a García Márquez
Principio 3
13
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Tripleta describiendo a García Márquez
Sujeto
Predicado
Objeto
Principio 3
14
bncPersona:Gabriel_García_Márquez
"6#de#Marzo#de#1927"
frbr:fechaDeNacimiento
Tripleta describiendo a García Márquez
Sujeto
Predicado
Objeto
Principio 3
15
frbr:fechaDeNacimiento
Reutilizar vocabularios estándar: FRBR, RDA, ISBD..
frbr:esCreadorDe
isbd:HtuloPropiamenteDicho
foaf:Person
Básicamente:
- Clases: Definen el tipo de recurso (Persona, obra,etc)
- Propiedades: Definen carácterísticas del recurso
(fechas, título, nombre, etc.)
Buenas prácticas Vocabularios
•  Reutilizar vocabularios ampliamente utilizados,
estables y soportados por una comunidad
-  ¿Cómo?
•  Recomendación 1: Análisis de otros conjuntos de datos
del mismo dominio (Bibliotecas, Museos, etc.)
•  Recomendación 2: Buscar conceptos en repositorios de
vocabularios. El más recomendable es LOV (Linked
Open Vocabularies) de la Open Knowledge Foundation
h"p://lov.okfn.org/=
16
Linked Open Vocabularies: Library
17
Resultado de aplicar principios 1, 2 y 3
18
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Grafo de URIs describiendo a Gabriel García-Márquez
"6#de#Marzo#de#1927"
frbr:fechaDeNacimiento
Frbr:lugarDeNacimiento
"Colombia"
Linked Open Vocabularies
19
Búsqueda y ranking de términos (Person, Work, etc.)
= = = Person
Principio 4
(4) Incluir enlaces a otras HTTP URIs para facilitar el
descubrimiento de más recursos
Tiene 2 vertientes que permiten aumentar/enriquecer
las descripciones:
1- Evitar utilizar cadenas de caracteres en el
objeto de la tripleta y utilizar URIs:
Usar la URI de Colombia en DBpedia frente a utilizar la
cadena "Colombia"
2 - Incluir enlaces a la mismo recurso descrito en
otro conjunto de datos:
Enlaces a García Márquez en VIAF, BNE, etc
20
Vertiente 1
21
bncPersona:Gabriel_García_Márquez
"Colombia" no permite recuperar
más información acerca del lugar de
nacimiento, solo el nombre
Frbr:lugarDeNacimiento
"Colombia"
Evitar utilizar cadenas de caracteres en el
objeto de la tripleta y utilizar URIs:
Vertiente 1 Enlaces
22
bncPersona:Gabriel_García_Márquez
Frbr:lugarDeNacimiento
"Colombia"
Evitar utilizar cadenas de caracteres en el
objeto de la tripleta y utilizar URIs:
X dbpedia:Colombia
V
Dbpedia:imagenBandera
Ampliamos la red de conocimiento
Vertiente 2 Enlaces: sameAs
23
bncPersona:Gabriel_García_Márquez
owl:sameAs
Enlaces al mismo recurso en otros
conjuntos de datos enlazados
bne:Gabriel_García_Márquez
Ampliamos
la red de conocimiento sobre
García
Márquez en la BNC (Obras
catalogadas en la BNE,
descripciones en VIAF, etc.)
owl:sameAs
viaf:Gabriel_García_Márquez
Buenas prácticas Enlazado
•  Enlazar con conjuntos de datos relevantes dentro
de una comunidad determinado
-  ¿Cómo?
•  Recomendación 1: Recursos como VIAF, BNE o
DBpedia contienen numersos enlaces a otros recursos
similares. Centrarse inicialmente en estos para
maximizar el resultado
•  Recomendación 2: Buscar otros conjuntos de datos
dentro del area. En repositorios como:
h"p://datahub.io= 24
datos.bne.es
25
Especificación
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
•  Registros en formato MARC 21
•  3.9 millones registros bibliográficos
•  4.2 millones registros autoridad
•  Versión: Noviembre 2011
Modelado: FRBR
Obras
Expresiones
Manifestaciones
Obra 1
Obra 2
Obra 3
Expresión 1
Expresión 2
Manifestación1 Manifestación2
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Ontología basada en vocabularios de IFLA
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Marimba utiliza la ontología para generar RDF
BNE
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Proceso de transformación
30
•  How to facilitate the mapping process to library
experts?
1.  Use a familiar and intuitive interface: Spreadsheets
2.  Work only on what's in the database: Pre-process records
to build the spreadsheets
•  3 step-process 3 different spreadsheets
1.  Classification: is it a Person? a Work? a Manifestation?
2.  Annotation: name, birth date, title, language of expression
3.  Relation: find relationships between entities (Person is
creator of a certain work)
Marimba: Proceso de mapping
100 $a
Cervantes
Saavedra,
Miguel de
100 $a frbr:Person
String(100 $a $t) frbr:isCreatorOf100 $a
Cervantes
Saavedra,
Miguel de
$t Don
Quijote de
la Mancha
String(100 $a)
100 $a $t
frbr:titleOfWork100 $t
MARC 21 DATA MARC 21 STRUCTURE RDFS/OWL
100 $a frbr:nameOfPerson
PRE-PROCESSING STEP
has subfield
has subfield
has heading
has heading
has content
has content
contained in
frbr:Work
Heading Class Object property Datatype/Annotation property
maps to
maps to
maps to
maps to
maps to
Librarians manually define the
mappings
Variation
(100$a + $t)
31
Proceso de mapping
32
Open mappings at: http://bne.linkeddata.es/mapping-marc21
Marimba: Proceso de transformación a RDF y mappings
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Identificación de Entidades:
Dada una etiqueta de campos y una combinación de subcampos,
se determina a qué entidad FRBR se relaciona.
Por ejemplo:
100 $a $d  Persona (FRBR Grupo 2)
100 $a $t  Obra (FRBR Grupo 1)
Marimba: Proceso de transformación a RDF y mappings
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Anotación de Entidades:
Dada una etiqueta de campos y de subcampo, se determina qué
propiedad o atributo de la entidad se anota:
Por ejemplo:
100 $d  Fecha asociada a persona
100 $t  Titulo de la obra
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Relación entre Entidades:
Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y
dado un identificador de subcampo que representa la variación
de subcampos entre E1 y E2 en su punto de acceso principal y
sabiendo que el valor del punto de acceso de E1 está contenido en
E2, se determina que tipo de relación existe entre E1 y E2.
Por ejemplo:
Persona-Obra $t  Persona es creadora de Obra
Obra-Obra $n  Obra es parte de Obra
Marimba: Proceso de transformación a RDF y mappings
Marimba enlaza con otros recursos:
VIAF, DNB, SUDOC, LIBRIS, DBpedia
BNE
http://datos.bne.es/resource/XX1718747
Same As
Same As
Same As
Same As
Same As
LIBRIS
http://libris.kb.se/resource/auth/45369
SUDOC
http://www.idref.fr/026774771/id
DNB
http://d-nb.info/gnd/11851993X
DBpedia
http://dbpedia.org/resource/Miguel_de_Cervantes
VIAF
http://viaf.org/viaf/17220427
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Marimba enlaza con otros recursos:
VIAF, DNB, SUDOC, LIBRIS, DBpedia
Publicación
• Publicación de los datos
• Publicar los metadatos sobre el dataset con VOID y
DCAT
• Para facilitar el descubrimiento del dataset
• Registrar el conjunto de datos en DataHub
• Generar el sitemap usando sitemap4rdf
• Cargar el sitemap en Google y Sindice
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Explotación
•  2 perspectivas diferentes
-  Sistemas y aplicaciones:
1.  SPARQL endpoint,
2.  Linked Data API
-  Interfaces de usuario
•  Usando tecnologías abiertas Web facilitamos la
reutilización por terceros y permitimos uso de
herramientas de:
-  Data analytics, interfaces/APIs enriquecidas, etc.
40
Explotación: Ejemplo
41
Don Quijote de la Mancha
French manifestations
(213)
Novelas Ejemplares
Spanish manifestations
(303)
Don Quijote de la Mancha
Spanish manifestations
(840)
Don Quijote de la Mancha
English manifestations
(247)
Don Quijote de la Mancha
frbr:Work
Miguel de Cervantes
Don Quijote de la Mancha
German manifestations
(49)
Entremeses
Spanish manifestations
(86)
frbr:Work frbr:isEmbodiedIn frbr:Expression
frbr:Expression frbr:IsManifestedBy frbr:Manifestation
frbr:Person frbr:isCreatorOf frbr:Work
( ) Number of resources
Using Open-source tools:
Gephi for example
http://bne.linkeddata.es/graphvis
Permitiendo el acceso a aplicaciones
42
Linked Data API: http://datos.bne.es/frontend/persons
Acceso y navegación flexible
43
Consuming Out of the box:
• Search by every field
• Access cluster of resources
• Filtering
• Paging
• Serve multiple formats: XML,
Turtle, JSON
Diferentes vistas sobre el mismo recurso
44
Consuming
HTML
XML
45
Interfaces de usuario
Datos enlazados abre la puerta a:
• Re-ranking resultados OPAC results
• Mejor clustering, busquedas facetadas
• Motores de recomendación
• Enriquecimiento de datos y experiencia de
usuario
Artículos sobre proceso en datos.bne.es
•  Datos.bne.es: A library linked dataset. Semantic
Web Journal 2013 to appear:
h#p://www.seman@cAwebAjournal.net/content/datosbneesAlibraryAlinkedAdataAdataset
•  Daniel Vila-Suero and Elena Escolano “Linked Data
at the Spanish National Library and the
application of IFLA RDFS models”. ScatNews,
IFLA Cataloguing news, 2011.
46
Muchas gracias!
Preguntas?
Para cualquier cuestión o propuesta de
colaboración
Email: dvila@fi.upm.es
Twitter: @dvilasuero
47

Más contenido relacionado

Destacado

La politesse à Osaka présentée par Valentine
La politesse à Osaka présentée par ValentineLa politesse à Osaka présentée par Valentine
La politesse à Osaka présentée par ValentineChristine FIASSON
 
Tic como herramienta para la informática educativa. mrva
Tic como herramienta para la informática educativa. mrvaTic como herramienta para la informática educativa. mrva
Tic como herramienta para la informática educativa. mrvamariovellojin
 
Exposición
 Exposición Exposición
Exposicióncefic
 
Act. 2.3 _equipo_4
Act. 2.3 _equipo_4Act. 2.3 _equipo_4
Act. 2.3 _equipo_4duartes29
 
Sommaire, Plan Premiere Ebauche
Sommaire, Plan Premiere EbaucheSommaire, Plan Premiere Ebauche
Sommaire, Plan Premiere Ebaucheguestf0c56c
 
Pec daziano julie
Pec daziano juliePec daziano julie
Pec daziano julieBabounda83
 
Introduccionala informatica
Introduccionala informaticaIntroduccionala informatica
Introduccionala informaticaXaviOrantes
 
Pec Daziano Julie
Pec Daziano JuliePec Daziano Julie
Pec Daziano JulieBabounda83
 
1 Toulemonde - Presentation
1 Toulemonde - Presentation1 Toulemonde - Presentation
1 Toulemonde - PresentationSocial Europe
 
Contestación cuestionario Bruno apicultura 131018040922-phpapp01
Contestación cuestionario Bruno apicultura 131018040922-phpapp01Contestación cuestionario Bruno apicultura 131018040922-phpapp01
Contestación cuestionario Bruno apicultura 131018040922-phpapp01Docencia_Formación_Emprego
 
Diapositivas valor refeerencial cefic 12 01-2011-1
Diapositivas valor refeerencial cefic 12 01-2011-1Diapositivas valor refeerencial cefic 12 01-2011-1
Diapositivas valor refeerencial cefic 12 01-2011-1cefic
 
Secteur immobilier paysage obscure incitant a davantage de prudence
Secteur immobilier   paysage obscure incitant a davantage de prudence Secteur immobilier   paysage obscure incitant a davantage de prudence
Secteur immobilier paysage obscure incitant a davantage de prudence www.bourse-maroc.org
 
Politesse à Osaka présentée par Héloïse
Politesse à Osaka présentée par HéloïsePolitesse à Osaka présentée par Héloïse
Politesse à Osaka présentée par HéloïseChristine FIASSON
 
Bakir Zied - Harissa ou Moutarde ?
Bakir Zied - Harissa ou Moutarde ?Bakir Zied - Harissa ou Moutarde ?
Bakir Zied - Harissa ou Moutarde ?Anybodybutahuman
 
La dictaura de primo de rivera
La dictaura de primo de riveraLa dictaura de primo de rivera
La dictaura de primo de riverajuly12345678
 
Diaporama sept 2013 attentes et routines
Diaporama sept 2013 attentes et routinesDiaporama sept 2013 attentes et routines
Diaporama sept 2013 attentes et routinesclassedejulia
 

Destacado (20)

La politesse à Osaka présentée par Valentine
La politesse à Osaka présentée par ValentineLa politesse à Osaka présentée par Valentine
La politesse à Osaka présentée par Valentine
 
Tic como herramienta para la informática educativa. mrva
Tic como herramienta para la informática educativa. mrvaTic como herramienta para la informática educativa. mrva
Tic como herramienta para la informática educativa. mrva
 
Exposición
 Exposición Exposición
Exposición
 
Act. 2.3 _equipo_4
Act. 2.3 _equipo_4Act. 2.3 _equipo_4
Act. 2.3 _equipo_4
 
TICS
TICSTICS
TICS
 
Sommaire, Plan Premiere Ebauche
Sommaire, Plan Premiere EbaucheSommaire, Plan Premiere Ebauche
Sommaire, Plan Premiere Ebauche
 
Pec daziano julie
Pec daziano juliePec daziano julie
Pec daziano julie
 
Introduccionala informatica
Introduccionala informaticaIntroduccionala informatica
Introduccionala informatica
 
Pec Daziano Julie
Pec Daziano JuliePec Daziano Julie
Pec Daziano Julie
 
Commission Communication AG 2010
Commission Communication AG 2010Commission Communication AG 2010
Commission Communication AG 2010
 
1 Toulemonde - Presentation
1 Toulemonde - Presentation1 Toulemonde - Presentation
1 Toulemonde - Presentation
 
Contestación cuestionario Bruno apicultura 131018040922-phpapp01
Contestación cuestionario Bruno apicultura 131018040922-phpapp01Contestación cuestionario Bruno apicultura 131018040922-phpapp01
Contestación cuestionario Bruno apicultura 131018040922-phpapp01
 
Diapositivas valor refeerencial cefic 12 01-2011-1
Diapositivas valor refeerencial cefic 12 01-2011-1Diapositivas valor refeerencial cefic 12 01-2011-1
Diapositivas valor refeerencial cefic 12 01-2011-1
 
VANESA PARENTE MÉNDEZ Informe final plan afd
VANESA PARENTE MÉNDEZ Informe final plan afdVANESA PARENTE MÉNDEZ Informe final plan afd
VANESA PARENTE MÉNDEZ Informe final plan afd
 
Secteur immobilier paysage obscure incitant a davantage de prudence
Secteur immobilier   paysage obscure incitant a davantage de prudence Secteur immobilier   paysage obscure incitant a davantage de prudence
Secteur immobilier paysage obscure incitant a davantage de prudence
 
Politesse à Osaka présentée par Héloïse
Politesse à Osaka présentée par HéloïsePolitesse à Osaka présentée par Héloïse
Politesse à Osaka présentée par Héloïse
 
Bakir Zied - Harissa ou Moutarde ?
Bakir Zied - Harissa ou Moutarde ?Bakir Zied - Harissa ou Moutarde ?
Bakir Zied - Harissa ou Moutarde ?
 
La dictaura de primo de rivera
La dictaura de primo de riveraLa dictaura de primo de rivera
La dictaura de primo de rivera
 
Diaporama sept 2013 attentes et routines
Diaporama sept 2013 attentes et routinesDiaporama sept 2013 attentes et routines
Diaporama sept 2013 attentes et routines
 
Moisture Absorption
Moisture AbsorptionMoisture Absorption
Moisture Absorption
 

Similar a Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...
VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...
VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...Artium Vitoria
 
La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...
La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...
La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...DIGIBIS
 
Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...
Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...
Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...DIGIBIS
 
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASAragón Open Data
 
Websemantica
WebsemanticaWebsemantica
Websemanticakorytika
 
WEB SEMANTICA
WEB SEMANTICA WEB SEMANTICA
WEB SEMANTICA korytika
 
Te enamoraste jeje
Te enamoraste jejeTe enamoraste jeje
Te enamoraste jejemixmax27
 
Tema 16 acceso a base de datos usando jpa por gio
Tema 16   acceso a base de datos usando jpa por gioTema 16   acceso a base de datos usando jpa por gio
Tema 16 acceso a base de datos usando jpa por gioRobert Wolf
 
Web semántica y linked data la web como bd
Web semántica y linked data  la web como bdWeb semántica y linked data  la web como bd
Web semántica y linked data la web como bdAlvaro Graves
 
Integración de sistemas de información textuales y espaciales; análisis estr...
Integración de sistemas  de información textuales y espaciales; análisis estr...Integración de sistemas  de información textuales y espaciales; análisis estr...
Integración de sistemas de información textuales y espaciales; análisis estr...Pepe
 
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...Oscar Corcho
 
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios EstándarROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios EstándarDiego López-de-Ipiña González-de-Artaza
 
aporte de internet
aporte de internetaporte de internet
aporte de internetanjogonz
 
Integracion de las Semántica en las IDE: IDEZar Callejero Semántico
Integracion de las Semántica en las IDE: IDEZar Callejero SemánticoIntegracion de las Semántica en las IDE: IDEZar Callejero Semántico
Integracion de las Semántica en las IDE: IDEZar Callejero SemánticoFrancisco J. Lopez-Pellicer
 
El tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez GarcíaEl tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez GarcíaDIGIBIS
 

Similar a Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia (20)

VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...
VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...
VIII Encuentros de Centros de Documentación de Arte Contemporáneo en Artium -...
 
Curso integración Web Semántica
Curso integración Web Semántica Curso integración Web Semántica
Curso integración Web Semántica
 
La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...
La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...
La recolección de metadatos desde la perspectiva de Europeana, de Andrés Vied...
 
Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...
Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...
Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador d...
 
Wikidata: qué es y cómo subirse al carro
Wikidata: qué es y cómo subirse al carroWikidata: qué es y cómo subirse al carro
Wikidata: qué es y cómo subirse al carro
 
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
 
Websemantica
WebsemanticaWebsemantica
Websemantica
 
WEB SEMANTICA
WEB SEMANTICA WEB SEMANTICA
WEB SEMANTICA
 
Te enamoraste jeje
Te enamoraste jejeTe enamoraste jeje
Te enamoraste jeje
 
Metadatos y Web Semántica
Metadatos y Web SemánticaMetadatos y Web Semántica
Metadatos y Web Semántica
 
Red Ontologías Hércules – ROH
Red Ontologías Hércules – ROHRed Ontologías Hércules – ROH
Red Ontologías Hércules – ROH
 
Tema 16 acceso a base de datos usando jpa por gio
Tema 16   acceso a base de datos usando jpa por gioTema 16   acceso a base de datos usando jpa por gio
Tema 16 acceso a base de datos usando jpa por gio
 
Web semántica y linked data la web como bd
Web semántica y linked data  la web como bdWeb semántica y linked data  la web como bd
Web semántica y linked data la web como bd
 
Integración de sistemas de información textuales y espaciales; análisis estr...
Integración de sistemas  de información textuales y espaciales; análisis estr...Integración de sistemas  de información textuales y espaciales; análisis estr...
Integración de sistemas de información textuales y espaciales; análisis estr...
 
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
 
Difusión Estadística en Cantabria
Difusión Estadística en CantabriaDifusión Estadística en Cantabria
Difusión Estadística en Cantabria
 
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios EstándarROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
 
aporte de internet
aporte de internetaporte de internet
aporte de internet
 
Integracion de las Semántica en las IDE: IDEZar Callejero Semántico
Integracion de las Semántica en las IDE: IDEZar Callejero SemánticoIntegracion de las Semántica en las IDE: IDEZar Callejero Semántico
Integracion de las Semántica en las IDE: IDEZar Callejero Semántico
 
El tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez GarcíaEl tratamiento de los objetos digitales, por Patricia Juez García
El tratamiento de los objetos digitales, por Patricia Juez García
 

Más de Daniel Vila Suero

3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data
3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data
3LD: Towards high quality, industry-ready Linguistic Linked Licensed DataDaniel Vila Suero
 
Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...
Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...
Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...Daniel Vila Suero
 
Data enrichment and transformation in the LOD Context: Vocabulary usage in da...
Data enrichment and transformation in the LOD Context: Vocabulary usage in da...Data enrichment and transformation in the LOD Context: Vocabulary usage in da...
Data enrichment and transformation in the LOD Context: Vocabulary usage in da...Daniel Vila Suero
 
Naming and labeling in the Multilingual Web of Data
Naming and labeling in the Multilingual Web of DataNaming and labeling in the Multilingual Web of Data
Naming and labeling in the Multilingual Web of DataDaniel Vila Suero
 
datos.bne.es: Publishing and Consuming
datos.bne.es: Publishing and Consumingdatos.bne.es: Publishing and Consuming
datos.bne.es: Publishing and ConsumingDaniel Vila Suero
 
Taller Linked Open Data, 13es Jornades Catalanes d'Informació i Documentació...
Taller Linked Open Data, 13es Jornades Catalanes  d'Informació i Documentació...Taller Linked Open Data, 13es Jornades Catalanes  d'Informació i Documentació...
Taller Linked Open Data, 13es Jornades Catalanes d'Informació i Documentació...Daniel Vila Suero
 
Status Quo and (current) Limitations of Library Linked Data
Status Quo and (current) Limitations of Library Linked DataStatus Quo and (current) Limitations of Library Linked Data
Status Quo and (current) Limitations of Library Linked DataDaniel Vila Suero
 
Datos enlazados BNE and MARiMbA
Datos enlazados BNE and MARiMbADatos enlazados BNE and MARiMbA
Datos enlazados BNE and MARiMbADaniel Vila Suero
 

Más de Daniel Vila Suero (8)

3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data
3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data
3LD: Towards high quality, industry-ready Linguistic Linked Licensed Data
 
Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...
Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...
Multilingual vocabularies for the Web: Session on multilingual vocabularies, ...
 
Data enrichment and transformation in the LOD Context: Vocabulary usage in da...
Data enrichment and transformation in the LOD Context: Vocabulary usage in da...Data enrichment and transformation in the LOD Context: Vocabulary usage in da...
Data enrichment and transformation in the LOD Context: Vocabulary usage in da...
 
Naming and labeling in the Multilingual Web of Data
Naming and labeling in the Multilingual Web of DataNaming and labeling in the Multilingual Web of Data
Naming and labeling in the Multilingual Web of Data
 
datos.bne.es: Publishing and Consuming
datos.bne.es: Publishing and Consumingdatos.bne.es: Publishing and Consuming
datos.bne.es: Publishing and Consuming
 
Taller Linked Open Data, 13es Jornades Catalanes d'Informació i Documentació...
Taller Linked Open Data, 13es Jornades Catalanes  d'Informació i Documentació...Taller Linked Open Data, 13es Jornades Catalanes  d'Informació i Documentació...
Taller Linked Open Data, 13es Jornades Catalanes d'Informació i Documentació...
 
Status Quo and (current) Limitations of Library Linked Data
Status Quo and (current) Limitations of Library Linked DataStatus Quo and (current) Limitations of Library Linked Data
Status Quo and (current) Limitations of Library Linked Data
 
Datos enlazados BNE and MARiMbA
Datos enlazados BNE and MARiMbADatos enlazados BNE and MARiMbA
Datos enlazados BNE and MARiMbA
 

Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

  • 1. Datos enlazados para instituciones culturales Daniel Vila Suero dvila@fi.upm.es Ontology Engineering Group, Universidad Politécnica de Madrid Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano, Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others) Seminario para la Biblioteca Nacional de Colombia Viernes 12 de Julio de 2013 This work is funded by the Spanish Project TIN2010-17550 for the BabeLData project, and by BNE
  • 3. Datos enlazados para LAM •  LAM (Library, Archives and Museums) •  Datos enlazados para bibliotecas, archivos y museos. •  ¿Qué? Publicar los datos de estas instituciones siguiendo los principios de Linked Data. •  ¿Cuáles son esos principios y cómo se transladan al dominio de patrimonio cultural e histórico? 3
  • 4. Recordatorio: Los 4 Principios (1) Utilizar URIs para identificar las cosas (en la Web) (2) Utilizar HTTP URIs para que se puedan recuperar sus descripciones (en la Web) (3) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL) (4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos 4
  • 5. Principios 1 y 2 (1, 2) Utilizar HTTP URIs para identificar y permitir recuperar nuestros objetos (en la Web) Cada objeto, recurso, activo relevante tiene su propio identificador en la Web: HTTP URI. Por ejemplo: - Personas: Gabriel García Márquez ! h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez= - Obras: Cien años de soledad = h"p://datos.bibliotecanacional.gov.co/obras/Cien_años_de_soledad= 5
  • 6. Buenas prácticas HTTP URIs •  Cool URI's don't change: -  Las URIs deben ser estables, no deben cambiar en el tiempo pues son el punto de acceso a nuestros recursos. El dominio y los servidores deben estar manejados por nuestra institución -  URIs bien estructuradas y predecibles: •  /personas/ID: todas las URIs que siguen este patrón son Personas -  Omitir detalles de la tecnología utilizada, fechas, etc.: •  MAL: http://datos.bibliotecanacional.gov.co/index.php? persona=Garcia_Marquez -  Las HTTP URIs son principalmente para ser manejadas por las máquinas, si existe un ID único en los datos de origen se debería utilizar. Por ejemplo el 001 de MARC 21 6
  • 7. (Paréntesis) •  Formato compacto para las URIs  CURIEs (Compact URIs) •  Mejoran la legibilidad (en general y para esta presentación en particular): URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez= Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/! ID: Gabriel_García_Márquez = = = 7
  • 8. (Paréntesis) •  Formato compacto para las URIs  CURIEs (Compact URIs) •  Mejoran la legibilidad (en general y para esta presentación en particular): URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez= Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/! ID: Gabriel_García_Márquez = = = 8 bncPersona:Gabriel_García_Márquez
  • 9. (Paréntesis) 9 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)
  • 10. (Paréntesis) 10 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad frbr:esCreadorDe Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)
  • 11. Principio 3 (2) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL) Describimos: - Mediante tripletas RDF los atributos de nuestros recursos. - Utilizando clases y propiedades de vocabularios o ontologías (FRBR, ISBD, etc) 11
  • 15. Principio 3 15 frbr:fechaDeNacimiento Reutilizar vocabularios estándar: FRBR, RDA, ISBD.. frbr:esCreadorDe isbd:HtuloPropiamenteDicho foaf:Person Básicamente: - Clases: Definen el tipo de recurso (Persona, obra,etc) - Propiedades: Definen carácterísticas del recurso (fechas, título, nombre, etc.)
  • 16. Buenas prácticas Vocabularios •  Reutilizar vocabularios ampliamente utilizados, estables y soportados por una comunidad -  ¿Cómo? •  Recomendación 1: Análisis de otros conjuntos de datos del mismo dominio (Bibliotecas, Museos, etc.) •  Recomendación 2: Buscar conceptos en repositorios de vocabularios. El más recomendable es LOV (Linked Open Vocabularies) de la Open Knowledge Foundation h"p://lov.okfn.org/= 16
  • 18. Resultado de aplicar principios 1, 2 y 3 18 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad frbr:esCreadorDe Grafo de URIs describiendo a Gabriel García-Márquez "6#de#Marzo#de#1927" frbr:fechaDeNacimiento Frbr:lugarDeNacimiento "Colombia"
  • 19. Linked Open Vocabularies 19 Búsqueda y ranking de términos (Person, Work, etc.) = = = Person
  • 20. Principio 4 (4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos Tiene 2 vertientes que permiten aumentar/enriquecer las descripciones: 1- Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs: Usar la URI de Colombia en DBpedia frente a utilizar la cadena "Colombia" 2 - Incluir enlaces a la mismo recurso descrito en otro conjunto de datos: Enlaces a García Márquez en VIAF, BNE, etc 20
  • 21. Vertiente 1 21 bncPersona:Gabriel_García_Márquez "Colombia" no permite recuperar más información acerca del lugar de nacimiento, solo el nombre Frbr:lugarDeNacimiento "Colombia" Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs:
  • 22. Vertiente 1 Enlaces 22 bncPersona:Gabriel_García_Márquez Frbr:lugarDeNacimiento "Colombia" Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs: X dbpedia:Colombia V Dbpedia:imagenBandera Ampliamos la red de conocimiento
  • 23. Vertiente 2 Enlaces: sameAs 23 bncPersona:Gabriel_García_Márquez owl:sameAs Enlaces al mismo recurso en otros conjuntos de datos enlazados bne:Gabriel_García_Márquez Ampliamos la red de conocimiento sobre García Márquez en la BNC (Obras catalogadas en la BNE, descripciones en VIAF, etc.) owl:sameAs viaf:Gabriel_García_Márquez
  • 24. Buenas prácticas Enlazado •  Enlazar con conjuntos de datos relevantes dentro de una comunidad determinado -  ¿Cómo? •  Recomendación 1: Recursos como VIAF, BNE o DBpedia contienen numersos enlaces a otros recursos similares. Centrarse inicialmente en estos para maximizar el resultado •  Recomendación 2: Buscar otros conjuntos de datos dentro del area. En repositorios como: h"p://datahub.io= 24
  • 26. Especificación Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación •  Registros en formato MARC 21 •  3.9 millones registros bibliográficos •  4.2 millones registros autoridad •  Versión: Noviembre 2011
  • 27. Modelado: FRBR Obras Expresiones Manifestaciones Obra 1 Obra 2 Obra 3 Expresión 1 Expresión 2 Manifestación1 Manifestación2 Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  • 28. Ontología basada en vocabularios de IFLA Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  • 29. Marimba utiliza la ontología para generar RDF BNE Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  • 30. Proceso de transformación 30 •  How to facilitate the mapping process to library experts? 1.  Use a familiar and intuitive interface: Spreadsheets 2.  Work only on what's in the database: Pre-process records to build the spreadsheets •  3 step-process 3 different spreadsheets 1.  Classification: is it a Person? a Work? a Manifestation? 2.  Annotation: name, birth date, title, language of expression 3.  Relation: find relationships between entities (Person is creator of a certain work)
  • 31. Marimba: Proceso de mapping 100 $a Cervantes Saavedra, Miguel de 100 $a frbr:Person String(100 $a $t) frbr:isCreatorOf100 $a Cervantes Saavedra, Miguel de $t Don Quijote de la Mancha String(100 $a) 100 $a $t frbr:titleOfWork100 $t MARC 21 DATA MARC 21 STRUCTURE RDFS/OWL 100 $a frbr:nameOfPerson PRE-PROCESSING STEP has subfield has subfield has heading has heading has content has content contained in frbr:Work Heading Class Object property Datatype/Annotation property maps to maps to maps to maps to maps to Librarians manually define the mappings Variation (100$a + $t) 31
  • 32. Proceso de mapping 32 Open mappings at: http://bne.linkeddata.es/mapping-marc21
  • 33. Marimba: Proceso de transformación a RDF y mappings IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C
  • 34. IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C Mapping Identificación de Entidades: Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona. Por ejemplo: 100 $a $d  Persona (FRBR Grupo 2) 100 $a $t  Obra (FRBR Grupo 1) Marimba: Proceso de transformación a RDF y mappings
  • 35. IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C Mapping Anotación de Entidades: Dada una etiqueta de campos y de subcampo, se determina qué propiedad o atributo de la entidad se anota: Por ejemplo: 100 $d  Fecha asociada a persona 100 $t  Titulo de la obra
  • 36. IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C Mapping Relación entre Entidades: Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y dado un identificador de subcampo que representa la variación de subcampos entre E1 y E2 en su punto de acceso principal y sabiendo que el valor del punto de acceso de E1 está contenido en E2, se determina que tipo de relación existe entre E1 y E2. Por ejemplo: Persona-Obra $t  Persona es creadora de Obra Obra-Obra $n  Obra es parte de Obra Marimba: Proceso de transformación a RDF y mappings
  • 37. Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia BNE http://datos.bne.es/resource/XX1718747 Same As Same As Same As Same As Same As LIBRIS http://libris.kb.se/resource/auth/45369 SUDOC http://www.idref.fr/026774771/id DNB http://d-nb.info/gnd/11851993X DBpedia http://dbpedia.org/resource/Miguel_de_Cervantes VIAF http://viaf.org/viaf/17220427 Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  • 39. Publicación • Publicación de los datos • Publicar los metadatos sobre el dataset con VOID y DCAT • Para facilitar el descubrimiento del dataset • Registrar el conjunto de datos en DataHub • Generar el sitemap usando sitemap4rdf • Cargar el sitemap en Google y Sindice Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  • 40. Explotación •  2 perspectivas diferentes -  Sistemas y aplicaciones: 1.  SPARQL endpoint, 2.  Linked Data API -  Interfaces de usuario •  Usando tecnologías abiertas Web facilitamos la reutilización por terceros y permitimos uso de herramientas de: -  Data analytics, interfaces/APIs enriquecidas, etc. 40
  • 41. Explotación: Ejemplo 41 Don Quijote de la Mancha French manifestations (213) Novelas Ejemplares Spanish manifestations (303) Don Quijote de la Mancha Spanish manifestations (840) Don Quijote de la Mancha English manifestations (247) Don Quijote de la Mancha frbr:Work Miguel de Cervantes Don Quijote de la Mancha German manifestations (49) Entremeses Spanish manifestations (86) frbr:Work frbr:isEmbodiedIn frbr:Expression frbr:Expression frbr:IsManifestedBy frbr:Manifestation frbr:Person frbr:isCreatorOf frbr:Work ( ) Number of resources Using Open-source tools: Gephi for example http://bne.linkeddata.es/graphvis
  • 42. Permitiendo el acceso a aplicaciones 42 Linked Data API: http://datos.bne.es/frontend/persons
  • 43. Acceso y navegación flexible 43 Consuming Out of the box: • Search by every field • Access cluster of resources • Filtering • Paging • Serve multiple formats: XML, Turtle, JSON
  • 44. Diferentes vistas sobre el mismo recurso 44 Consuming HTML XML
  • 45. 45 Interfaces de usuario Datos enlazados abre la puerta a: • Re-ranking resultados OPAC results • Mejor clustering, busquedas facetadas • Motores de recomendación • Enriquecimiento de datos y experiencia de usuario
  • 46. Artículos sobre proceso en datos.bne.es •  Datos.bne.es: A library linked dataset. Semantic Web Journal 2013 to appear: h#p://www.seman@cAwebAjournal.net/content/datosbneesAlibraryAlinkedAdataAdataset •  Daniel Vila-Suero and Elena Escolano “Linked Data at the Spanish National Library and the application of IFLA RDFS models”. ScatNews, IFLA Cataloguing news, 2011. 46
  • 47. Muchas gracias! Preguntas? Para cualquier cuestión o propuesta de colaboración Email: dvila@fi.upm.es Twitter: @dvilasuero 47