Presentación sobre las ventajas de los datos enlazados (linked data) para la representación de recursos lingüísticos en la Web. Aplicación del modelo lemon-ontolex para representar datos de terminologías multilingües en España. La experiencia de Terminoteca RDF. Presentado en la Jornada sobre “TERMINESP y la terminología del español” organizada por la Representación de la Comisión Europea en España (28/10/2016).
Utilidad de los datos enlazados para la terminología
1. Utilidad de los datos enlazados
para la terminología
Jorge Gracia
Ontology Engineering Group
Dpto. de Inteligencia Artificial
Universidad Politécnica de Madrid
jgracia@fi.upm.es
Jornada sobre “TERMINESP y la terminología del español”
Representación de la Comisión Europea en España, Madrid
28 de octubre de 2016
3. Recursos lingüísticos en la Web
Recursos Lingüísticos Electrónicos
• corpus
• lexicones
• diccionarios
• “wordnets”
• terminologías
• etc.
3
4. Recursos lingüísticos en la Web
Actualmente…
• En formatos heterogéneos
• Diferentes esquemas de representación
• APIs no estándar
• Aislados entre sí (“data silos”)
• Diferentes niveles de acceso (desde “mándame un email” a servicios
web)
• Múltiples catálogos de recursos lingüísticos con diferentes metadatos y
esquemas de representación
Por tanto... el descubrimiento y reutilización de RLs resulta costoso en
tiempo y esfuerzo
4
5. *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
“Red”
Etimología: Del latin “rete”
Género: “f”
Definición: “Conjunto de
ordenadores o de equipos
informáticos conectados entre
sí….”
“Red”
Traducciones: “xarxa”(ca), “rede”(ga), …
“Red”
Norma: UNE 21302-131
Inglés: network
Alemán: Netzwerk
“Red”
Pronunciation: [red]
Grammar category: sustantivo femenino
Singular: “red”
Plural: “redes”
“Red_de_computadores”
Category: redes informáticas
Image
Recursos lingüísticos en la Web
“Red” (de
ordenadores)
5
6. *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
“Red”
Etimología: Del latin “rete”
Género: “f”
Definición: “Conjunto de
ordenadores o de equipos
informáticos conectados entre
sí….”
“Red”
Traducciones: “xarxa”(ca), “rede”(ga), …
“Red”
Norma: UNE 21302-131
Inglés: network
Alemán: Netzwerk
“Red”
Pronunciation: [red]
Grammar category: sustantivo femenino
Singular: “red”
Plural: “redes”
“Red_de_computadores”
Category: redes informáticas
Image
Recursos lingüísticos en la Web
Información
complementaria
pero no conectada
6
8. Datos enlazados
Prinicipos de los Datos Enlazados
(linked data principles)
1. Usar URIs (Uniform Resource Identifiers) para identificar
“cosas” en la Web
2. Usar HTTP URIs para que la gente pueda acceder a
esos identificadores y obtener algo
3. Cuando alguien accede a una URI, debe proporcionarse
información útil sobre el recurso que identifica (en RDF)
4. Incluir enlaces a otras URIs, para que se puedan
descubrir más cosas.
8
8
12. Datos enlazados
Algunos BENEFICIOS de los recursos lingüísticos
como datos enlazados
• Agregación e integración de recursos lingüísticos
• Los datos se exponen de manera estandarizada (SPARQL)
• Se facilita el descubrimiento de los datos
• Uso de vocabularios acordados para representar contenido
lingüístico
NIF
NLP Interchange Format
12
12
13. Datos enlazados
Linguistic Linked Data Cloud
Aparición de la “nube de datos lingüísticos enlazados”
Linguistic Linked Open Data (LLOD) cloud
13
http://linguistic-lod.org/llod-cloud
13
19. Terminoteca RDF
TERMINOTECA RDF como demostrador del potencial de los datos
enlazados en terminologías
• Basado en Terminesp y Termcat
• Multilingüe: inglés, catalán, francés, italiano, sueco, alemán, latín
http://linguistic.linkeddata.es/terminoteca/
19
20. Terminesp
TERMINESP es la base de datos terminológica creada por AETER
(Asociación Española de Terminología) en base a la terminología
contenida en las normas UNE (AENOR)
>30,000 términos técnicos con definiciones (en español)
Variedad de dominios: aeronáutica, agricultura, ingeniería eléctrica, …
Traducciones al Inglés, francés, alemán, italiano, sueco
Denominación científica (latín)
20
http://www.wikilengua.org/index.php/Wikilengua:Terminesp
22. Termcat
http://www.termcat.cat/en/Terminologia_Oberta/
TERMCAT es el centro de terminología de la lengua catalana,
responsable de la Terminologia Oberta:
Gran variedad de dominios. [En nuestro prototipo: Internet y sociedad
de la información, Telecomunicaciones, Industria electrónica]
Traducciones al español, inglés y francés
Siglas, abreviaturas, sinónimos,…
22
24. Terminoteca RDF
Conversión de TERMINESP y TERMCAT a datos enlazados:
De acuerdo al modelo lemon-ontolex
Cada elemento lingüístico (lexical entry, lexical form, lexical sense,
translation, …) identificado con una URI
Creación de conceptos en skos para dar cuenta de la información
semántica
En TERMINESP:
>30000 conceptos creados
Añadida información de categorías gramaticales (part-of-speech)
Añadido el tipo de sintagma (nominal, adjetival, preposicional, …)
En TERMCAT:
> 7000 conceptos creados (tres dominios)
24
30. Terminoteca RDF
Interfaz web para obtener traducciones directas
http://linguistic.linkeddata.es/terminoteca/search/
30
31. Terminoteca RDF
31
Motor SPARQL para búsquedas semánticas más complejas
http://linguistic.linkeddata.es/terminoteca/sparql-editor/
32. Terminoteca RDF
Ejemplo: “Dame traducciones al catalán [Termcat] y al alemán [Terminesp]
del término en español ‘amplificador’, indicando el origen de los datos y el
dominio de aplicación.”
32
wr_target provenance subject
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml
"Electrònica"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml
"Electrònica"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml
"Societat de la informació"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml
"Societat de la informació"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml
"Telecomunicacions"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml
"Telecomunicacions"@ca
"Verstärker"@de http://www.wikilengua.org
"Verstärket"@de http://www.wikilengua.org
33. Terminoteca RDF
33
Ejemplo: “Dame las siglas [de Termcat] asociadas a las entradas en inglés
que vengan de Terminesp [y que no tenían siglas asociadas, inicialmente].”
label initialism
"code division multiple access"@en "CDMA"@en
"time division multiple access"@en "TDMA"@en
"light-emitting diode"@en "LED"@en
"unipolar transistor"@en "FET"@en
"N-channel field-effect transistor"@en "N-FET"@en
"database management system"@en "DBMS"@en
"frequency division multiple access"@en "FDMA"@en
"low-noise amplifier"@en "LNA"@en
"automatic gain control"@en "AGC"@en
"programmable logic controller"@en "PLC"@en
"alternating current"@en "AC"@en
"direct current"@en "DC"@en
"programmable logic device"@en "PLD"@en
35. Conclusiones
• Los datos enlazados pueden ser de utilidad para los recursos
lingüísticos en general y las terminologías en particular
• Iniciativa Terminoteca RDF: crear un grafo unificado de
terminologías en España basado en técnicas de datos enlazados
• Validación y enriquecimiento de los datos, y enlazado a otras
fuentes
• Futuros pasos:
• Enlace con otras terminologías y fuentes de datos (ej.: IATE, DBpedia,
Apertium)
• Evolución más allá de estado de “prototipo” de investigación
• Interacción más directa con los propios procesos de
creación/validación/publicación de datos de Terminesp y Termcat
35