Proyecto integrador. Las TIC en la sociedad S4.pptx
Resolución de correferencias en discursos fragmentados para la captura de eventos
1. Resolución de correferencias en
discursos fragmentados para la
captura de eventos
Lucía Cantamutto, Josu Bermúdez, Joseba Abaitua, Rodrigo Agerri,
David Buján, Josu K. Díaz-Labrador
Universidad Nacional del Sur (Argentina), Universidad de Deusto
XLIII Congreso de la Sociedad Española de Lingüística 2014
2. Objetivos
● Aplicar y evaluar herramientas de recuperación de
información / minería de datos (OpeNER)
● Reconocer entidades y resolver correferencias
(Bermúdez 2013), (Agerri y otros 2013)
● Capturar “eventos” a partir de textos informativos
culturales (Buján y otros 2013)
● Contribuir a DBpedia, OpenData, Simple Event Model
● Colaborar con EuskoMedia, Wikipedia, topHistoria
3. Named Entity (NE)
Clasificación de entidades
1.
2.
3.
4.
5.
6.
onomásticas
Antropónimos (nombres de persona)
Organizaciones
Topónimos (políticos o físicos)
Títulos (películas, libros, canciones, acontecimientos, etc.)
Expresiones numéricas fecha-tiempo
Otras NE (medidas --porcentajes, monetarias, pesos--, direcciones de
correo, direcciones Web, etc.)
(Martínez Rodríguez, 2009:12)
4. Correferencia
Anáfora
“Anaphora is the device of making in discourse an abbreviated reference to
some entity (or entities) in the expectation that the perceiver of the discourse
will be able to disabbreviate the reference and thereby determine the identity
of the entity. The reference is called ANAPHOR, and the entity to which refers
is the REFERENT or ANTECEDENT. A reference and its referent are said
CORREFERENTIAL. The process of determining the referent of an anaphor is
called RESOLUTION” (Hirst, 1981:4).
Revisado por Recasens (2008:2): carácter textual de la relación
de interdependencia
5. Anáfora
● Los elementos anafóricos siempre
dependen de un antecedente en el texto
● Su significado no es pleno, requiere
necesariamente de una mención anterior
6. Correferencia
● Plano pragmático: la relación depende del
contexto comunicativo y situacional
● Ocurre entre dos unidades lingüísticas
(plenas o anafóricas) que se relacionan
porque tienen una “identidad en la
referencia”; es decir, el mismo referente en
el discurso
Recasens (2002:3) y Recasens y Vila (2010)
7. Correferencia y anáfora
La correferencia, a diferencia de la anáfora, no es una relación unidireccional y
asimétrica sino simétrica y transitiva.
● Resolución de anáfora: nombre-pronombre
● Resolución de correferencia: cadenas de elementos
que tienen idéntico referente
8. Correferencia
“Coreference resolution was thus born as the
process of linking in a string all those linguistic
units (mentions) that refer to the same entity in
the discourse model”
(Recasens, 2002:4)
9. El rendimiento de Multi-Pass Sieve
Karthik Raghunathan, Heeyoung Lee, Sudarshan Rangarajan, Nathanael Chambers, Mihai Surdeanu, Dan Jurafsky,
Christopher Manning (2010). A multi-pass sieve for coreference resolution. Proceedings of the 2010 Conference on
Empirical Methods in Natural Language Processing: 492-501
10. Los módulos del Multi-Pass Sieve
1.
2.
3.
4.
5.
6.
7.
Cotejo exacto
Construcciones previsibles
Cotejo estricto de núcleos
Variante de 3
Variante de 3
Cotejo laxo de núcleos
Pronombres
11. Módulos del Multi-Pass Sieve
● Cotejo exacto (exactamente el mismo texto: the Shahab 3 groundground missile)
● Construcción previsible
○ Aposiciones: [Israel’s Deputy Defense Minister], [Ephraim Sneh]
○ Cópulas: [College Board] is [a nonprofit organization]
○ Apositivas: [[actress] Rebecca Schaeffer] (con heurística)
○ Pronombres relativos:[the finance street [which] has already
formed in the Waitandistrict]
○ Acrónimos: [Agence FrancePresse]...[AFP]
○ Gentilicios: [Israel] ...[Israeli]
12. Módulos del Multi-Pass Sieve
● Cotejo estricto de núcleos
○ añade restricciones a núcleos idénticos
■
■
■
v [Florida Supreme Court]...[the Florida court]
x [Yale University] ... [Harvard University]
x The pilot had confirmed...he had turned onto [the correct
runway] but pilots behind him say he turned onto [the wrong
runway].
○ Este pase mantiene alta la precisión (91%)
mejorando la cobertura (entre 6-8 puntos).
13. Módulos del Multi-Pass Sieve
● Cotejo laxo de núcleos
○ utiliza conjuntos de candidatos a antecedente
■
[Sanders] … {Sauls, the judge, Circuit Judge N. Sanders Sauls}
○ Solo se aplica a NE y apenas incide en la mejora (1
punto).
14. Módulos del Multi-Pass Sieve
● Pronombres
○
Los pases anteriores han ido creado listas
de candidatos para
la resolución de las correferencias pronominales
○
Cotejo de
■
■
■
concordancia:
Género, número, persona
Animacidad
Etiqueta NER
○ Sube la cobertura 22% aunque baja la precisión 8%
15. “Cuando el Imperio Romano de Occidente desapareció en el 476, el reino
visigodo, que se extendía a los dos lados de los Pirineos, era el reino
germánico más grande. Pese a la fama que se ha dado a los visigodos como
aliados de Roma, con ningún otro pueblo luchó tanto tiempo el imperio en su
último siglo de existencia en Occidente, ni ningún otro le arrebató tanto
territorio. Así, en el 476 el reino visigodo, con capital en Tolosa, se extendía
desde el Loira hasta una zona indeterminada de la mitad meridional de la
península ibérica (no se puede precisar más porque se desconoce la
cronología de la ocupación visigoda de gran parte de la Península). Nadie
tenía entonces más territorios en Francia y en la península ibérica. Además,
uno de los grandes reyes visigodos, Eurico (466-484) aprovechó la
desaparición del Imperio Romano de Occidente para extender aún más sus
dominios. Efectivamente el reino visigodo completó entonces la ocupación de
toda la costa mediterránea francesa, una vieja aspiración que había sido
combatida por los romanos.”
Armando Besga Marroquín (2007)
16. 1.
2.
3.
4.
5.
6.
7.
Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo
era el reino germánico más extenso
En el 476 el reino visigodo se extendía por la Galia e Hispania a ambos lados de
los Pirineos
Pese a la fama de los visigodos como aliados de Roma, contra ningún otro
pueblo luchó tanto en su último siglo de dominio en Occidente
Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo
El reino con capital en Tolosa se extendía desde el Loira hasta una zona
indeterminada de la mitad meridional de la península ibérica
El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de
Occidente para extender sus dominios
Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja
aspiración que había sido combatida por Roma
17. 1.
2.
3.
4.
5.
6.
7.
Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo
era el reino germánico más extenso
En el 476 el reino visigodo se extendía por la Galia e Hispania a ambos lados de
los Pirineos
Pese a la fama de los visigodos como aliados de Roma, contra ningún otro
pueblo luchó PRO tanto en su último siglo de dominio en Occidente
Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo
El reino con capital en Tolosa se extendía desde el Loira hasta una zona
indeterminada de la mitad meridional de la península ibérica
El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de
Occidente para extender sus dominios
Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja
aspiración que había sido combatida por Roma
18. ●
●
●
●
●
●
●
●
●
●
●
M1 Imperio Romano de Occidente, Roma, PRO, su, Occidente,
Imperio, Imperio de Occidente, Roma
M2 476, 476
M3 reino visigodo, reino visigodo, visigodos, pueblo visigodo,
reino con capital en Tolosa
M4 reino germánico
M5 Galia
M6 Hispania
M7 Pirineos
M8 Loira
M9 península ibérica
M10 Eurico, sus, Eurico
M11 costa mediterránea francesa
21. 1.
2.
3.
4.
5.
6.
7.
Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo
era el reino germánico más extenso
En el 476 el reino visigodo se extendía por la Galia e Hispania a ambos lados de
los Pirineos
Pese a la fama de los visigodos como aliados de Roma, contra ningún otro
pueblo luchó PRO tanto en su último siglo de dominio en Occidente
Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo
El reino con capital en Tolosa se extendía desde el Loira hasta una zona
indeterminada de la mitad meridional de la península ibérica
El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de
Occidente para extender sus dominios
Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja
aspiración que había sido combatida por Roma
22. 1.
2.
3.
4.
5.
6.
7.
Cuando M1 desapareció en M2, M3 era el M4 más extenso
En M2 M3 se extendía por M5 e M6 a ambos lados de M7
Pese a la fama de M3 como aliados de M1, contra ningún otro pueblo luchó M1
tanto en su último siglo de dominio en M1
Nadie había arrebatado a M1 tanto territorio como M3
M3 se extendía desde M8 hasta una zona indeterminada de la mitad meridional
de M9
El rey visigodo M10 (466-484) aprovechó la desaparición de M1 para extender
sus dominios
M10 completó la ocupación de toda M11, una vieja aspiración que había sido
combatida por M1
23.
24.
25. Créditos
●
●
●
OpenNER (Agerri y otros 2013)
○ http://www.opener-project.org/
NeHL, BiDEI, TourExp (Buján y otros 2013)
○ http://linguamedia.deusto.es/
○ http://morelab.deusto.es/
Simple Event Model (van Hage y otros 2011)
○
●
●
http://www.websemanticsjournal.org/index.php/ps/article/view/190/188
○ Willem van Hage http://wrvh.home.xs4all.nl/wrvhage/
DBpedia
○ http://dbpedia.org/About
WordNet
○ http://wordnetweb.princeton.edu/perl/webwn