Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion

But Extraction Discussion
Extraction et structuration de connaissances pour une
plateforme interactive dédiée à Érudit:
état de l’art et points de réflexion
Philippe Langlais
RALI
Dept. Informatique et Recherche Opérationnelle
Université de Montréal
ACFAS, Mai, 2015
felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25

Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion

Plan
Constat
Structuration
Applications
Discussion

Vers une recherche basée sur les faits
Actuellement :
requête : mots clés
déformation + dos
résultat : documents
doc1 | doc2 | doc3 . . .
But :
requête : question
déformations du dos ?
résultat : réponses
scoliose (doc)
cyphose (doc)
spondylolisthésis (doc) . . .
Mais aussi :
Quels sont les protagonistes de la théorie de la viabilité ?
Symptômes de la dépression ?
. . .

Comment ?
base de connaissances :
tuples extraits des textes
structur´es
Ex. de tuples :
{Gonzales, produit, une musique ´electro-pop}
{Gonzales, collabore avec, Feist}

But Extraction Discussion Extraction de tuples Structuration Applications
Plan
Constat
Structuration
Applications
Discussion

3 familles d’extracteurs (ouverts) de tuples
Texte2Tuples
étiquetage morphosyntaxique (POS) :
TEXTRUNNER, REVERB, SONEX
analyse syntaxique en dépendance :
OLLIE, TREEKERNEL, PATTY, EXAMPLAR
étiquetage sémantique :
LUND, SWIRL, EXAMPLAR
http://openie.cs.washington.edu
REVERB [Fader et al., 2011]
OLLIE [Mausam et al., 2012]

REVERB / relations
Relations verbales
reconnues par une ER sur les étiquettes POS :
V | V P | V W* P
V = verb particle? adv?
W = (noun | adj | adv | pron | det)
P = (prep | particle | inf. marker)
ex : invented (V), located in (VP), has atomic weight of (VW*P)
+ contraintes :
pour éviter des relations verbales trop spécifiques
ex : is offering only modest greenhouse gas reduction targets at
idée : les relations d’intérêt impliquent de nombreux arguments.

REVERB / extraction
∀ relation r :
chercher x le plus proche NP à gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP à droite de r
TOKS Elle reprend ses études à l’ Université McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O

REVERB / extraction
∀ relation r :
PONCT
EXTR Elle == reprend == ses ´etudes

REVERB / extraction
∀ relation r :
PONCT
EXTR Elle == reprend == ses ´etudes
EXTR l’Universit´e McGill == obtient == un doctorat

REVERB / filtrage
in : tuple {x, r, y}
out : p(correctness)
entrainé sur un corpus (1000 phrases) de tuples manuellement
annotés (correct ou pas)
19 traits encodant un tuple {x, r, y} extrait d’une phrase s
1.16 {x, r, y} couvre tous les mots de s
0.50 last PREP dans r est for
0.49 last PREP dans r est on
0.46 last PREP dans r est of
0.43 length(s) ≤ 10 words
...
-0.93 conjonction de coordination à gauche de r dans s

OLLIE
bootstrape d’extractions fiables de REVERB par analyse
syntaxique :
∼110k tuples extraits avec confiance par REVERB depuis
CLUEWEB, tels que :
freq≥2
args = nom propre
chemin de dépendances pas plus long que 4
4M de phrases de CLUEWEB contiennent ces tuples fiables et
servent de supervision distante
fiable à 90% selon une évaluation manuelle

OLLIE
∀ tuple fiable {x, rel, y}
e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th}
1 dépendances entre les mots de tête des args et de la relation
I learned that the 2012
Sasquash music festi-
val is scheduled for May
25th until May 28th
2 patron syntaxique
{x}
nsubjpass
−−−−−−→ {rel :postag=VBN}
prep
←−−− {y}
3 schéma d’extraction
(x ; be {rel} {prep} ; y)

PATTY [Nakashole et al., 2012]
règles apprises de manière similaire à OLLIE, mais ancrées sur
les types de YAGO2 :
e.g. < person > ’s [adj] voice * < song > matches :
Amy Winehouse’s soft voice in ’Rehab’
les patrons sont structurés en une taxonomie
synset :
< person > twice won [[det]] < event > ≡
{then won [[det]]; also won; has won with; . . .}
subsumption :
< person > winner of < award > ⇒
< person > nominated for < award >
https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/

WEBRE [Min et al., 2012]
in : 14.7M tuples fiables identifiés par REVERB depuis
CLUEWEB
1.3M relations verbales
3.3M entitées (args)
out : 84 000 item sets
marijuana result in insomnia
caffeine be risk factor of emphysema
nicotine be major cause of breast cancer
. . . . . . . . .
Comment : par regroupement (clustering)

Question-Réponse ouvert [Fader et al., 2014]
QR ≡ question2requête à une collection de tuples
4 tuple-stores (FREEBASE et 3 extraits automatiquement)
une fonction de pointage apprise sur un ens. de
questions-réponses (structured perceptron)
réponse ≡ recherche en faisceau (espace = séquence
d’opérateurs)
Input What are some examples of building maintenance jobs ?
Parse ?x: (?x, example of, building maintenance jobs)
Rewrite ?x: (?x, is-a, building maintenance job)
Execute {changing light bulb, is-a, small building maintenance job}
Input What animal represents California ?
Paraphrase What are California’s symbols ?
Parse ?x: (california,symbols, ?x)
Execute {California Water Service, Trading symbol, CWT}

Exploration d’une large collections de textes
[Akbik et al., 2014]
http://lucene.textmining.tu-berlin.de/

Literome project [Poon et al., 2014]
extraction de connaissances g´enomiques depuis les articles de
PubMed
disponible en ligne

Plan
Constat
Structuration
Applications
Discussion

Enjeux spécifiques à Érudit
base “petite” et hétérogène
(thèses, livres, actes, pluri-domaines)
peu de liens à des bases existantes
(Freebase, Wikidata, Yago)
technologie embarquée peu adaptée
(reconnaissance d’entités nommées, résolution d’anaphores)

Ce qui aiderait
accès au corpus
(merci à Émilie Paquin et Joanie Lavoie)
accès aux (logs) utilisateurs
que cherchent les utilisateurs ?
sont-il limités par les fonctionnalités de recherche actuelles ?
ce qu’ils aimeraient ?
Merci
Questions, suggestions ?

Bibliography I
Akbik, A., Michael, T., and Boden, C. (2014).
Exploratory relation extraction in large text corpora.
In 25th International Conference on Computational Linguistics,
pages 2087–2096.
Fader, A., Soderland, S., and Etzioni, O. (2011).
Identifying relations for open information extraction.
In Empirical Methods in Natural Language Processing, EMNLP
’11, pages 1535–1545.
Fader, A., Zettlemoyer, L., and Etzioni, O. (2014).
Open question answering over curated and extracted knowledge
bases.
In Proceedings of the 20th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, KDD ’14,
pages 1156–1165.

Bibliography II
Mausam, Schmitz, M., Bart, R., Soderland, S., and
Etzioni, O. (2012).
Open language learning for information extraction.
In Joint EMNLP and CoNLL, pages 523–534.
Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012).
Ensemble semantics for large-scale unsupervised relation
extraction.
Nakashole, N., Weikum, G., and Suchanek, F. (2012).
Patty : A taxonomy of relational patterns with semantic types.
Poon, H., Quirk, C., DeZiel, C., and Heckerman, D.
(2014).
Literome : Pubmed-scale genomic knowledge base in the cloud.
Bioinformatics, 30(19) :2840–2842.

Cr´edits
Underground, underdog, underrated, under stress, under
pressure, under-appreciated, Chilly Gonzales - Never Stop

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion

Contenu connexe

En vedette

Plus de Érudit

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion