But Extraction Discussion
Extraction et structuration de connaissances pour une
plateforme interactive d´edi´ee `a ´Erudit:
´etat de l’art et points de r´eflexion
Philippe Langlais
RALI
Dept. Informatique et Recherche Op´erationnelle
Universit´e de Montr´eal
ACFAS, Mai, 2015
felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 4 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 5 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 6 / 25
But Extraction Discussion
Vers une recherche bas´ee sur les faits
Actuellement :
requˆete : mots cl´es
d´eformation + dos
r´esultat : documents
doc1 | doc2 | doc3 . . .
But :
requˆete : question
d´eformations du dos ?
r´esultat : r´eponses
scoliose (doc)
cyphose (doc)
spondylolisth´esis (doc) . . .
Mais aussi :
Quels sont les protagonistes de la th´eorie de la viabilit´e ?
Symptˆomes de la d´epression ?
. . .
felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
But Extraction Discussion
Comment ?
base de connaissances :
tuples extraits des textes
structur´es
Ex. de tuples :
{Gonzales, produit, une musique ´electro-pop}
{Gonzales, collabore avec, Feist}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
3 familles d’extracteurs (ouverts) de tuples
Texte2Tuples
´etiquetage morphosyntaxique (POS) :
TEXTRUNNER, REVERB, SONEX
analyse syntaxique en d´ependance :
OLLIE, TREEKERNEL, PATTY, EXAMPLAR
´etiquetage s´emantique :
LUND, SWIRL, EXAMPLAR
http://openie.cs.washington.edu
REVERB [Fader et al., 2011]
OLLIE [Mausam et al., 2012]
felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / relations
Relations verbales
reconnues par une ER sur les ´etiquettes POS :
V | V P | V W* P
V = verb particle? adv?
W = (noun | adj | adv | pron | det)
P = (prep | particle | inf. marker)
ex : invented (V), located in (VP), has atomic weight of (VW*P)
+ contraintes :
pour ´eviter des relations verbales trop sp´ecifiques
ex : is offering only modest greenhouse gas reduction targets at
id´ee : les relations d’int´erˆet impliquent de nombreux arguments.
felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
EXTR l’Universit´e McGill == obtient == un doctorat
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / filtrage
in : tuple {x, r, y}
out : p(correctness)
entrain´e sur un corpus (1000 phrases) de tuples manuellement
annot´es (correct ou pas)
19 traits encodant un tuple {x, r, y} extrait d’une phrase s
1.16 {x, r, y} couvre tous les mots de s
0.50 last PREP dans r est for
0.49 last PREP dans r est on
0.46 last PREP dans r est of
0.43 length(s) ≤ 10 words
...
-0.93 conjonction de coordination `a gauche de r dans s
felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
bootstrape d’extractions fiables de REVERB par analyse
syntaxique :
∼110k tuples extraits avec confiance par REVERB depuis
CLUEWEB, tels que :
freq≥2
args = nom propre
chemin de d´ependances pas plus long que 4
4M de phrases de CLUEWEB contiennent ces tuples fiables et
servent de supervision distante
fiable `a 90% selon une ´evaluation manuelle
felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
∀ tuple fiable {x, rel, y}
e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th}
1 d´ependances entre les mots de tˆete des args et de la relation
I learned that the 2012
Sasquash music festi-
val is scheduled for May
25th until May 28th
2 patron syntaxique
{x}
nsubjpass
−−−−−−→ {rel :postag=VBN}
prep
←−−− {y}
3 sch´ema d’extraction
(x ; be {rel} {prep} ; y)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
PATTY [Nakashole et al., 2012]
r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur
les types de YAGO2 :
e.g. < person > ’s [adj] voice * < song > matches :
Amy Winehouse’s soft voice in ’Rehab’
les patrons sont structur´es en une taxonomie
synset :
< person > twice won [[det]] < event > ≡
{then won [[det]]; also won; has won with; . . .}
subsumption :
< person > winner of < award > ⇒
< person > nominated for < award >
https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
WEBRE [Min et al., 2012]
in : 14.7M tuples fiables identifi´es par REVERB depuis
CLUEWEB
1.3M relations verbales
3.3M entit´ees (args)
out : 84 000 item sets
marijuana result in insomnia
caffeine be risk factor of emphysema
nicotine be major cause of breast cancer
. . . . . . . . .
Comment : par regroupement (clustering)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Question-R´eponse ouvert [Fader et al., 2014]
QR ≡ question2requˆete `a une collection de tuples
4 tuple-stores (FREEBASE et 3 extraits automatiquement)
une fonction de pointage apprise sur un ens. de
questions-r´eponses (structured perceptron)
r´eponse ≡ recherche en faisceau (espace = s´equence
d’op´erateurs)
Input What are some examples of building maintenance jobs ?
Parse ?x: (?x, example of, building maintenance jobs)
Rewrite ?x: (?x, is-a, building maintenance job)
Execute {changing light bulb, is-a, small building maintenance job}
Input What animal represents California ?
Paraphrase What are California’s symbols ?
Parse ?x: (california,symbols, ?x)
Execute {California Water Service, Trading symbol, CWT}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Exploration d’une large collections de textes
[Akbik et al., 2014]
http://lucene.textmining.tu-berlin.de/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
But Extraction Discussion Extraction de tuples Structuration Applications
Literome project [Poon et al., 2014]
extraction de connaissances g´enomiques depuis les articles de
PubMed
disponible en ligne
felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
But Extraction Discussion
Enjeux sp´ecifiques `a ´Erudit
base “petite” et h´et´erog`ene
(th`eses, livres, actes, pluri-domaines)
peu de liens `a des bases existantes
(Freebase, Wikidata, Yago)
technologie embarqu´ee peu adapt´ee
(reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
But Extraction Discussion
Ce qui aiderait
acc`es au corpus
(merci `a ´Emilie Paquin et Joanie Lavoie)
acc`es aux (logs) utilisateurs
que cherchent les utilisateurs ?
sont-il limit´es par les fonctionnalit´es de recherche actuelles ?
ce qu’ils aimeraient ?
Merci
Questions, suggestions ?
felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
But Extraction Discussion
Bibliography I
Akbik, A., Michael, T., and Boden, C. (2014).
Exploratory relation extraction in large text corpora.
In 25th International Conference on Computational Linguistics,
pages 2087–2096.
Fader, A., Soderland, S., and Etzioni, O. (2011).
Identifying relations for open information extraction.
In Empirical Methods in Natural Language Processing, EMNLP
’11, pages 1535–1545.
Fader, A., Zettlemoyer, L., and Etzioni, O. (2014).
Open question answering over curated and extracted knowledge
bases.
In Proceedings of the 20th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, KDD ’14,
pages 1156–1165.
But Extraction Discussion
Bibliography II
Mausam, Schmitz, M., Bart, R., Soderland, S., and
Etzioni, O. (2012).
Open language learning for information extraction.
In Joint EMNLP and CoNLL, pages 523–534.
Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012).
Ensemble semantics for large-scale unsupervised relation
extraction.
In Joint EMNLP and CoNLL, pages 1027–1037.
Nakashole, N., Weikum, G., and Suchanek, F. (2012).
Patty : A taxonomy of relational patterns with semantic types.
In Joint EMNLP and CoNLL, pages 1135–1145.
Poon, H., Quirk, C., DeZiel, C., and Heckerman, D.
(2014).
Literome : Pubmed-scale genomic knowledge base in the cloud.
Bioinformatics, 30(19) :2840–2842.
Cr´edits
Underground, underdog, underrated, under stress, under
pressure, under-appreciated, Chilly Gonzales - Never Stop

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion

  • 1.
    But Extraction Discussion Extractionet structuration de connaissances pour une plateforme interactive d´edi´ee `a ´Erudit: ´etat de l’art et points de r´eflexion Philippe Langlais RALI Dept. Informatique et Recherche Op´erationnelle Universit´e de Montr´eal ACFAS, Mai, 2015 felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
  • 2.
    But Extraction Discussion Plan Constat Extractiond’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
  • 3.
    But Extraction Discussion Plan Constat Extractiond’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
  • 4.
    But Extraction Discussion felipe@iro.umontreal.caExtraction et structuration de connaissances 4 / 25
  • 5.
    But Extraction Discussion felipe@iro.umontreal.caExtraction et structuration de connaissances 5 / 25
  • 6.
    But Extraction Discussion felipe@iro.umontreal.caExtraction et structuration de connaissances 6 / 25
  • 7.
    But Extraction Discussion Versune recherche bas´ee sur les faits Actuellement : requˆete : mots cl´es d´eformation + dos r´esultat : documents doc1 | doc2 | doc3 . . . But : requˆete : question d´eformations du dos ? r´esultat : r´eponses scoliose (doc) cyphose (doc) spondylolisth´esis (doc) . . . Mais aussi : Quels sont les protagonistes de la th´eorie de la viabilit´e ? Symptˆomes de la d´epression ? . . . felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
  • 8.
    But Extraction Discussion Comment? base de connaissances : tuples extraits des textes structur´es Ex. de tuples : {Gonzales, produit, une musique ´electro-pop} {Gonzales, collabore avec, Feist} felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
  • 9.
    But Extraction DiscussionExtraction de tuples Structuration Applications Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
  • 10.
    But Extraction DiscussionExtraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
  • 11.
    But Extraction DiscussionExtraction de tuples Structuration Applications 3 familles d’extracteurs (ouverts) de tuples Texte2Tuples ´etiquetage morphosyntaxique (POS) : TEXTRUNNER, REVERB, SONEX analyse syntaxique en d´ependance : OLLIE, TREEKERNEL, PATTY, EXAMPLAR ´etiquetage s´emantique : LUND, SWIRL, EXAMPLAR http://openie.cs.washington.edu REVERB [Fader et al., 2011] OLLIE [Mausam et al., 2012] felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
  • 12.
    But Extraction DiscussionExtraction de tuples Structuration Applications REVERB / relations Relations verbales reconnues par une ER sur les ´etiquettes POS : V | V P | V W* P V = verb particle? adv? W = (noun | adj | adv | pron | det) P = (prep | particle | inf. marker) ex : invented (V), located in (VP), has atomic weight of (VW*P) + contraintes : pour ´eviter des relations verbales trop sp´ecifiques ex : is offering only modest greenhouse gas reduction targets at id´ee : les relations d’int´erˆet impliquent de nombreux arguments. felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
  • 13.
    But Extraction DiscussionExtraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  • 14.
    But Extraction DiscussionExtraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O EXTR Elle == reprend == ses ´etudes felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  • 15.
    But Extraction DiscussionExtraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O EXTR Elle == reprend == ses ´etudes EXTR l’Universit´e McGill == obtient == un doctorat felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  • 16.
    But Extraction DiscussionExtraction de tuples Structuration Applications REVERB / filtrage in : tuple {x, r, y} out : p(correctness) entrain´e sur un corpus (1000 phrases) de tuples manuellement annot´es (correct ou pas) 19 traits encodant un tuple {x, r, y} extrait d’une phrase s 1.16 {x, r, y} couvre tous les mots de s 0.50 last PREP dans r est for 0.49 last PREP dans r est on 0.46 last PREP dans r est of 0.43 length(s) ≤ 10 words ... -0.93 conjonction de coordination `a gauche de r dans s felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
  • 17.
    But Extraction DiscussionExtraction de tuples Structuration Applications OLLIE bootstrape d’extractions fiables de REVERB par analyse syntaxique : ∼110k tuples extraits avec confiance par REVERB depuis CLUEWEB, tels que : freq≥2 args = nom propre chemin de d´ependances pas plus long que 4 4M de phrases de CLUEWEB contiennent ces tuples fiables et servent de supervision distante fiable `a 90% selon une ´evaluation manuelle felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
  • 18.
    But Extraction DiscussionExtraction de tuples Structuration Applications OLLIE ∀ tuple fiable {x, rel, y} e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th} 1 d´ependances entre les mots de tˆete des args et de la relation I learned that the 2012 Sasquash music festi- val is scheduled for May 25th until May 28th 2 patron syntaxique {x} nsubjpass −−−−−−→ {rel :postag=VBN} prep ←−−− {y} 3 sch´ema d’extraction (x ; be {rel} {prep} ; y) felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
  • 19.
    But Extraction DiscussionExtraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
  • 20.
    But Extraction DiscussionExtraction de tuples Structuration Applications PATTY [Nakashole et al., 2012] r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur les types de YAGO2 : e.g. < person > ’s [adj] voice * < song > matches : Amy Winehouse’s soft voice in ’Rehab’ les patrons sont structur´es en une taxonomie synset : < person > twice won [[det]] < event > ≡ {then won [[det]]; also won; has won with; . . .} subsumption : < person > winner of < award > ⇒ < person > nominated for < award > https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/ felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
  • 21.
    But Extraction DiscussionExtraction de tuples Structuration Applications WEBRE [Min et al., 2012] in : 14.7M tuples fiables identifi´es par REVERB depuis CLUEWEB 1.3M relations verbales 3.3M entit´ees (args) out : 84 000 item sets marijuana result in insomnia caffeine be risk factor of emphysema nicotine be major cause of breast cancer . . . . . . . . . Comment : par regroupement (clustering) felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
  • 22.
    But Extraction DiscussionExtraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
  • 23.
    But Extraction DiscussionExtraction de tuples Structuration Applications Question-R´eponse ouvert [Fader et al., 2014] QR ≡ question2requˆete `a une collection de tuples 4 tuple-stores (FREEBASE et 3 extraits automatiquement) une fonction de pointage apprise sur un ens. de questions-r´eponses (structured perceptron) r´eponse ≡ recherche en faisceau (espace = s´equence d’op´erateurs) Input What are some examples of building maintenance jobs ? Parse ?x: (?x, example of, building maintenance jobs) Rewrite ?x: (?x, is-a, building maintenance job) Execute {changing light bulb, is-a, small building maintenance job} Input What animal represents California ? Paraphrase What are California’s symbols ? Parse ?x: (california,symbols, ?x) Execute {California Water Service, Trading symbol, CWT} felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
  • 24.
    But Extraction DiscussionExtraction de tuples Structuration Applications Exploration d’une large collections de textes [Akbik et al., 2014] http://lucene.textmining.tu-berlin.de/ felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
  • 25.
    But Extraction DiscussionExtraction de tuples Structuration Applications Literome project [Poon et al., 2014] extraction de connaissances g´enomiques depuis les articles de PubMed disponible en ligne felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
  • 26.
    But Extraction Discussion Plan Constat Extractiond’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
  • 27.
    But Extraction Discussion Enjeuxsp´ecifiques `a ´Erudit base “petite” et h´et´erog`ene (th`eses, livres, actes, pluri-domaines) peu de liens `a des bases existantes (Freebase, Wikidata, Yago) technologie embarqu´ee peu adapt´ee (reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores) felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
  • 28.
    But Extraction Discussion Cequi aiderait acc`es au corpus (merci `a ´Emilie Paquin et Joanie Lavoie) acc`es aux (logs) utilisateurs que cherchent les utilisateurs ? sont-il limit´es par les fonctionnalit´es de recherche actuelles ? ce qu’ils aimeraient ? Merci Questions, suggestions ? felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
  • 29.
    But Extraction Discussion BibliographyI Akbik, A., Michael, T., and Boden, C. (2014). Exploratory relation extraction in large text corpora. In 25th International Conference on Computational Linguistics, pages 2087–2096. Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying relations for open information extraction. In Empirical Methods in Natural Language Processing, EMNLP ’11, pages 1535–1545. Fader, A., Zettlemoyer, L., and Etzioni, O. (2014). Open question answering over curated and extracted knowledge bases. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’14, pages 1156–1165.
  • 30.
    But Extraction Discussion BibliographyII Mausam, Schmitz, M., Bart, R., Soderland, S., and Etzioni, O. (2012). Open language learning for information extraction. In Joint EMNLP and CoNLL, pages 523–534. Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012). Ensemble semantics for large-scale unsupervised relation extraction. In Joint EMNLP and CoNLL, pages 1027–1037. Nakashole, N., Weikum, G., and Suchanek, F. (2012). Patty : A taxonomy of relational patterns with semantic types. In Joint EMNLP and CoNLL, pages 1135–1145. Poon, H., Quirk, C., DeZiel, C., and Heckerman, D. (2014). Literome : Pubmed-scale genomic knowledge base in the cloud. Bioinformatics, 30(19) :2840–2842.
  • 31.
    Cr´edits Underground, underdog, underrated,under stress, under pressure, under-appreciated, Chilly Gonzales - Never Stop