But Extraction Discussion
Extraction et structuration de connaissances pour une
plateforme interactive d´edi´ee `a ´Erudit...
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Di...
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Di...
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 4 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 5 / 25
But Extraction Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 6 / 25
But Extraction Discussion
Vers une recherche bas´ee sur les faits
Actuellement :
requˆete : mots cl´es
d´eformation + dos
...
But Extraction Discussion
Comment ?
base de connaissances :
tuples extraits des textes
structur´es
Ex. de tuples :
{Gonzal...
But Extraction Discussion Extraction de tuples Structuration Applications
Plan
Constat
Extraction d’information ouverte
Ex...
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structurat...
But Extraction Discussion Extraction de tuples Structuration Applications
3 familles d’extracteurs (ouverts) de tuples
Tex...
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / relations
Relations verbales
reconnues ...
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le...
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le...
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le...
But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / filtrage
in : tuple {x, r, y}
out : p(co...
But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
bootstrape d’extractions fiables de REVERB ...
But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
∀ tuple fiable {x, rel, y}
e.g. {the 2012 S...
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structurat...
But Extraction Discussion Extraction de tuples Structuration Applications
PATTY [Nakashole et al., 2012]
r`egles apprises ...
But Extraction Discussion Extraction de tuples Structuration Applications
WEBRE [Min et al., 2012]
in : 14.7M tuples fiable...
But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structurat...
But Extraction Discussion Extraction de tuples Structuration Applications
Question-R´eponse ouvert [Fader et al., 2014]
QR...
But Extraction Discussion Extraction de tuples Structuration Applications
Exploration d’une large collections de textes
[A...
But Extraction Discussion Extraction de tuples Structuration Applications
Literome project [Poon et al., 2014]
extraction ...
But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Di...
But Extraction Discussion
Enjeux sp´ecifiques `a ´Erudit
base “petite” et h´et´erog`ene
(th`eses, livres, actes, pluri-doma...
But Extraction Discussion
Ce qui aiderait
acc`es au corpus
(merci `a ´Emilie Paquin et Joanie Lavoie)
acc`es aux (logs) ut...
But Extraction Discussion
Bibliography I
Akbik, A., Michael, T., and Boden, C. (2014).
Exploratory relation extraction in ...
But Extraction Discussion
Bibliography II
Mausam, Schmitz, M., Bart, R., Soderland, S., and
Etzioni, O. (2012).
Open langu...
Cr´edits
Underground, underdog, underrated, under stress, under
pressure, under-appreciated, Chilly Gonzales - Never Stop
Prochain SlideShare
Chargement dans…5
×

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion

500 vues

Publié le

Présentation de Philippe Langlais dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" le 25 mai 2015.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
500
Sur SlideShare
0
Issues des intégrations
0
Intégrations
217
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion

  1. 1. But Extraction Discussion Extraction et structuration de connaissances pour une plateforme interactive d´edi´ee `a ´Erudit: ´etat de l’art et points de r´eflexion Philippe Langlais RALI Dept. Informatique et Recherche Op´erationnelle Universit´e de Montr´eal ACFAS, Mai, 2015 felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
  2. 2. But Extraction Discussion Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
  3. 3. But Extraction Discussion Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
  4. 4. But Extraction Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 4 / 25
  5. 5. But Extraction Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 5 / 25
  6. 6. But Extraction Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 6 / 25
  7. 7. But Extraction Discussion Vers une recherche bas´ee sur les faits Actuellement : requˆete : mots cl´es d´eformation + dos r´esultat : documents doc1 | doc2 | doc3 . . . But : requˆete : question d´eformations du dos ? r´esultat : r´eponses scoliose (doc) cyphose (doc) spondylolisth´esis (doc) . . . Mais aussi : Quels sont les protagonistes de la th´eorie de la viabilit´e ? Symptˆomes de la d´epression ? . . . felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
  8. 8. But Extraction Discussion Comment ? base de connaissances : tuples extraits des textes structur´es Ex. de tuples : {Gonzales, produit, une musique ´electro-pop} {Gonzales, collabore avec, Feist} felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
  9. 9. But Extraction Discussion Extraction de tuples Structuration Applications Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
  10. 10. But Extraction Discussion Extraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
  11. 11. But Extraction Discussion Extraction de tuples Structuration Applications 3 familles d’extracteurs (ouverts) de tuples Texte2Tuples ´etiquetage morphosyntaxique (POS) : TEXTRUNNER, REVERB, SONEX analyse syntaxique en d´ependance : OLLIE, TREEKERNEL, PATTY, EXAMPLAR ´etiquetage s´emantique : LUND, SWIRL, EXAMPLAR http://openie.cs.washington.edu REVERB [Fader et al., 2011] OLLIE [Mausam et al., 2012] felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
  12. 12. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / relations Relations verbales reconnues par une ER sur les ´etiquettes POS : V | V P | V W* P V = verb particle? adv? W = (noun | adj | adv | pron | det) P = (prep | particle | inf. marker) ex : invented (V), located in (VP), has atomic weight of (VW*P) + contraintes : pour ´eviter des relations verbales trop sp´ecifiques ex : is offering only modest greenhouse gas reduction targets at id´ee : les relations d’int´erˆet impliquent de nombreux arguments. felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
  13. 13. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  14. 14. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O EXTR Elle == reprend == ses ´etudes felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  15. 15. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / extraction ∀ relation r : chercher x le plus proche NP `a gauche de r pas : un pronom relatif, un adverbe, WHO, THERE, etc. chercher y le plus proche NP `a droite de r TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en psychologie ( 1965 ) . POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT PONCT CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP B-PP B-NP O B-NP O O EXTR Elle == reprend == ses ´etudes EXTR l’Universit´e McGill == obtient == un doctorat felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
  16. 16. But Extraction Discussion Extraction de tuples Structuration Applications REVERB / filtrage in : tuple {x, r, y} out : p(correctness) entrain´e sur un corpus (1000 phrases) de tuples manuellement annot´es (correct ou pas) 19 traits encodant un tuple {x, r, y} extrait d’une phrase s 1.16 {x, r, y} couvre tous les mots de s 0.50 last PREP dans r est for 0.49 last PREP dans r est on 0.46 last PREP dans r est of 0.43 length(s) ≤ 10 words ... -0.93 conjonction de coordination `a gauche de r dans s felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
  17. 17. But Extraction Discussion Extraction de tuples Structuration Applications OLLIE bootstrape d’extractions fiables de REVERB par analyse syntaxique : ∼110k tuples extraits avec confiance par REVERB depuis CLUEWEB, tels que : freq≥2 args = nom propre chemin de d´ependances pas plus long que 4 4M de phrases de CLUEWEB contiennent ces tuples fiables et servent de supervision distante fiable `a 90% selon une ´evaluation manuelle felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
  18. 18. But Extraction Discussion Extraction de tuples Structuration Applications OLLIE ∀ tuple fiable {x, rel, y} e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th} 1 d´ependances entre les mots de tˆete des args et de la relation I learned that the 2012 Sasquash music festi- val is scheduled for May 25th until May 28th 2 patron syntaxique {x} nsubjpass −−−−−−→ {rel :postag=VBN} prep ←−−− {y} 3 sch´ema d’extraction (x ; be {rel} {prep} ; y) felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
  19. 19. But Extraction Discussion Extraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
  20. 20. But Extraction Discussion Extraction de tuples Structuration Applications PATTY [Nakashole et al., 2012] r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur les types de YAGO2 : e.g. < person > ’s [adj] voice * < song > matches : Amy Winehouse’s soft voice in ’Rehab’ les patrons sont structur´es en une taxonomie synset : < person > twice won [[det]] < event > ≡ {then won [[det]]; also won; has won with; . . .} subsumption : < person > winner of < award > ⇒ < person > nominated for < award > https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/ felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
  21. 21. But Extraction Discussion Extraction de tuples Structuration Applications WEBRE [Min et al., 2012] in : 14.7M tuples fiables identifi´es par REVERB depuis CLUEWEB 1.3M relations verbales 3.3M entit´ees (args) out : 84 000 item sets marijuana result in insomnia caffeine be risk factor of emphysema nicotine be major cause of breast cancer . . . . . . . . . Comment : par regroupement (clustering) felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
  22. 22. But Extraction Discussion Extraction de tuples Structuration Applications felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
  23. 23. But Extraction Discussion Extraction de tuples Structuration Applications Question-R´eponse ouvert [Fader et al., 2014] QR ≡ question2requˆete `a une collection de tuples 4 tuple-stores (FREEBASE et 3 extraits automatiquement) une fonction de pointage apprise sur un ens. de questions-r´eponses (structured perceptron) r´eponse ≡ recherche en faisceau (espace = s´equence d’op´erateurs) Input What are some examples of building maintenance jobs ? Parse ?x: (?x, example of, building maintenance jobs) Rewrite ?x: (?x, is-a, building maintenance job) Execute {changing light bulb, is-a, small building maintenance job} Input What animal represents California ? Paraphrase What are California’s symbols ? Parse ?x: (california,symbols, ?x) Execute {California Water Service, Trading symbol, CWT} felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
  24. 24. But Extraction Discussion Extraction de tuples Structuration Applications Exploration d’une large collections de textes [Akbik et al., 2014] http://lucene.textmining.tu-berlin.de/ felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
  25. 25. But Extraction Discussion Extraction de tuples Structuration Applications Literome project [Poon et al., 2014] extraction de connaissances g´enomiques depuis les articles de PubMed disponible en ligne felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
  26. 26. But Extraction Discussion Plan Constat Extraction d’information ouverte Extraction de tuples Structuration Applications Discussion felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
  27. 27. But Extraction Discussion Enjeux sp´ecifiques `a ´Erudit base “petite” et h´et´erog`ene (th`eses, livres, actes, pluri-domaines) peu de liens `a des bases existantes (Freebase, Wikidata, Yago) technologie embarqu´ee peu adapt´ee (reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores) felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
  28. 28. But Extraction Discussion Ce qui aiderait acc`es au corpus (merci `a ´Emilie Paquin et Joanie Lavoie) acc`es aux (logs) utilisateurs que cherchent les utilisateurs ? sont-il limit´es par les fonctionnalit´es de recherche actuelles ? ce qu’ils aimeraient ? Merci Questions, suggestions ? felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
  29. 29. But Extraction Discussion Bibliography I Akbik, A., Michael, T., and Boden, C. (2014). Exploratory relation extraction in large text corpora. In 25th International Conference on Computational Linguistics, pages 2087–2096. Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying relations for open information extraction. In Empirical Methods in Natural Language Processing, EMNLP ’11, pages 1535–1545. Fader, A., Zettlemoyer, L., and Etzioni, O. (2014). Open question answering over curated and extracted knowledge bases. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’14, pages 1156–1165.
  30. 30. But Extraction Discussion Bibliography II Mausam, Schmitz, M., Bart, R., Soderland, S., and Etzioni, O. (2012). Open language learning for information extraction. In Joint EMNLP and CoNLL, pages 523–534. Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012). Ensemble semantics for large-scale unsupervised relation extraction. In Joint EMNLP and CoNLL, pages 1027–1037. Nakashole, N., Weikum, G., and Suchanek, F. (2012). Patty : A taxonomy of relational patterns with semantic types. In Joint EMNLP and CoNLL, pages 1135–1145. Poon, H., Quirk, C., DeZiel, C., and Heckerman, D. (2014). Literome : Pubmed-scale genomic knowledge base in the cloud. Bioinformatics, 30(19) :2840–2842.
  31. 31. Cr´edits Underground, underdog, underrated, under stress, under pressure, under-appreciated, Chilly Gonzales - Never Stop

×