Utilisation des citations pour le résumé automatique de la contribution d'art...Érudit
Présentation de Bruno Malenfant dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.
Utilisation des citations pour le résumé automatique de la contribution d'art...Érudit
Présentation de Bruno Malenfant dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...ANEPMA
12 de noviembre de 2014
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en materia de Residuos. Situación actual de España y perspectiva para su cumplimiento”.
Ana Rodríguez Cruz, Ministerio de Agricultura, Alimentación y Medio Ambiente.
XXII Jornadas Técnicas de Medio Ambiente
promovidas por ANEPMA y organizadas por Mancomunidad de la Comarca de Pamplona
12-14 de noviembre de 2014. Baluarte, Pamplona
www.jornadasanepma.com
#anepma22
Partage de signets et de références bibliographiquesAlain Marois
support de formation : courte présentation (1h) du partage de signets web puis de références bibliographique avec pour exemples del.icio.us et CiteUlike.
Partenariat pour la diffusion en libre accèsÉrudit
Tanja Niemann, directrice générale d'Érudit, et Clare Appavoo, directrice générale du RCDR, présente le partenariat signé entre les deux organismes pour le soutien aux revues savantes et à la diffusion en libre accès.
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en...ANEPMA
12 de noviembre de 2014
Conferencia Inaugural “Nuevos objetivos propuestos por la Comisión Europea en materia de Residuos. Situación actual de España y perspectiva para su cumplimiento”.
Ana Rodríguez Cruz, Ministerio de Agricultura, Alimentación y Medio Ambiente.
XXII Jornadas Técnicas de Medio Ambiente
promovidas por ANEPMA y organizadas por Mancomunidad de la Comarca de Pamplona
12-14 de noviembre de 2014. Baluarte, Pamplona
www.jornadasanepma.com
#anepma22
Partage de signets et de références bibliographiquesAlain Marois
support de formation : courte présentation (1h) du partage de signets web puis de références bibliographique avec pour exemples del.icio.us et CiteUlike.
Partenariat pour la diffusion en libre accèsÉrudit
Tanja Niemann, directrice générale d'Érudit, et Clare Appavoo, directrice générale du RCDR, présente le partenariat signé entre les deux organismes pour le soutien aux revues savantes et à la diffusion en libre accès.
Presentation by Lisa Norberg from K|N Consultant, during the seminar New Models of Knowledge Dissemination and Open Access in Canada, organised the 17/11/2015 by Érudit and CRKN.
Les transformations de l'édition savante à l'ère numériqueÉrudit
Présentation de Vincent Larivière dans le cadre du séminaire Nouveaux modes de diffusion des connaissances et libre accès au Canada, organisé par Érudit et le RCDR le 17 novembre 2015 à Montréal.
A Library-Publisher Partnership for Open accessÉrudit
Presentation at Liber 2015 conference of Érudit and CRKN Partnership for Open Access in Canada.
Présentation à la conférence Liber 2015 du partenariat Érudit-RCDR pour le libre accès au Canada
Fouille de textes et cartographie thématique des corpus numériquesÉrudit
Présentation de Dominic Forest et Marcela Baiocchi, dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte", organisé le 25 mai 2015 au congrès de l'ACFAS.
Valorisation du fonds documentaire numérique pour la rechercheÉrudit
Présentation de Marc Bertin dans le cadre du colloque "Une plateforme de recherche et d'expérimentation pour l'édition ouverte" organisée le 25 mai 2015 au congrès 2015 de l'Acfas.
Fouille textuelle de revues intellectuelles québécoisesÉrudit
Présentation de Iana Atanassova dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.
Présentation de Julienne Pascoe et Daniel Velarde dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Enov
Depuis 1996, nous mesurons la digitalisation des entreprises françaises grâce à notre observatoire Novascope Télécoms et Réseaux informatiques en B2B. Découvrez quelques résultats exclusifs de la vague 2023.
Webinaire santé prédation programme 31 mai 2024.pdf
Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion
1. But Extraction Discussion
Extraction et structuration de connaissances pour une
plateforme interactive d´edi´ee `a ´Erudit:
´etat de l’art et points de r´eflexion
Philippe Langlais
RALI
Dept. Informatique et Recherche Op´erationnelle
Universit´e de Montr´eal
ACFAS, Mai, 2015
felipe@iro.umontreal.ca Extraction et structuration de connaissances 1 / 25
2. But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 2 / 25
3. But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 3 / 25
7. But Extraction Discussion
Vers une recherche bas´ee sur les faits
Actuellement :
requˆete : mots cl´es
d´eformation + dos
r´esultat : documents
doc1 | doc2 | doc3 . . .
But :
requˆete : question
d´eformations du dos ?
r´esultat : r´eponses
scoliose (doc)
cyphose (doc)
spondylolisth´esis (doc) . . .
Mais aussi :
Quels sont les protagonistes de la th´eorie de la viabilit´e ?
Symptˆomes de la d´epression ?
. . .
felipe@iro.umontreal.ca Extraction et structuration de connaissances 7 / 25
8. But Extraction Discussion
Comment ?
base de connaissances :
tuples extraits des textes
structur´es
Ex. de tuples :
{Gonzales, produit, une musique ´electro-pop}
{Gonzales, collabore avec, Feist}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 8 / 25
9. But Extraction Discussion Extraction de tuples Structuration Applications
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 9 / 25
10. But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 10 / 25
11. But Extraction Discussion Extraction de tuples Structuration Applications
3 familles d’extracteurs (ouverts) de tuples
Texte2Tuples
´etiquetage morphosyntaxique (POS) :
TEXTRUNNER, REVERB, SONEX
analyse syntaxique en d´ependance :
OLLIE, TREEKERNEL, PATTY, EXAMPLAR
´etiquetage s´emantique :
LUND, SWIRL, EXAMPLAR
http://openie.cs.washington.edu
REVERB [Fader et al., 2011]
OLLIE [Mausam et al., 2012]
felipe@iro.umontreal.ca Extraction et structuration de connaissances 11 / 25
12. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / relations
Relations verbales
reconnues par une ER sur les ´etiquettes POS :
V | V P | V W* P
V = verb particle? adv?
W = (noun | adj | adv | pron | det)
P = (prep | particle | inf. marker)
ex : invented (V), located in (VP), has atomic weight of (VW*P)
+ contraintes :
pour ´eviter des relations verbales trop sp´ecifiques
ex : is offering only modest greenhouse gas reduction targets at
id´ee : les relations d’int´erˆet impliquent de nombreux arguments.
felipe@iro.umontreal.ca Extraction et structuration de connaissances 12 / 25
13. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
14. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
15. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / extraction
∀ relation r :
chercher x le plus proche NP `a gauche de r
pas : un pronom relatif, un adverbe, WHO, THERE, etc.
chercher y le plus proche NP `a droite de r
TOKS Elle reprend ses ´etudes `a l’ Universit´e McGill et obtient un doctorat en
psychologie ( 1965 ) .
POS CLS V DET NC P DET NC NPP CC V DET NC P NC PONCT NC PONCT
PONCT
CHNK B-NP B-VN B-NP I-NP B-PP B-NP I-NP I-NP B-COORD B-VN B-NP I-NP
B-PP B-NP O B-NP O O
EXTR Elle == reprend == ses ´etudes
EXTR l’Universit´e McGill == obtient == un doctorat
felipe@iro.umontreal.ca Extraction et structuration de connaissances 13 / 25
16. But Extraction Discussion Extraction de tuples Structuration Applications
REVERB / filtrage
in : tuple {x, r, y}
out : p(correctness)
entrain´e sur un corpus (1000 phrases) de tuples manuellement
annot´es (correct ou pas)
19 traits encodant un tuple {x, r, y} extrait d’une phrase s
1.16 {x, r, y} couvre tous les mots de s
0.50 last PREP dans r est for
0.49 last PREP dans r est on
0.46 last PREP dans r est of
0.43 length(s) ≤ 10 words
...
-0.93 conjonction de coordination `a gauche de r dans s
felipe@iro.umontreal.ca Extraction et structuration de connaissances 14 / 25
17. But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
bootstrape d’extractions fiables de REVERB par analyse
syntaxique :
∼110k tuples extraits avec confiance par REVERB depuis
CLUEWEB, tels que :
freq≥2
args = nom propre
chemin de d´ependances pas plus long que 4
4M de phrases de CLUEWEB contiennent ces tuples fiables et
servent de supervision distante
fiable `a 90% selon une ´evaluation manuelle
felipe@iro.umontreal.ca Extraction et structuration de connaissances 15 / 25
18. But Extraction Discussion Extraction de tuples Structuration Applications
OLLIE
∀ tuple fiable {x, rel, y}
e.g. {the 2012 Sasquash music festival, be scheduled for, May 25th}
1 d´ependances entre les mots de tˆete des args et de la relation
I learned that the 2012
Sasquash music festi-
val is scheduled for May
25th until May 28th
2 patron syntaxique
{x}
nsubjpass
−−−−−−→ {rel :postag=VBN}
prep
←−−− {y}
3 sch´ema d’extraction
(x ; be {rel} {prep} ; y)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 16 / 25
19. But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 17 / 25
20. But Extraction Discussion Extraction de tuples Structuration Applications
PATTY [Nakashole et al., 2012]
r`egles apprises de mani`ere similaire `a OLLIE, mais ancr´ees sur
les types de YAGO2 :
e.g. < person > ’s [adj] voice * < song > matches :
Amy Winehouse’s soft voice in ’Rehab’
les patrons sont structur´es en une taxonomie
synset :
< person > twice won [[det]] < event > ≡
{then won [[det]]; also won; has won with; . . .}
subsumption :
< person > winner of < award > ⇒
< person > nominated for < award >
https://d5gate.ag5.mpi-sb.mpg.de/pattyweb/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 18 / 25
21. But Extraction Discussion Extraction de tuples Structuration Applications
WEBRE [Min et al., 2012]
in : 14.7M tuples fiables identifi´es par REVERB depuis
CLUEWEB
1.3M relations verbales
3.3M entit´ees (args)
out : 84 000 item sets
marijuana result in insomnia
caffeine be risk factor of emphysema
nicotine be major cause of breast cancer
. . . . . . . . .
Comment : par regroupement (clustering)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 19 / 25
22. But Extraction Discussion Extraction de tuples Structuration Applications
felipe@iro.umontreal.ca Extraction et structuration de connaissances 20 / 25
23. But Extraction Discussion Extraction de tuples Structuration Applications
Question-R´eponse ouvert [Fader et al., 2014]
QR ≡ question2requˆete `a une collection de tuples
4 tuple-stores (FREEBASE et 3 extraits automatiquement)
une fonction de pointage apprise sur un ens. de
questions-r´eponses (structured perceptron)
r´eponse ≡ recherche en faisceau (espace = s´equence
d’op´erateurs)
Input What are some examples of building maintenance jobs ?
Parse ?x: (?x, example of, building maintenance jobs)
Rewrite ?x: (?x, is-a, building maintenance job)
Execute {changing light bulb, is-a, small building maintenance job}
Input What animal represents California ?
Paraphrase What are California’s symbols ?
Parse ?x: (california,symbols, ?x)
Execute {California Water Service, Trading symbol, CWT}
felipe@iro.umontreal.ca Extraction et structuration de connaissances 21 / 25
24. But Extraction Discussion Extraction de tuples Structuration Applications
Exploration d’une large collections de textes
[Akbik et al., 2014]
http://lucene.textmining.tu-berlin.de/
felipe@iro.umontreal.ca Extraction et structuration de connaissances 22 / 25
25. But Extraction Discussion Extraction de tuples Structuration Applications
Literome project [Poon et al., 2014]
extraction de connaissances g´enomiques depuis les articles de
PubMed
disponible en ligne
felipe@iro.umontreal.ca Extraction et structuration de connaissances 23 / 25
26. But Extraction Discussion
Plan
Constat
Extraction d’information ouverte
Extraction de tuples
Structuration
Applications
Discussion
felipe@iro.umontreal.ca Extraction et structuration de connaissances 24 / 25
27. But Extraction Discussion
Enjeux sp´ecifiques `a ´Erudit
base “petite” et h´et´erog`ene
(th`eses, livres, actes, pluri-domaines)
peu de liens `a des bases existantes
(Freebase, Wikidata, Yago)
technologie embarqu´ee peu adapt´ee
(reconnaissance d’entit´es nomm´ees, r´esolution d’anaphores)
felipe@iro.umontreal.ca Extraction et structuration de connaissances 25 / 25
28. But Extraction Discussion
Ce qui aiderait
acc`es au corpus
(merci `a ´Emilie Paquin et Joanie Lavoie)
acc`es aux (logs) utilisateurs
que cherchent les utilisateurs ?
sont-il limit´es par les fonctionnalit´es de recherche actuelles ?
ce qu’ils aimeraient ?
Merci
Questions, suggestions ?
felipe@iro.umontreal.ca Extraction et structuration de connaissances 26 / 25
29. But Extraction Discussion
Bibliography I
Akbik, A., Michael, T., and Boden, C. (2014).
Exploratory relation extraction in large text corpora.
In 25th International Conference on Computational Linguistics,
pages 2087–2096.
Fader, A., Soderland, S., and Etzioni, O. (2011).
Identifying relations for open information extraction.
In Empirical Methods in Natural Language Processing, EMNLP
’11, pages 1535–1545.
Fader, A., Zettlemoyer, L., and Etzioni, O. (2014).
Open question answering over curated and extracted knowledge
bases.
In Proceedings of the 20th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, KDD ’14,
pages 1156–1165.
30. But Extraction Discussion
Bibliography II
Mausam, Schmitz, M., Bart, R., Soderland, S., and
Etzioni, O. (2012).
Open language learning for information extraction.
In Joint EMNLP and CoNLL, pages 523–534.
Min, B., Shi, S., Grishman, R., and yew Lin, C. (2012).
Ensemble semantics for large-scale unsupervised relation
extraction.
In Joint EMNLP and CoNLL, pages 1027–1037.
Nakashole, N., Weikum, G., and Suchanek, F. (2012).
Patty : A taxonomy of relational patterns with semantic types.
In Joint EMNLP and CoNLL, pages 1135–1145.
Poon, H., Quirk, C., DeZiel, C., and Heckerman, D.
(2014).
Literome : Pubmed-scale genomic knowledge base in the cloud.
Bioinformatics, 30(19) :2840–2842.