SlideShare une entreprise Scribd logo
1  sur  12
Télécharger pour lire hors ligne
INRIA
Acquisition de connaissances dans SCRIBO
Éric de la Clergerie (ALPAGE/INRIA)
<Eric.De_La_Clergerie@inria.fr>
Gaël de Chalendar (CEA-LIST)
<gael.de-chalendar@cea.fr>
Barcamp COLAB SCRIBO
Paris – 23 Novembre 2010
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 1 / 12
<?xml version=" 1.0 " encoding="ISO−8859−1"?>
<dependencies id="E1" mode=" f u l l ">
< c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex="
E1F2 | soyons " / >
< c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s "
lex="E1F3 | i m a g i n a t i f s " / >
< c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex=
"E1F6 | déclare " / >
<node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72
" lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / >
<node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 "
lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / >
<node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 "
lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / >
<edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l
" label =" subject ">
<deriv names="E1d104" source_op="E1o5" target_op="E1o20"
span="6 7" / >
< / edge>
<edge id="E1e011" source="E1n007" target ="E1n013" type=" subst
" label ="comp">
INRIA
Une chaîne de traitement linguistique
<?xml version=" 1.0 " encoding="ISO−8859−1"?>
<dependencies id="E1" mode=" f u l l ">
< c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex="
E1F2 | soyons " / >
< c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s "
lex="E1F3 | i m a g i n a t i f s " / >
< c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex=
"E1F6 | déclare " / >
<node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72
" lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / >
<node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 "
lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / >
<node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 "
lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / >
<edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l
" label =" subject ">
<deriv names="E1d104" source_op="E1o5" target_op="E1o20"
span="6 7" / >
< / edge>
<edge id="E1e011" source="E1n007" target ="E1n013" type=" subst
" label ="comp">
" soyons imaginatifs " , déclare -t-il .
S
incise
S
incise
S2
subject
xcomp
comp
void
void
void
void
S1
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 2 / 12
INRIA
Extraire des informations: SAPIENS
Qu’a déclaré Nicolas Sarkozy au sujet des femmes pendant la campagne
présidentielle 2007 ? Et Ségolène Royal ? Et François Bayrou ?
La réponse avec SAPIENS, une production ALPAGE et SCRIBO pour AFP
Algorithmes et outils libres pour l’annotation semi-automatique
et collaborative de documents numériques
http://www.scribo.ws/
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 3 / 12
INRIA
Le monde est complexe !
Les dépendances sont un bon de point de départ pour l’extraction d’information
elles indiquent qui fait quoi, quand, où, plus d’autres rôles
mais beaucoup de problèmes d’ambiguïtés,
beaucoup au niveau sémantique (lexicale)
Paul mange une glace au restaurant
Paul mange une glace au chocolat
Paul mange une [ pomme de terre ] cuite
=⇒ besoin de connaissance sur le monde
utilisation de resources structurées existantes (ontologies)
par apprentissage de régularité d’usage à partir de larges corpus
=⇒ hypothèse distributionnelle de Harris: des mots sémantiquement
proches apparaissent dans des contextes similaires.
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 4 / 12
INRIA
Acquisition de connaissances (CEA)
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 5 / 12
INRIA
Les corpus
Les expériences en cours dans ALPAGE utilisent les corpus suivants:
corpus occ. dépendances mots contextes
AFP (30mois) 216M 92.7M 378K 2M
all (AFP+reste) 711.8M 220M 1.3M 3.7M
AFP News (2007, 2009, 6 mois 2010)
Wikipedia français
Wikisource français
Est Republicain (journalistique)
Euro Parliament (transcription de discours)
JRC Acquis Communautaires (directives européennes)
Analyse syntaxique effectuée sur quelques centaines de coeurs sur quelques
jours (sur GRID5000).
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 6 / 12
INRIA
Expériences
Des motifs sont collectés et comptés à partir des résultats d’analyse (format
DepXML ou Passage) et utilisés dans 2 grandes directions:
Concepts
Extraction de terminologie
garde à vue
Construction de réseau de mots
Regroupement de mots en cluster
(synset), plus regroupement
hiérarchique
extraction de relations
ontologiques (par ex.
hypéronymie)
navire de guerre: destroyer, aviso
Évènements
Regroupement de verbes, dénotant un type
d’évenement
/transfer/ donner, offrir, céder
/communication act/ annoncer,
indiquer, affirmer
Identification de paires reliées verbe-nom
déclarer/déclaration ;
identifier/identification ;
commencer/commencement/début
Découverte de chemins de dépendances
caractéristiques entre des paires d’entités
d’un certain type
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 7 / 12
INRIA
Regroupement de mots
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 8 / 12
INRIA
À quoi sert une chaise ?
Les regroupements sont motivés par des contextes syntaxiques
chaise chaise banquette banquette banquette banquette
divan tabouret divan canapé chaise banc
se asseoir sur [•]
asseoir sur [•]
allonger sur [•]
dormir sur [•]
tomber sur [•]
monter sur [•]
place sur [•]
grimper sur [•]
installer sur [•]
poser sur [•]
coucher sur [•]
siéger sur [•]
côté sur [•]
se lever cpl de [•]
se affaisser sur [•]
jeter sur [•]
être sur [•]
se installer sur [•]
retomber sur [•]
endormir sur [•]
se soulever sur [•]
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 9 / 12
INRIA
Nuages de mots (CEA)
INRIA É. de la Clergerie SCRIBO SP1
2010/11/23 10 /
12
INRIA
Création de relation entre entités (CEA)
INRIA É. de la Clergerie SCRIBO SP1
2010/11/23 11 /
12
INRIA
Validation
les algorithmes d’acquisition prépare le terrain, mais ne sont pas parfaits
nécessite une validation humaine, au travers d’une interface adaptée
s’appuyant sur des tickets collectant les informations utiles
(explications, exemples, liens)
INRIA É. de la Clergerie SCRIBO SP1
2010/11/23 12 /
12

Contenu connexe

En vedette

Dead Run Force Main Rehabilitation Project
Dead Run Force Main Rehabilitation ProjectDead Run Force Main Rehabilitation Project
Dead Run Force Main Rehabilitation ProjectFairfax County
 
Beth Clark Proclamation Acceptance 2017
Beth Clark Proclamation Acceptance 2017 Beth Clark Proclamation Acceptance 2017
Beth Clark Proclamation Acceptance 2017 Fairfax County
 
Transparency Between Developers and Clients
Transparency Between Developers and ClientsTransparency Between Developers and Clients
Transparency Between Developers and ClientsDesign Theory
 
IA et Traitement Automatique des Langues (TAL) -- quel panorama ?
IA et Traitement Automatique des Langues (TAL) -- quel panorama ?IA et Traitement Automatique des Langues (TAL) -- quel panorama ?
IA et Traitement Automatique des Langues (TAL) -- quel panorama ?Eric De la Clergerie
 
LG Household & Healthcare: Business Analysis
LG Household & Healthcare: Business AnalysisLG Household & Healthcare: Business Analysis
LG Household & Healthcare: Business AnalysisAyusha Mittal
 
Murat artsin addie modeli̇
Murat artsin   addie modeli̇Murat artsin   addie modeli̇
Murat artsin addie modeli̇Murat ARTSIN
 
Федір Зубанич
Федір ЗубаничФедір Зубанич
Федір Зубаничyanaanya
 
Творча спадщина
Творча спадщинаТворча спадщина
Творча спадщинаyanaanya
 
Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...
Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...
Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...Sprawny Marketing by MaxROY.com
 
Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...
Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...
Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...Sprawny Marketing by MaxROY.com
 
фото звіт до вшанування учасників революції гідності
фото  звіт до вшанування учасників революції гідностіфото  звіт до вшанування учасників революції гідності
фото звіт до вшанування учасників революції гідностіyanaanya
 
Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...
Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...
Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...Sprawny Marketing by MaxROY.com
 
презентація досвіду роботи
презентація досвіду роботипрезентація досвіду роботи
презентація досвіду роботиyanaanya
 
Product camp sprint presentation
Product camp sprint presentationProduct camp sprint presentation
Product camp sprint presentationLois Lewis
 
презентация1
презентация1презентация1
презентация1yanaanya
 
звіт по місячнику
звіт по місячникузвіт по місячнику
звіт по місячникуyanaanya
 
костринська зош інтернат іі - ііі ст.
костринська зош   інтернат іі - ііі ст.костринська зош   інтернат іі - ііі ст.
костринська зош інтернат іі - ііі ст.yanaanya
 

En vedette (20)

Dead Run Force Main Rehabilitation Project
Dead Run Force Main Rehabilitation ProjectDead Run Force Main Rehabilitation Project
Dead Run Force Main Rehabilitation Project
 
Beth Clark Proclamation Acceptance 2017
Beth Clark Proclamation Acceptance 2017 Beth Clark Proclamation Acceptance 2017
Beth Clark Proclamation Acceptance 2017
 
Mohammed alharbi 2 e
Mohammed alharbi 2 eMohammed alharbi 2 e
Mohammed alharbi 2 e
 
Transparency Between Developers and Clients
Transparency Between Developers and ClientsTransparency Between Developers and Clients
Transparency Between Developers and Clients
 
Wawacan Bahasa Sunda
Wawacan Bahasa SundaWawacan Bahasa Sunda
Wawacan Bahasa Sunda
 
IA et Traitement Automatique des Langues (TAL) -- quel panorama ?
IA et Traitement Automatique des Langues (TAL) -- quel panorama ?IA et Traitement Automatique des Langues (TAL) -- quel panorama ?
IA et Traitement Automatique des Langues (TAL) -- quel panorama ?
 
Sistemas operativos_cárdenas torres_pdf
Sistemas operativos_cárdenas torres_pdf Sistemas operativos_cárdenas torres_pdf
Sistemas operativos_cárdenas torres_pdf
 
LG Household & Healthcare: Business Analysis
LG Household & Healthcare: Business AnalysisLG Household & Healthcare: Business Analysis
LG Household & Healthcare: Business Analysis
 
Murat artsin addie modeli̇
Murat artsin   addie modeli̇Murat artsin   addie modeli̇
Murat artsin addie modeli̇
 
Федір Зубанич
Федір ЗубаничФедір Зубанич
Федір Зубанич
 
Творча спадщина
Творча спадщинаТворча спадщина
Творча спадщина
 
Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...
Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...
Dagmara Pakulska, #ZwyrolAlert, czyli rzecz o mniej lub bardziej subtelnych p...
 
Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...
Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...
Katarzyna Granops-Szkoda, 7 tricków w Facebook Marketingu, które pomogą Ci zw...
 
фото звіт до вшанування учасників революції гідності
фото  звіт до вшанування учасників революції гідностіфото  звіт до вшанування учасників революції гідності
фото звіт до вшанування учасників революції гідності
 
Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...
Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...
Artur Jabłoński, Skuteczna kampania reklamowa na Facebooku w 5 krokach, I ♥ S...
 
презентація досвіду роботи
презентація досвіду роботипрезентація досвіду роботи
презентація досвіду роботи
 
Product camp sprint presentation
Product camp sprint presentationProduct camp sprint presentation
Product camp sprint presentation
 
презентация1
презентация1презентация1
презентация1
 
звіт по місячнику
звіт по місячникузвіт по місячнику
звіт по місячнику
 
костринська зош інтернат іі - ііі ст.
костринська зош   інтернат іі - ііі ст.костринська зош   інтернат іі - ііі ст.
костринська зош інтернат іі - ііі ст.
 

Similaire à alpage-scribo-knowledge-acquisition

Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Le_GFII
 
Solr overview presentation
Solr overview presentationSolr overview presentation
Solr overview presentationspy-seth
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...
Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...
Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...Arthur Lutz
 
Drupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptesDrupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptesJean-Baptiste Guerraz
 
Drupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptesDrupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptesSkilld
 
Les concepts de la programmation fonctionnelle illustrés avec Java 8
Les concepts de la programmation fonctionnelle illustrés avec Java 8Les concepts de la programmation fonctionnelle illustrés avec Java 8
Les concepts de la programmation fonctionnelle illustrés avec Java 8Yannick Chartois
 
Introduction à la programmation
Introduction à la programmationIntroduction à la programmation
Introduction à la programmationpierrepo
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tousDamien Seguy
 
Journées ABES 2014 - Focus sur la plateforme Istex
Journées ABES 2014 - Focus sur la plateforme IstexJournées ABES 2014 - Focus sur la plateforme Istex
Journées ABES 2014 - Focus sur la plateforme IstexABES
 

Similaire à alpage-scribo-knowledge-acquisition (11)

Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
 
Solr overview presentation
Solr overview presentationSolr overview presentation
Solr overview presentation
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...
Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...
Pyconfr2015 : Marre de faire du C++ sur une Arduino ? Faites du Python avec M...
 
Drupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptesDrupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptes
 
Drupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptesDrupal, les hackers, la sécurité & les (très) grands comptes
Drupal, les hackers, la sécurité & les (très) grands comptes
 
Les concepts de la programmation fonctionnelle illustrés avec Java 8
Les concepts de la programmation fonctionnelle illustrés avec Java 8Les concepts de la programmation fonctionnelle illustrés avec Java 8
Les concepts de la programmation fonctionnelle illustrés avec Java 8
 
Introduction à la programmation
Introduction à la programmationIntroduction à la programmation
Introduction à la programmation
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
 
Drools
DroolsDrools
Drools
 
Journées ABES 2014 - Focus sur la plateforme Istex
Journées ABES 2014 - Focus sur la plateforme IstexJournées ABES 2014 - Focus sur la plateforme Istex
Journées ABES 2014 - Focus sur la plateforme Istex
 

alpage-scribo-knowledge-acquisition

  • 1. INRIA Acquisition de connaissances dans SCRIBO Éric de la Clergerie (ALPAGE/INRIA) <Eric.De_La_Clergerie@inria.fr> Gaël de Chalendar (CEA-LIST) <gael.de-chalendar@cea.fr> Barcamp COLAB SCRIBO Paris – 23 Novembre 2010 INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 1 / 12
  • 2. <?xml version=" 1.0 " encoding="ISO−8859−1"?> <dependencies id="E1" mode=" f u l l "> < c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex=" E1F2 | soyons " / > < c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s " lex="E1F3 | i m a g i n a t i f s " / > < c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex= "E1F6 | déclare " / > <node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72 " lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / > <node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 " lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / > <node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 " lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / > <edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l " label =" subject "> <deriv names="E1d104" source_op="E1o5" target_op="E1o20" span="6 7" / > < / edge> <edge id="E1e011" source="E1n007" target ="E1n013" type=" subst " label ="comp"> INRIA Une chaîne de traitement linguistique <?xml version=" 1.0 " encoding="ISO−8859−1"?> <dependencies id="E1" mode=" f u l l "> < c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex=" E1F2 | soyons " / > < c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s " lex="E1F3 | i m a g i n a t i f s " / > < c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex= "E1F6 | déclare " / > <node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72 " lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / > <node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 " lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / > <node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 " lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / > <edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l " label =" subject "> <deriv names="E1d104" source_op="E1o5" target_op="E1o20" span="6 7" / > < / edge> <edge id="E1e011" source="E1n007" target ="E1n013" type=" subst " label ="comp"> " soyons imaginatifs " , déclare -t-il . S incise S incise S2 subject xcomp comp void void void void S1 INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 2 / 12
  • 3. INRIA Extraire des informations: SAPIENS Qu’a déclaré Nicolas Sarkozy au sujet des femmes pendant la campagne présidentielle 2007 ? Et Ségolène Royal ? Et François Bayrou ? La réponse avec SAPIENS, une production ALPAGE et SCRIBO pour AFP Algorithmes et outils libres pour l’annotation semi-automatique et collaborative de documents numériques http://www.scribo.ws/ INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 3 / 12
  • 4. INRIA Le monde est complexe ! Les dépendances sont un bon de point de départ pour l’extraction d’information elles indiquent qui fait quoi, quand, où, plus d’autres rôles mais beaucoup de problèmes d’ambiguïtés, beaucoup au niveau sémantique (lexicale) Paul mange une glace au restaurant Paul mange une glace au chocolat Paul mange une [ pomme de terre ] cuite =⇒ besoin de connaissance sur le monde utilisation de resources structurées existantes (ontologies) par apprentissage de régularité d’usage à partir de larges corpus =⇒ hypothèse distributionnelle de Harris: des mots sémantiquement proches apparaissent dans des contextes similaires. INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 4 / 12
  • 5. INRIA Acquisition de connaissances (CEA) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 5 / 12
  • 6. INRIA Les corpus Les expériences en cours dans ALPAGE utilisent les corpus suivants: corpus occ. dépendances mots contextes AFP (30mois) 216M 92.7M 378K 2M all (AFP+reste) 711.8M 220M 1.3M 3.7M AFP News (2007, 2009, 6 mois 2010) Wikipedia français Wikisource français Est Republicain (journalistique) Euro Parliament (transcription de discours) JRC Acquis Communautaires (directives européennes) Analyse syntaxique effectuée sur quelques centaines de coeurs sur quelques jours (sur GRID5000). INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 6 / 12
  • 7. INRIA Expériences Des motifs sont collectés et comptés à partir des résultats d’analyse (format DepXML ou Passage) et utilisés dans 2 grandes directions: Concepts Extraction de terminologie garde à vue Construction de réseau de mots Regroupement de mots en cluster (synset), plus regroupement hiérarchique extraction de relations ontologiques (par ex. hypéronymie) navire de guerre: destroyer, aviso Évènements Regroupement de verbes, dénotant un type d’évenement /transfer/ donner, offrir, céder /communication act/ annoncer, indiquer, affirmer Identification de paires reliées verbe-nom déclarer/déclaration ; identifier/identification ; commencer/commencement/début Découverte de chemins de dépendances caractéristiques entre des paires d’entités d’un certain type INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 7 / 12
  • 8. INRIA Regroupement de mots INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 8 / 12
  • 9. INRIA À quoi sert une chaise ? Les regroupements sont motivés par des contextes syntaxiques chaise chaise banquette banquette banquette banquette divan tabouret divan canapé chaise banc se asseoir sur [•] asseoir sur [•] allonger sur [•] dormir sur [•] tomber sur [•] monter sur [•] place sur [•] grimper sur [•] installer sur [•] poser sur [•] coucher sur [•] siéger sur [•] côté sur [•] se lever cpl de [•] se affaisser sur [•] jeter sur [•] être sur [•] se installer sur [•] retomber sur [•] endormir sur [•] se soulever sur [•] INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 9 / 12
  • 10. INRIA Nuages de mots (CEA) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 10 / 12
  • 11. INRIA Création de relation entre entités (CEA) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 11 / 12
  • 12. INRIA Validation les algorithmes d’acquisition prépare le terrain, mais ne sont pas parfaits nécessite une validation humaine, au travers d’une interface adaptée s’appuyant sur des tickets collectant les informations utiles (explications, exemples, liens) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 12 / 12