INRIA
Acquisition de connaissances dans SCRIBO
Éric de la Clergerie (ALPAGE/INRIA)
<Eric.De_La_Clergerie@inria.fr>
Gaël de...
<?xml version=" 1.0 " encoding="ISO−8859−1"?>
<dependencies id="E1" mode=" f u l l ">
< c l u s t e r id=" E1c_1_2 " l e f...
INRIA
Extraire des informations: SAPIENS
Qu’a déclaré Nicolas Sarkozy au sujet des femmes pendant la campagne
présidentiel...
INRIA
Le monde est complexe !
Les dépendances sont un bon de point de départ pour l’extraction d’information
elles indique...
INRIA
Acquisition de connaissances (CEA)
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 5 / 12
INRIA
Les corpus
Les expériences en cours dans ALPAGE utilisent les corpus suivants:
corpus occ. dépendances mots contexte...
INRIA
Expériences
Des motifs sont collectés et comptés à partir des résultats d’analyse (format
DepXML ou Passage) et util...
INRIA
Regroupement de mots
INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 8 / 12
INRIA
À quoi sert une chaise ?
Les regroupements sont motivés par des contextes syntaxiques
chaise chaise banquette banque...
INRIA
Nuages de mots (CEA)
INRIA É. de la Clergerie SCRIBO SP1
2010/11/23 10 /
12
INRIA
Création de relation entre entités (CEA)
INRIA É. de la Clergerie SCRIBO SP1
2010/11/23 11 /
12
INRIA
Validation
les algorithmes d’acquisition prépare le terrain, mais ne sont pas parfaits
nécessite une validation huma...
Prochain SlideShare
Chargement dans…5
×

alpage-scribo-knowledge-acquisition

560 vues

Publié le

Presentation at COLAB-SCRIBO Barcamp in Paris on November 23rd 2010

Publié dans : Technologie, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
560
Sur SlideShare
0
Issues des intégrations
0
Intégrations
9
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

alpage-scribo-knowledge-acquisition

  1. 1. INRIA Acquisition de connaissances dans SCRIBO Éric de la Clergerie (ALPAGE/INRIA) <Eric.De_La_Clergerie@inria.fr> Gaël de Chalendar (CEA-LIST) <gael.de-chalendar@cea.fr> Barcamp COLAB SCRIBO Paris – 23 Novembre 2010 INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 1 / 12
  2. 2. <?xml version=" 1.0 " encoding="ISO−8859−1"?> <dependencies id="E1" mode=" f u l l "> < c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex=" E1F2 | soyons " / > < c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s " lex="E1F3 | i m a g i n a t i f s " / > < c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex= "E1F6 | déclare " / > <node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72 " lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / > <node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 " lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / > <node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 " lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / > <edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l " label =" subject "> <deriv names="E1d104" source_op="E1o5" target_op="E1o20" span="6 7" / > < / edge> <edge id="E1e011" source="E1n007" target ="E1n013" type=" subst " label ="comp"> INRIA Une chaîne de traitement linguistique <?xml version=" 1.0 " encoding="ISO−8859−1"?> <dependencies id="E1" mode=" f u l l "> < c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex=" E1F2 | soyons " / > < c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s " lex="E1F3 | i m a g i n a t i f s " / > < c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex= "E1F6 | déclare " / > <node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72 " lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / > <node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 " lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / > <node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 " lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / > <edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l " label =" subject "> <deriv names="E1d104" source_op="E1o5" target_op="E1o20" span="6 7" / > < / edge> <edge id="E1e011" source="E1n007" target ="E1n013" type=" subst " label ="comp"> " soyons imaginatifs " , déclare -t-il . S incise S incise S2 subject xcomp comp void void void void S1 INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 2 / 12
  3. 3. INRIA Extraire des informations: SAPIENS Qu’a déclaré Nicolas Sarkozy au sujet des femmes pendant la campagne présidentielle 2007 ? Et Ségolène Royal ? Et François Bayrou ? La réponse avec SAPIENS, une production ALPAGE et SCRIBO pour AFP Algorithmes et outils libres pour l’annotation semi-automatique et collaborative de documents numériques http://www.scribo.ws/ INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 3 / 12
  4. 4. INRIA Le monde est complexe ! Les dépendances sont un bon de point de départ pour l’extraction d’information elles indiquent qui fait quoi, quand, où, plus d’autres rôles mais beaucoup de problèmes d’ambiguïtés, beaucoup au niveau sémantique (lexicale) Paul mange une glace au restaurant Paul mange une glace au chocolat Paul mange une [ pomme de terre ] cuite =⇒ besoin de connaissance sur le monde utilisation de resources structurées existantes (ontologies) par apprentissage de régularité d’usage à partir de larges corpus =⇒ hypothèse distributionnelle de Harris: des mots sémantiquement proches apparaissent dans des contextes similaires. INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 4 / 12
  5. 5. INRIA Acquisition de connaissances (CEA) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 5 / 12
  6. 6. INRIA Les corpus Les expériences en cours dans ALPAGE utilisent les corpus suivants: corpus occ. dépendances mots contextes AFP (30mois) 216M 92.7M 378K 2M all (AFP+reste) 711.8M 220M 1.3M 3.7M AFP News (2007, 2009, 6 mois 2010) Wikipedia français Wikisource français Est Republicain (journalistique) Euro Parliament (transcription de discours) JRC Acquis Communautaires (directives européennes) Analyse syntaxique effectuée sur quelques centaines de coeurs sur quelques jours (sur GRID5000). INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 6 / 12
  7. 7. INRIA Expériences Des motifs sont collectés et comptés à partir des résultats d’analyse (format DepXML ou Passage) et utilisés dans 2 grandes directions: Concepts Extraction de terminologie garde à vue Construction de réseau de mots Regroupement de mots en cluster (synset), plus regroupement hiérarchique extraction de relations ontologiques (par ex. hypéronymie) navire de guerre: destroyer, aviso Évènements Regroupement de verbes, dénotant un type d’évenement /transfer/ donner, offrir, céder /communication act/ annoncer, indiquer, affirmer Identification de paires reliées verbe-nom déclarer/déclaration ; identifier/identification ; commencer/commencement/début Découverte de chemins de dépendances caractéristiques entre des paires d’entités d’un certain type INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 7 / 12
  8. 8. INRIA Regroupement de mots INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 8 / 12
  9. 9. INRIA À quoi sert une chaise ? Les regroupements sont motivés par des contextes syntaxiques chaise chaise banquette banquette banquette banquette divan tabouret divan canapé chaise banc se asseoir sur [•] asseoir sur [•] allonger sur [•] dormir sur [•] tomber sur [•] monter sur [•] place sur [•] grimper sur [•] installer sur [•] poser sur [•] coucher sur [•] siéger sur [•] côté sur [•] se lever cpl de [•] se affaisser sur [•] jeter sur [•] être sur [•] se installer sur [•] retomber sur [•] endormir sur [•] se soulever sur [•] INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 9 / 12
  10. 10. INRIA Nuages de mots (CEA) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 10 / 12
  11. 11. INRIA Création de relation entre entités (CEA) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 11 / 12
  12. 12. INRIA Validation les algorithmes d’acquisition prépare le terrain, mais ne sont pas parfaits nécessite une validation humaine, au travers d’une interface adaptée s’appuyant sur des tickets collectant les informations utiles (explications, exemples, liens) INRIA É. de la Clergerie SCRIBO SP1 2010/11/23 12 / 12

×