Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
LGD-PresentationCarteSemantique21032008
1. 1DTSI / Service Cognitique Robotique et Interaction
Soutien
Fondation Jean-Luc Lagardère
au projet CEA LIST de la Carte Sémantique
Web-based Acquisition
of Language Semantics
Contact : gregory.grefenstette@cea.fr
2. 2DTSI / Service Cognitique Robotique et Interaction
Rappel du Projet
But: créer une carte complète de l’utilisation de la
langue française
Projet Lauréat du Challenge Innovation DRT 2006 Financement :
CEA 1 homme-an, juin 2006 – mai 2007
Accord du soutien Fondation JL Lagardère aout 2006,
financement de trois ans postdoctorants
1ere postdoc: Guillaume Pitel, juillet 2007 à juin 2008
2ème
postdoc: Kris Jack, mai 2008 à avril 2009
Etat actuel
1,5 million de pages Web français traités
Proposition d’hébergement de la carte chez ExaLabs (Exalead)
3. 3DTSI / Service Cognitique Robotique et Interaction
analyse syntaxique
Le chat boit le lait
4. 4DTSI / Service Cognitique Robotique et Interaction
Analyse syntaxique
« Pourquoi pas des choses très simples comme
piloter de beaux avions récents et bien équipés»
ADVADJ( très , simple )
SUBADJPOST( simple , chose )
CPL_V( avion , piloter )
ADJPRENSUB( bel , avion )
SUBADJPOST( récent , avion )
SUBADJPOST( équipé , avion )
5. 5DTSI / Service Cognitique Robotique et Interaction
pour chacun des 75 000 mots fançais
comp2( pèlerinage , avion )
comp2( avion , italien )
SUJ_V( avion , redécoller )
COMPDUNOM( pression , avion )
APPOS( avion , réservoir )
CPL_V( avion , disposer )
COMPDUNOM( conseil , avion )
ATB_SG( prohibitif , avion )
SUJ_V( avion , assurer )
comp2( avion , sérieux )
COMPDUNOM( soute , avion )
ADJPRENSUB( quatre , avion )
SUBADJPOST( rendu , avion )
COMPADJ( avion , mitraillé )
COMPDUNOM( avion , bas )
SUBSUBJUX( vacance , avion )
SUBSUBJUX( lac , avion )
MOD_V( avion , provenir )
CPL_V( avion , semer )
COMPDUNOM( avion , matériau )
COMPDUNOM( avion , amoncellement )
SUJ_V( avion , sauter )
CPL_V( avion , émettre )
comp2( lecture , avion )
COMPDUNOM( avion , commun )
COMPDUNOM( norme , avion )
SUBADJPOST( appelé , avion )
comp2( peur , avion )
COMPDUNOM( propulsion , avion )
SUJ_V( avion , appeler )
MOD_N( montrer , avion )
comp2( torpille , avion )
COMPDUNOM( avion , comité )
COMPDUNOM( avion , escale )
( avion , e )
COMPDUNOM( action , avion )
COMPDUNOM( avion , forcement )
comp2( avion , redoutable )
MOD_N( briser , avion )
SUJ_V( avion , descendre )
COMPDUNOM( armada , avion )
comp2( avion , nolisé )
comp2( embarqué , avion )
COMPDUNOM( avion , réponse )
COMPDUNOM( avion , armement )
comp2( avion , demain )
comp2( avion , enregistré )
SUBADJPOST( écrabouillé , avion )
COMPDUNOM( faveur , avion )
comp2( avion , contexte )
comp2( avion , lieutenant )
comp2( course , avion )
comp2( avion , champ )
SUJ_V_REL( avion , rentrer )
comp2( liaison , avion )
MOD_N( percuter , avion )
SUBADJPOST( semblable , avion )
SUBADJPOST( incessant , avion )
COMPDUNOM( conseiller , avion )
COMPDUNOM( avion , sécurité )
SUJ_V_RELG( avion , conquérir )
SUBSUBJUX( avion , livraison )
COMPDUNOM( avion , flottille )
comp2( histoire , avion )
MOD_N( réduire , avion )
SUBADJPOST( muni , avion )
COMPDUNOM( avion , distance )
COMPDUNOM( fraîcheur , avion )
comp2( avion , annonce )
COMPDUNOM( avion , modernisation )
MOD_N( commencer , avion )
COMPDUNOM( avion , terroriste )
ATB_SG( distinct , avion )
MOD_N( tromper , avion )
SUBSUBJUX( j , avion )
COMPDUNOM( agent , avion )
COMPDUNOM( épidémiologie , avion )
comp2( avion , savoir )
ATB_S( actif , avion )
SUBADJPOST( défectueux , avion )
SUJ_V( avion , attaquer )
COMPDUNOM( descendant , avion )
APPOS( bibliothèque , avion )
COMPDUNOM( bravoure , avion )
comp2( avion , sensible )
comp2( lançage , avion )
COMPDUNOM( avion , paiement )
CPL_V( avion , menotter )
comp2( quantité , avion )
comp2( contrôle , avion )
SUBADJPOST( ultérieur , avion )
COMPDUNOM( tourbillon , avion )
WWW
SUBSUBJUX( carte , avion )
COMPDUNOM( venette , avion )
COMPDUNOM( compagnie , avion )
COMPADV( avion , longtemps )
comp2( système , avion )
comp2( succès , avion )
comp2( immobilisation , avion )
MOD_N( mériter , avion )
SUJ_V( avion , fumiger )
COMPDUNOM( tournée , avion )
comp2( fléchette , avion )
MOD_N( éviter , avion )
SUJ_V( avion , connaître )
COMPDUNOM( avion , désintégration )
APPOS( maman , avion )
SUJ_V( avion , rassembler )
SUBADJPOST( utilitaire , avion )
comp2( avion , orienteur )
COD_V( avion , rater )
comp2( avion , jeep )
SUBSUBJUX( conseil , avion )
CPL_V( avion , balader )
comp2( avion , piquant )
COMPDUNOM( nouvelle , avion )
comp2( avion , piste )
COMPDUNOM( trafic , avion )
comp2( avion , espionnage )
COMPDUNOM( avion , couple )
COMPDUNOM( avion , fonctionnement )
SUJ_V_REL( avion , dépayser )
SUBADJPOST( savoir , avion )
ATB_S( inutile , avion )
SUJ_V( avion , disparaître )
comp2( tiers , avion )
( avion , long )
COMPDUNOM( triangle , avion )
COMPDUNOM( avion , récipient )
comp2( truite , avion )
SUJ_V( avion , accéder )
SUJ_V( avion , entendre )
COD_V( avion , affecter )
COMPDUNOM( avion , décollage )
comp2( avion , nez )
COMPADJ( avion , réduit )
comp2( avion , police )
9. 9DTSI / Service Cognitique Robotique et Interaction
applications
• similarité entre les mots
• co-occurrences
fond et animaux
• terminologie d’un domaine
• modèle de langage
pour reconnaissance de la parole
détection d’intrus (Wikipédia)
13. 13DTSI / Service Cognitique Robotique et Interaction
pour chaque mot
toutes les relations
tous les concepts
pour chaque paire de mot
similarité
grouper des mots
similaires
créer un espace lexical
de concepts en concepts
pour chaque langue
conclusion
14. 14DTSI / Service Cognitique Robotique et Interaction
Postdoc futurs
Kris Jack
PhD Dundee, Ecosse
• Modèle computationnel de l’acquisition de langage par pallier
Orange Labs (ancien France Telecom), Lannion
• Depuis 12/06
• Projet sur la structuration de connaissance sur internet
Projet Carte Sémantique
• Classifier les pages en entrée par domaine (économique, médical,
sports, …)
• Bâtir une carte sémantique par domaine
15. 15DTSI / Service Cognitique Robotique et Interaction
Présentations publiques avec remerciements
à la Fondation Jean-Luc Lagardère
Grefenstette G « Mining the Web to Build a Complete, Large-Scale
Language Model » NATO Advanced Study Institute on Mining Massive Data
Sets for Security, September 2007, Gazzada ,Italy
Grefenstette G « Conquering Language: using NLP on a massive scale
to build high dimensional language models from the Web » 8th
International Conference on Intelligent Text Processing and Computational
Linguistics (CICLing - 2007), Feb 2007, Mexico City
Pitel G, Grefenstette G, Millet C « Deriving A Priori Co-occurrence
Probability Estimates for Object Recognition from Social Networks and
Text Processing » 3rd International Symposium on Visual Computing (ISVC
- 2007), Nov 2007, Lake Tahoe , USA
Grefenstette G, Pitel G, « Image Specific Language Model: Comparing
Language Models from Two Independent Distributions from FlickR and
the Web » 9th International Conference on Intelligent Text Processing and
Computational Linguistics CICLING 2008, Feb 2008, Haifa, Israel
Pitel G, Grefenstette G « Semi-automatic Building Method for a
Multidimensional Affect Dictionary for a New Language » 6th
International Conference on Language Resources and Evaluation (LREC -
2008), May 2008, Marrakech, Maroc
17. 17DTSI / Service Cognitique Robotique et Interaction
Extra slides
18. 18DTSI / Service Cognitique Robotique et Interaction
réseau de langage
avion
avion de guerre
avion de combat
avion de chasse
crash d’avion
bruit d’avion
retard d’avion
20. 20DTSI / Service Cognitique Robotique et Interaction
Cartes
Mots
Analyse syntaxique
Caractériser un mot
Réseaux
Concepts
Technique
Parallelisation
Base de données
21. 21DTSI / Service Cognitique Robotique et Interaction
Carte 15eme
22. 22DTSI / Service Cognitique Robotique et Interaction
Google Earth
23. 23DTSI / Service Cognitique Robotique et Interaction
mots
Lexique de mots simples en français
75 000
avion
formes conjuguées
400 000
avion, avions
24. 24DTSI / Service Cognitique Robotique et Interaction
On ne trouve pas tout dans un dictionnaire?
AVION, subst. masc.
A. AÉRON. Appareil plus lourd que l'air, pouvant voler grâce à différents procédés et utilisé à des fins diver
1. Joseph ne pouvait pas vivre, aller à ses affaires, prendre le train ou l'avion, avec ce cahier sur soi, avec ses
DUHAMEL, Chronique des Pasquier, La Passion de Joseph Pasquier, 1945, p. 189.
2. Henri conduirait de nouveau des autos, il piloterait des avions.
S. DE BEAUVOIR, Les Mandarins, 1954, p. 17.
SYNT. Bourdonnement d'avion; un avion décolle, descend, pique, se pose; voir d'avion.
B. Spéc. dans différents domaines techn.
1. AÉROPOST. (TECHN.). Par avion. Expression mentionnée sur les envois postaux empruntant ce moyen de t
2. ARM. et lang. milit. Combat d'avions, escadrille d'avions (Ac. 1932); avion de chasse, de combat (Ac. 1932); a
3. Il n'en viendra plus [des zeppelins], il n'en viendra plus, qu'est-ce que tu en sais? Quand tu auras comm
PROUST, Le Temps retrouvé, 1922, p. 813.
4. Parfois, des avions de reconnaissance, qui volaient assez bas pour qu'on distinguât l'étoile rouge de leur ca
AMBRIÈRE, Les Grandes vacances, 1946, p. 332.
Avion-suicide. Appareil utilisé par les Japonais à la fin de la Seconde Guerre Mondiale, destiné à s'écraser,
Défense contre avions. Ensemble de procédés destinés à la recherche et à la destruction des avions ennemis
5. Les avions ne veulent plus de moi, bon. Faites-moi entrer dans la défense contre avions.
MALRAUX, L'Espoir, 1937, p. 500.
Rem. Attesté ds ROB., Lar. encyclop.
3. INDUSTR. et lang. techn. Empennage d'avion, fuselage d'avion :
• Pas de fréquence
• Pas de syntaxe
• Pas de liste complète
de concepts
Description pour
l’homme, non pour
une machine
Explique ce qui
n’est pas évident
25. 25DTSI / Service Cognitique Robotique et Interaction
Langage
sur le Web
Estimation of the volume of
English and non English
Words available on the
WWW
Search Engines Conference 2004, The Hague
26. 26DTSI / Service Cognitique Robotique et Interaction
Que faire avec le web? (1)
…
héliastes 445
hélice 211000
hélices 121000
hélichryses 10
héliciculture 842
hélicicultures 7
hélicier 48
héliciers 14
hélico 143000
hélicoïdal 13800
hélicoïdale 13700
hélicoïdales 1150
hélicoïdaux 8680
hélicoïde 421
hélicoïdes 275
hélicon 1910
héliconienne 9
héliconiens 10
hélicons 108
hélicoptère 723000
hélicoptères 535000
hélicos 65200
héligare 73
héligares 8
hélio 17300
héliocentrique 3380
héliocentriques 482
héliocentrisme 1980
héliocentrismes 0
..
prendre 2602
billet 2580
pouvoir 2392
faire 2186
aller 1864
aéroport 1820
vol 1510
devoir 1324
voir 1118
arriver 970
pilote 950
passager 894
tout 874
ligne 870
petit 820
dire 810
premier 802
savoir 798
transport 746
très 726
train 714
air 704
décoller 676
piste 630
bien 628
aussi 624
venir 616
militaire 608
vouloir 594
partir 592
fait 586
hôtel 580
américain 578
comptes WWW des mots français Mots trouvés avec ‘avion’
27. 27DTSI / Service Cognitique Robotique et Interaction
Que faire avec le web? (1)
…
héliastes 445
hélice 211000
hélices 121000
hélichryses 10
héliciculture 842
hélicicultures 7
hélicier 48
héliciers 14
hélico 143000
hélicoïdal 13800
hélicoïdale 13700
hélicoïdales 1150
hélicoïdaux 8680
hélicoïde 421
hélicoïdes 275
hélicon 1910
héliconienne 9
héliconiens 10
hélicons 108
hélicoptère 723000
hélicoptères 535000
hélicos 65200
héligare 73
héligares 8
hélio 17300
héliocentrique 3380
héliocentriques 482
héliocentrisme 1980
héliocentrismes 0
..
prendre 2602
billet 2580
pouvoir 2392
faire 2186
aller 1864
aéroport 1820
vol 1510
devoir 1324
voir 1118
arriver 970
pilote 950
passager 894
tout 874
ligne 870
petit 820
dire 810
premier 802
savoir 798
transport 746
très 726
train 714
air 704
décoller 676
piste 630
bien 628
aussi 624
venir 616
militaire 608
vouloir 594
partir 592
fait 586
hôtel 580
américain 578
comptes WWW des mots français Mots trouvés avec ‘avion’
29. 29DTSI / Service Cognitique Robotique et Interaction
Caractériser un mot
avion
COD_V( avion , prendre ) (737)
SUJ_V( avion , pouvoir ) (115)
SUJ_V( avion , décoller ) (115)
SUJ_V( avion , atterrir ) (82)
COD_V( avion , fabriquer ) (80)
SUJ_V( avion , devoir ) (79)
COD_V( avion , voir ) (75)
SUJ_V( avion , survoler ) (74)
SUJ_V( avion , faire ) (73)
SUJ_V( avion , aller ) (73)
SUJ_V( avion , arriver ) (68)
SUJ_V( avion , voler ) (61)
COD_V( avion , reprendre ) (59)
COD_V( avion , détourner ) (59)
COD_V( avion , piloter ) (56)
SUJ_V( avion , venir ) (54)
COD_V( avion , utiliser ) (54)
COD_V( avion , abattre ) (54)
concepts
structures
syntactiques
abattre accident acheter aile aimer air aller altitude amener américain
annoncer apparaître appareil appeler aérien arme armée aéroport arrivé
arrivée arriver arrêter attendre atterrir atterrissage avancer aviation
bagage bateau billet bombe bord bruit bus cabine cargo chambrer char
chasse ciel civil combat commencer commercial compagnie complet constru
continuer contrôleur crash croire décider déclarer décollage
décoller demander descendre descente destination devoir diriger distance
dormir départ déplacement détourné détournement détourner détruire
effectuer embarquement embarquer emmener empêcher ennemi entendre en
escale essayer exister expliquer exploser explosion fabriquer faillir
faire finir flotte frapper gêner heure hélice hélicoptère horaire hôtel
indestructible indiquer israélien j laisser lâcher léger maintenance
manquer marcher matin matériau militaire missile monder monter moteur
navire noir nuit observer occuper parler passager passeport passer payer
billet_avion (671)
avion_ligne (178)
accident_avion (95)
avion_combat (92)
avion_militaire (83)
avion_petit (81)
avion_chasse (80)
pilote_avion (76)
avion_premier (75)
détournement_avion (67)
descente_avion (66)
voyage_avion (58)
vol_avion (57)
type_avion (51)
avion_transport (51)
place_avion (47)
passager_avion (46)
bruit_avion (45)
avion_réaction (43)
avion_civil (43)
avion_américain (43)
crash_avion (40)
retard_avion (39)
avion_privé (38)
porte_avion (37)
avion_hôtel (34)
avion_hélice (34)
maintenance_avion (33)
avion_présidentiel (33)
avion_ennemi (33)
Mots fortement associés
30. 30DTSI / Service Cognitique Robotique et Interaction
mise en oeuvre d’une carte
31. 31DTSI / Service Cognitique Robotique et Interaction
WWW
Very Large Lexical Network
terms (dependency relations)
+ frequency, variants, context
Crawl
Entity
Recognition
Concept
Extractor
Language Identifier
Domain Classifier
Context
Extractor
technologie linguistique
CEA LIST
Storage and Computing power
CEA LIST
33. 33DTSI / Service Cognitique Robotique et Interaction
applications
34. 34DTSI / Service Cognitique Robotique et Interaction
similarité d’usage
Si on connaît les relations syntaxiques d’un mot
et de tous les mots
et l’on les compare
quels mots sont semblables?
39. 39DTSI / Service Cognitique Robotique et Interaction
Utilisation of the Model
Language Processing, choice between alternatives
Machine Translation
• tighten the nut: serrer le boulon (1130), serrer la noix (259)
Speech-to-Text
• Text spoken:
– le pape est apparu très fatigué il a célébré l' eucharistie le
dernier repas du christ mais il a renoncé au lavement des
pieds
• Output of Speech-to-Text:
– rome le pape est apparu très fatigué il a célébré le
péristyle le dernier repas du christ et mais il a renoncé au
lavement didier
• If we had stored the following relations, better choice
– SUBJ (célébrer, eucharistie)
– NNPREP (lavement, pieds)
40. 40DTSI / Service Cognitique Robotique et Interaction
Utilisation of the Model
Generation of World Knowledge
association of concepts
• Colors associated with things
– skies: blue 439000, grey 28400, gray 23400
– rice : brown 384000, white 261000, golden 27800
– teeth : white 135000, gold 42900, yellow 25700
– apples : golden 126000, green 45600, red 30900
• Co-location
• Emotional content of words
Semantic Google
what concepts are associate with other concepts
Analyse, classification of language
41. 41DTSI / Service Cognitique Robotique et Interaction
Competition
Google a créé une liste de toutes les séquences de 5
mots qui apparaissent au moins 40 fois dans 1 011
582 453 213 de mots de textes qu’ils ont indexés.
Ça fait 1 146 580 664 séquences avec leurs
fréquences.
http://googleresearch.blogspot.com/2006/08/all-our-n-
gram-are-belong-to-you.html
Ils comptent distribuer ces séquences sur 6 DVDs via
le LDC (Linguistic Data Consortium)
http://www.ldc.upenn.edu/
Ils utilisent déjà ce modèle pour, entre autres, leur
système de traduction automatique, que l’on peut
essayer ici : http://translate.google.com/translate_t
42. 42DTSI / Service Cognitique Robotique et Interaction
Google trillion word language model
43. 43DTSI / Service Cognitique Robotique et Interaction
Brique Manquante de la Connaissance Humaine
Comment tous les mots sont-ils vraiment utilisés?
• dictionnaires ne contiennent que les « cas difficiles »,
ordinateur doit connaître « cas ordinaires »
Combien de concepts existent?
• 200 000 mots, mais combien de millions, de milliards de
concepts sont utilisés ?
• 13 milliards de mots français sur le Web en 2004
(Grefenstette, Search Engines’2004)
Quels concepts sont rattachés à quels domaines?
• politique, médecine, finance, prolifération nucléaire,
développement durable, sports, …
44. 44DTSI / Service Cognitique Robotique et Interaction
Applications
Veille, Filtrage, « Google sémantique »
quelles sont les personnes, les institutions les plus souvent
associées à un concept ? Les autres concepts ?
Quels concepts sont associés a un domaine?
Traduction
• modèles lisses de langage
• quelle est la façon la plus probable de traduire une expression dans un
domaine?
Modélisation du monde
Analyse d’image
– quels sont les objets que l’on pourrait distinguer dans une
cuisine, sur la plage, à la montage?
Robotique
– quels sont les objets que l’on peut « saisir, manipuler,
prendre, poser,… »?
45. 45DTSI / Service Cognitique Robotique et Interaction
Google: billion mots
Google a créé une liste de toutes les séquences de 5
mots qui apparaissent au moins 40 fois dans 1 011
582 453 213 de mots de textes qu’ils ont indexés.
Ça fait 1 146 580 664 séquences avec leurs
fréquences.
http://googleresearch.blogspot.com/2006/08/all-our-n-
gram-are-belong-to-you.html
Ils comptent distribuer ces séquences sur 6 DVDs via
le LDC (Linguistic Data Consortium)
http://www.ldc.upenn.edu/
Ils utilisent déjà ce modèle pour, entre autres, leur
système de traduction automatique, que l’on peut
essayer ici : http://translate.google.com/translate_t
46. 46DTSI / Service Cognitique Robotique et Interaction
Google’s 5-gram model
47. 47DTSI / Service Cognitique Robotique et Interaction
Timing
Having collected 46 310 URLS containing
voiture +le +que +la +pour +et
The string « +le +que +la +pour +et » is the language anchor
On each URL:
Fetch page (using wget, one try, timeout==3)
Recode page into UTF8 (using recode)
Transform HTML to text (using lynx)
Test language (using detectLanguage)
Analyze text (using analyzeText, allowing 3 sec+1 sec per 4 Kb)
Sizes
33 125 French content treated (290 Mb text extracted by lynx)
13 185 URLs: timeout wget, empty, non French
Analyzed text 1.3GB
• Grammatical relations: 363 MB
• Named entities: 16 Mb
• Compounds: 99 Mb
• Five Grams: 789 MB
Times including fetching and analysis
Start: sept 6 @ 14:58 Finish: sept 8 @ 8:13
2 475 minutes 13 URL/min
48. 48DTSI / Service Cognitique Robotique et Interaction
Estimates from ‘voiture’ test
Percentage of ‘good’ URLS: 72% - 75 %
Non null French content
Query: voiture +le +que +la +pour +et
Space:
input: 8KB (raw page size) per good URL
• Standard deviation: 50,000 (8 files over 1 MB)
Output: 14.5 KB per good URL
Output analyzed by NLP 2.3 MB per URL
Time, Fetching and analyzing
3-19 URL/minutes (13 good)
36-200 days per million URL (750K good)
We have over 5 million URL to treat for French words
This should take less than 10 Terabyes
50. 50DTSI / Service Cognitique Robotique et Interaction
Grammatical relations -- bois
764 SUBADJPOST( Dormant , Bois )
288 SUBADJPOST( massif , bois )
211 SUBADJPOST( Francs , Bois )
198 SUBADJPOST( mort , bois )
163 SUBADJPOST( tropicaux , bois )
153 SUBADJPOST( dur , bois )
141 SUBADJPOST( précieux , bois )
134 SUBADJPOST( rond , bois )
116 ADJPRENSUB( petit , bois )
102 SUBADJPOST( sec , bois )
101 SUBADJPOST( peint , bois )
101 SUBADJPOST( franc , bois )
97 SUBADJPOST( vert , bois )
48 COD_V( bois , couper )
35 COD_V( bois , chercher )
31 COD_V( bois , sortir )
24 COD_V( bois , utiliser )
21 COD_V( bois , travailler )
20 COD_V( bois , touche )
20 COD_V( bois , coupe )
18 COD_V( bois , utilisent )
18 COD_V( bois , sont )
18 COD_V( bois , ramasser )
16 COD_V( bois , produire )
16 COD_V( bois , acheter )
15 COD_V( bois , sort )
10 COMPADJ( bois , Déco )
8 COMPADJ( bois , meubles )
8 COMPADJ( bois , maisons )
8 COMPADJ( bois , fraises )
6 COMPADJ( bois , taillé )
6 COMPADJ( bois , maison )
6 COMPADJ( bois , feu )
6 COMPADJ( bois , fabriqués )
534 COMPDUNOM( chauffage , bois )
499 COMPDUNOM( bois , langue )
421 COMPDUNOM( oeuvre , bois )
419 COMPDUNOM( bois , feu )
329 COMPDUNOM( Bois , Belle )
271 COMPDUNOM( bois , chauffage )
247 COMPDUNOM( bois , industrie )
238 COMPDUNOM( bois , travail )
219 COMPDUNOM( bois , cuillère )
210 COMPDUNOM( bois , morceau )
764 SUBADJPOST( Dormant , Bois )
288 SUBADJPOST( massif , bois )
211 SUBADJPOST( Francs , Bois )
198 SUBADJPOST( mort , bois )
163 SUBADJPOST( tropicaux , bois )
153 SUBADJPOST( dur , bois )
141 SUBADJPOST( précieux , bois )
134 SUBADJPOST( rond , bois )
102 SUBADJPOST( sec , bois )
101 SUBADJPOST( peint , bois )
53. 53DTSI / Service Cognitique Robotique et Interaction
5-grams ‘voiture’ sur 30 million de mots
164 dans un accident de voiture
116 hôtel Vols Location voitures Séjours
116 d hôtel Vols Location voitures
106 dans un accident de voiture.
78 d un accident de voiture
64 attentat à la voiture piégée
59 de sortir de la voiture
58 vous soyez : voiture trains
58 voiture trains bateaux tunnels ascenseurs
58 : voiture trains bateaux tunnels
58 soyez : voiture trains bateaux
58 que vous soyez : voiture
58 au volant de sa voiture
54 voiture me fait allonger sur
54 sortir de la voiture me
54 la voiture me fait allonger
54 de la voiture me fait
51 En ville sans ma voiture
46 L impossible « voiture propre
44 jeu de course de voiture
42 un attentat à la voiture
41 video portables pc voiture informatique
41 portables pc voiture informatique
40 au volant d une voiture
55. 55DTSI / Service Cognitique Robotique et Interaction
Mutual Information
Prob (word1) X Prob (word2)
Prob (word1,word2)
Probability of finding each word separately, divided by
the probability of finding the two words together.
Probability estimated by inverse frequency.
67. 67DTSI / Service Cognitique Robotique et Interaction
Aide Externe
Fondation Jean-Luc Lagardère finance 3 post-docs
DTSI/DIR/06-757 FPA 3 août 2006
50 k€ par an pour trois ans à partir de novembre 2006
Trois sujets post-doc
• Utilisation de la carte sémantique pour la description automatique
d’une image
• Affiner la carte sémantique dans le domaine du sport
• Ajout d’une source radio pour enrichir la carte sémantique
Inclusion dans communication et présentation du gala Petit Palais
27/11/06
FAME2 budget
Utilisation de machine Bull Tera-10
Achat d’un cluster DTSI/SRCI/LIC2M propre (fin Oct 2006)
68. 68DTSI / Service Cognitique Robotique et Interaction
‘avion d’industrie’ 1 fois sur WWW
Texte d’origine
Supplies, industry leading
Aircraft Supplies solutions,
Airplane Supplies information,
and Aircraft Supplies tips. See
Discount Pilot Supplies.
Site d’origine
http://www.aviate.biz/Aircraft-Suppliesli.html
Traduction Babelfish
• http://babelfish.altavista.com/tr
Texte traducteur automatique
« Les approvisionnements,
principal avion d'industrie
fournit des solutions, l'avion
fournit l'information, et les
approvisionnements d'avion
incline. Voir les
approvisionnements de pilote
d'escompte. »
Site fédérateur (spam)
http://supplies.garden-.aboutpestcont