IA et Traitement Automatique des Langues (TAL) -- quel panorama ?
1. INRIA
IA et Traitement Automatique des Langues (TAL)
Quel panorama ?
Éric de la Clergerie
<Eric.De_La_Clergerie@inria.fr>
Almanach
http://alpage.inria.fr
Séminaire DIXIT
Paris, 24 Février 2017
INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34
2. INRIA
Analyse Linguistique Profonde À Grande Échelle
Outils + Ressources linguistiques vers Données + Apprentissage
<?xml version=" 1.0 " encoding="ISO−8859−1"?>
<dependencies id="E1" mode=" f u l l ">
< c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex="
E1F2 | soyons " / >
< c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s "
lex="E1F3 | i m a g i n a t i f s " / >
< c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex=
"E1F6 | déclare " / >
<node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72
" lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / >
<node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 "
lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / >
<node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 "
lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / >
<edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l
" label =" subject ">
<deriv names="E1d104" source_op="E1o5" target_op="E1o20"
span="6 7" / >
< / edge>
<edge id="E1e011" source="E1n007" target ="E1n013" type=" subst
à tester sur http://alpage.inria.fr/frmgwiki
Grammaire
FRMG
Lexique LEFFF
Entités Nommées
ALEDA
WordNet
WOLF FrameNet
ASFALDA
treebanks
INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34
3. INRIA
Quelles applications ?
Extraction d’information & Annotations
http://alpage.inria.fr/sapiens
Acquisition de connaissances (à partir de grands corpus)
http://alpage.inria.fr/Lbx
INRIA Éric de la Clergerie IA & NLP 07/12/15 3 / 34
4. INRIA
Beaucoup d’applications potentielles . . .
recherche d’information, veille, extraction, questions-réponses
accès à l’information : traduction, résumés, annotations/liens
sémantiques
analyse d’opinion, e-réputation
analyse de communautés (tweets, blogs, . . . )
génération (articles journaux, rapports, ...)
plagiat, authoring, détection spams & faux commentaires, fact checking
aide à la rédaction : correction grammaticale, stylistique ; saisie prédictive
aide pédagogique : apprentissage des langues, tutorat, évaluation
interaction : agents conversationnels, chatbots, assistants numériques,
reconnaissance vocale, synthèse, dictée vocale
INRIA Éric de la Clergerie IA & NLP 07/12/15 4 / 34
5. INRIA
Et déjà de bons résultats en bricolant . . .
Robot journaliste (inquiétudes !)
http://goo.gl/0cpFvC
Générer du non-sens new-age !
http://sebpearce.com/bullshit/
Eliza la thérapiste !
http://www.eliza.levillage.org/
INRIA Éric de la Clergerie IA & NLP 07/12/15 5 / 34
6. INRIA
Mais de réelles difficultés !
Forte ambiguïté du langage (tous niveaux)
⇒ besoin connaissances sur le monde, le contexte, . . . ,
via ressources et statistiques
Diversité (langues, domaines, phénomènes),
créativité (néologismes, expressions) et évolutivité
⇒ besoin de robustesse
Ellipses (ce qui n’est pas dit/écrit)
⇒ besoin connaissances partagées, aspects culturels
Jeux avec le language (métaphores, euphémismes, ironie, . . . )
Omar m’a tuer
Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais que
c’est pas parce que vous voulez renverser la table que vous
descendez de la voiture dont vous vous abstenez de choisir le
chauffeur.
INRIA Éric de la Clergerie IA & NLP 07/12/15 6 / 34
7. INRIA
Néanmoins des succès récents et des annonces
2010: Google translate
2011: IBM Watson
gagne à Jeopardy 2011: Assistants vocaux
Siri, Google Now, Cortana
2014: Le chatbot Eugene Goostman
réussit le test de Turing ?
http://goo.gl/hQSmmf
2015: une IA surveille
wikipedia
http://goo.gl/zAvbSt
INRIA Éric de la Clergerie IA & NLP 07/12/15 7 / 34
8. INRIA
IA ? On y est presque :-)
Réseaux de Neurones: le
retour !
Buzz sur Deep Learning
et word embeddings
2013: Word embeddings
analogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReply
suggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing Machine
Labo Facebook Paris
Toolkit Google TensorFlow libéré
nombreux autres toolkits
INRIA Éric de la Clergerie IA & NLP 07/12/15 8 / 34
9. INRIA
Une conjonction de bons facteurs
Masses de données
textuelles (et autres)
Des algo d’apprentissage
de + en + sophistiqués
De la puissance de calcul
Linked Open Data
Des ressources structu-
rées (RDF) et en réseau
INRIA Éric de la Clergerie IA & NLP 07/12/15 9 / 34
11. INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 11 / 34
12. INRIA
Aproches symboliques
S’appuyant sur des ressources linguistiques,
(semi-) manuellement construites
grammaire
FRMG
lexique
LEFFF
EN
ALEDA
WordNet
WOLF
FrameNet
ASFALDA
VerbNet
VERBENET
INRIA Éric de la Clergerie IA & NLP 07/12/15 12 / 34
13. INRIA
Vers des ressources sémantiques : ontologies
Rapprochement TAL et Web Sémantique
INRIA Éric de la Clergerie IA & NLP 07/12/15 13 / 34
14. INRIA
Évènements et rôles : FrameNet Baker & Fillmore
Pour l’extraction d’information : qui fait QUOI, quand, comment, . . .
Importance de connaissances sur des scénari d’évenements,
avec indications sur les acteurs, leurs rôles, et constructions syntaxiques
FRAMENET (http://framenet.icsi.berkeley.edu/)
COMMERCE_PAY This frame involves Buyers paying Money for Goods. In
this frame the Money is the direct object, and is mapped to the theme of
the transfer.
COMMUNICATION A Communicator conveys a Message to an Addressee ;
the Topic and Medium of the communication also may be expressed.
Relié aux rôles thématiques : agent, patient, theme, . . .
Ressources similaires : VERBNET, PROPBANK, . . .
ALPAGE : ASFALDA
INRIA Éric de la Clergerie IA & NLP 07/12/15 14 / 34
15. INRIA
Aproches symboliques (pro & cons)
Ecosystèmes (complexes) de ressources linguistiques
grammaire
FRMG
lexique
LEFFF
EN
ALEDA
WordNet
WOLF
FrameNet
ASFALDA
VerbNet
VERBENET
expertise linguistique
taille & complexité
faible couverture
trop fines
non probabilisées
compréhensibles
évolutives
∼ dev. logiciel
INRIA Éric de la Clergerie IA & NLP 07/12/15 15 / 34
16. INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 16 / 34
17. INRIA
Succès et limites des approches supervisées
Courant majoritaire : données annotées et apprentissage supervisé
FTB
12Ks
Sequoia
Bank
3Ks
Question
Bank
2Ks
SocialMedia
Bank
Time
Bank
Discourse
TreeBank
Rhapsodie
TreeBank
efficace
découplage
robustesse
évaluation
autonome
coût humain
fastidieux
peu évolutif
sensibilité domaine
expertise traits
boite noire
INRIA Éric de la Clergerie IA & NLP 07/12/15 17 / 34
18. INRIA
Importance des jeux de traits
Méthodes (discriminantes) : apprentissage configuration vers décision
Les configurations abstraites par des propriétés (trait – features)
Tâche d’étiquetage syntaxique : la configuration c
Paul/PN pense/V que le chat dort
abstraite par
f1 le mot courant est que
f2 le mot précedent est pense
f3 le mot à -2 est Paul
f4 l’étiquette du mot à -1 est v
f5 le mot à -2 commence par une majuscule
...
...
f93 les 2 étiquettes précédentes sont pn v
f100 les 2 mots précédents sont Paul pense
...
...
très gros jeux de traits très gros modèles et sur-entraînement
INRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34
19. INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 19 / 34
20. INRIA
IA ? On y est presque :-)
Réseaux de Neurones: le
retour !
Buzz sur Deep Learning
et word embeddings
2013: Word embeddings
analogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReply
suggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing Machine
Labo Facebook Paris
Toolkit Google TensorFlow libéré
nombreux autres toolkits: Theano, Keras, Torch, . . .
https://en.wikipedia.org/wiki/Comparison_of_deep_learning_
software
INRIA Éric de la Clergerie IA & NLP 07/12/15 20 / 34
21. INRIA
Base
Modélisation des neurones biologiques :
les neurones portent des vecteurs (de réels) x = [−, · · · , −]
de dimension moyenne (d=100 à 500)
les vecteurs xi associés à des neurones d’entrées sont combinés pour
fournir un vecteur y à un neurone de sortie
y
x1 x2 x3 x4
Foward
y = σ(Σi Ai xi ) avec Ai matrice
Fonction d’activation σ : en générale non linéaire
σ doit faire basculer l’état du neurone de sortie vers oui ou non
INRIA Éric de la Clergerie IA & NLP 07/12/15 21 / 34
22. INRIA
Fonctions d’activation
Utilisation de fonctions proches d’une bascule oui/non mais dérivables
tanh(x) =
ex
− e−x
ex + e−x
tanh (x) = 1 − tanh2
(x)
tangente hyperbolique tanh
D’autres fonctions sont aussi utilisées (softmax, sigmoïde)
INRIA Éric de la Clergerie IA & NLP 07/12/15 22 / 34
23. INRIA
Sorties multiples
On peut avoir plusieurs neurones de sortie
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 07/12/15 23 / 34
24. INRIA
Couches cachées
On peut intercaler des couches cachées intermédiaires
⇒ abstraction progressive des informations des neurones d’entrée traits
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 07/12/15 24 / 34
25. INRIA
Apprentissage : backpropagation
y1 y2
x1 x2 x3 x4
Backward
Similaire au perceptron
redescente des erreurs des neurones de sortie vers les neurones d’entrée
(backpropagation)
mise à jour des paramètres Wi par descente de gradient
W
(t+1)
i = W
(t)
i − µ ∗
∂y
∂Wi
INRIA Éric de la Clergerie IA & NLP 07/12/15 25 / 34
26. INRIA
Réseaux récurrents
Pour le TAL, on veut des réseaux adaptés au traitement de séquences
(charactères, mots, phrases, . . . )
⇒ Réseaux récurrents
la sortie de la config à i est utilisée comme entrée pour calculer i + 1
INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34
27. INRIA
LSTM
Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli)
Long-Short Term Memory – LSTM
INRIA Éric de la Clergerie IA & NLP 07/12/15 27 / 34
28. INRIA
Agencer des briques
État de l’art actuellement en TAL :
bi-LSTM (lecture gauche-droite + lecture droite-gauche)
sur mots et si-besoin caractères
+ convolution 1D (combine info autour du mot courant)
Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig
INRIA Éric de la Clergerie IA & NLP 07/12/15 28 / 34
29. INRIA
Pro & Cons
État de l’art en TAL sur de nombreuse tâches,
mais proche d’autres méthodes d’apprentissage
ouverture vers d’autres tâches (approches moins supervisées)
agencement (+ en + complexe) de réseaux de base
mais les premières couches utilisables pour plusieurs tâches
besoin de gros volumes de données
sensibles aux initialisations
entraînements longs
interprétation des modèles
INRIA Éric de la Clergerie IA & NLP 07/12/15 29 / 34
30. INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 30 / 34
31. INRIA
Hybridation
Mariage symbolique et apprentissage (tenté avec FRMG)
expertise forte requise
formel x linguistique
problème couverture
(mais FRMG ∼ 90%, et
intérêt des erreurs)
ressources linguistiques
requises/exploitables
gestion des ambiguïtés
compréhensibilité et
adaptabilité
développement initial rapide
moins sensible au domaine
possibilité de régler des
paramètres par apprentissage
(hybridation) et couplage avec
outils statistiques
FTB test
Europar
annodis
emea-fr-dev
emea-fr-test
frwiki
82
84
86
88
90
LAS
FRMG stat. FRMG+stat.
Divers analyseurs sur corpus SEQUOIA
INRIA Éric de la Clergerie IA & NLP 07/12/15 31 / 34
32. INRIA
Approches non supervisées
Courant futuriste : emploi encore limité !
Partir de données brutes :
ok pour modèles de langue (saisie prédictive)
⇒ Word Embeddings (word2vec)
ok pour regroupements (clustering)
ressources
extraction terminologie, champs thématiques,
réseaux sémantiques, morphologie, . . .
en général besoin de validation
pas trop mal pour étiquetage et ségmentation
faible sur des décisions complexes
(induction de grammaires)
http://stp.lingfil.uu.se/
~bea/copiale/
INRIA Éric de la Clergerie IA & NLP 07/12/15 32 / 34
33. INRIA
Vers des approches faiblement supervisées
Courant prometteur : l’imagination au pouvoir
Exploitation de vues multiples et interactions
traduction : textes alignés
transfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )
accès aux logs des moteurs de recherche + liens suivis + bouton chance
analyse d’opinion : associer commentaires et notes données par les
utilisateurs (Google/Jigsaw Perspective)
réseaux sociaux : méta-données associées (threads/discussions, date, . . . )
séquences de mails Google SmartReply
Photos & légendes ; Films & sous-titres
crowdsourcing : payant ou au travers de jeux
INRIA Éric de la Clergerie IA & NLP 07/12/15 33 / 34
34. INRIA
Conclusion
Une époque faste (données, puissance, algo, ressources)
mais quels acteurs ?
Une grande palette de techniques et des mariages possibles
De nouvelles approches à explorer pour des supervisions faibles
Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistes
pb : agencement/interaction de très nombreux composants
Et encore très loin d’une compréhension du langage et du monde
apprendre à apprendre, adaptation à l’imprévu, . . . ( Almanach)
INRIA Éric de la Clergerie IA & NLP 07/12/15 34 / 34