Réalisé par :Lazrag Zeineb
Les techniques TALN(Traitement automatique du
language naturel)
2015/2016
Ministère de l’enseignement supérieur et de la recherche
scientifique
Institut Supérieur d’informatique et multimédia de gabes
2
Plan
Les deux approches fondamentals
Introduction
Conclusion
Introduction
Définition:
• Le Traitements Automatique des Langues (TAL) est une discipline qui associe
étroitement linguistes et informaticiens. Il repose sur la linguistique,
les formalismes (représentation de l’information et des connaissances dans des
formats interprétables par des machines) et l’informatique.
• Le TAL a pour objectif de développer des logiciels ou des programmes informatiques
capables de traiter de façon automatique des données linguistiques.
• vise `a “faire parler les ordinateurs” et plus précisément, à leur donner les capacités
linguistiques d’un être humain.
• est un domaine pluridisciplinaire qui fait intervenir l’informatique et la linguistique
mais également la logique, les statistiques, la psychologie, les sciences
cognitives,etc.
3
Introduction
Quelques notions de sciences du langage(propriétes générales):
 Langages:
 Un langage est un système incluant un ensemble de symboles, une
syntaxe (pour former des expressions complexes à partir des symboles) et
une sémantique (définissant le sens des expressions du langage).
 L’alphabet de langage formel est l’ensemble de symboles, lettres ou
lexèmes qui servent à construire les mots du langage.
 La théorie des langages a pour objectif d’étudier les aspects purement
syntaxiques de tes languages.
4
Introduction
 Langues naturels:
 Parlée (et écrite) par des humains .
• Anglais, français, allemand, chinois, etc.
 Deux différences importantes entre langages formels et langues naturelles
5
Introduction
Multidimensionalité:
le décodage d’une expression fait intervenir l’analyse syntaxique et
sémantique mais aussi l’analyse phonétique, phonologique, morphologique,
pragmatique (interaction avec le contexte) ainsi que le raisonnement basé
sur les connaissances.
Combinatoire forte:
 Ambiguïté: plusieurs analyses syntaxiques et/ou sémantiques possibles.
 Paraphrases: le même contenu peut être exprimé de différentes façons.
 Objectifs: gérer/réduire la combinatoire ; résoudre les ambiguités
(analyse) ; faire les choix appropriés (génération).
6
Introduction
 Les niveaux d’analyse linguistique:
Tous les niveaux linguistique sont pertinents:
 Phonétique,Phonologie:sons/phonémes/morphémes.
 Morphologie:morphémes/mots
 Syntaxe:mots/constituants
 Sémantique:syntaxe/sens litéral
 Pragmatique:sens litéral,contexte/sens en contexte
7
Les deux approches
8
Approche symbolique:
 Inspirée par un modèle cognitif fonctionnel de l’esprit.
 La méthode symbolique se base sur une analyse syntaxique du texte faite
par un analyseur fonctionnel et relationnel.
 Elle est basée sur les règles d’un analyseur syntaxico-sémantique.
 Cet analyseur traite un texte donné en entrée phrase par phrase et en
extrait, pour chaque phrase, les relations syntaxiques présentes.
 Il s’agit de relations syntaxiques de base telles que le modifieur d’un nom,
d’un verbe, le sujet et l’objet de la phrase, etc., et de relations plus
complexes telles que la coréférence entre deux syntagmes de la phrase.
Les deux approches
9
Approche satistique:
 Elle est basée sur des techniques d’apprentissage automatique.
 influence de la linguistique de corpus.
 fondée sur le traitement outillé de données attestées.
 observation rigoureuse de la performance.
 conception distributionnelle du sens (dépend du contexte).
Approche symbolique
10
 Modélisation symbolique:
 Outils utilisées: grammaires formelles,formalismes logiques,combinatoires,
mathématiques logiques.
 Méthode: écriture à la main de règles ou (rarement) apprentissage
symbolique.
 inférence déductive, modélisée par la logique.
 requiert (souvent) une expertise linguistique.
 traduit l’approche cognitiviste de l’esprit humain.
Approche symbolique
11
Approche symbolique
12
Intérêts:
 approche top-down : traitements bien maîtrisés conceptuellement et
compréhensibles.
 bonne précision : ce qui est traité est bien traité.
 déductions logiques puissantes.
Inconvénients:
 aucun niveau d’analyse d’aucune langue n’est parfaitement modélisé.
 mauvaise couverture : beaucoup de cas non traités.
 frame problem : impossible de rendre explicites toutes les connaissances
sur le monde.
Approche statique
13
Modélisation fondée sur les données
 évolution contemporaine du TALN et de l’IA (depuis 1990).
 rendue possible par l’apparition de machines capables de stocker et traiter
de grandes masses de données.
 le Web fournit cette grande quantité de textes (Big Data !).
 techniques : analyse numérique, probabilités et statistiques, inférence
inductive, mathématiques du continu.
 méthodes : transformation des textes en vecteurs, repérage de co-
occurrences/corrélations, apprentissage automatique statistique.
 ce qui est modélisé : la réalisation d’une tâche à partir d’exemples.
Approche statique
14
Approche statique
15
Intérêts:
 approche bottom-up : fondée sur des occurrences attestées plus que sur
l’intuition, opérationnalise la “linguistique de corpus”.
 les mêmes algorithmes sont applicables quelle que soit la langue (capacité
d’apprentissage prime sur érudition).
 plus grande souplesse et adaptabilité, mise à jour facilitée à condition de
ré-entraîner.
 bonne couverture : plus on a de données, mieux ça marche (Google
Translate)
Inconvénients:
 difficulté de disposer de bon corpus annotés.
 sémantique reste difficile d’accès.
 effet boîte noire : interprétation des résultats (erreurs) difficile.
conclusion
16
le TAL est partout !
nombreux outils et ressources utiles :
 programmes "grands publics " : moteurs de recherche, classification
des mails, traduction, résumé, réponse à des questions...
 programmes "pour professionnels" : reconnaissance des entités
nommées pour la veille, analyse d’opinion, recommandation pour le
marketing.
il reste beaucoup de travail à faire pour des linguistes-informaticiens.
réferences
17
 Sigrid Maurel, Paolo Curtoni et Luca Dini, Classification d’opinions par
méthodes symbolique, statistique et hybride, CELI-France, SAS .
 Claire Gardent , Traitement des Langues Naturelles (TAL) ,disponible sur
http://www.dptinfo.ens-cachan.fr/Conferences/.
 Meryem Talha1 Siham Boulaknadel1, 2 Driss Aboutajdine1, LRIT, Unité
Associée au CNRST (URAC 29), Faculté des Sciences, Mohammed V-Agdal,
Rabat, Maroc (2) IRCAM, Avenue Allal El Fassi, Madinat Al Irfane, Rabat-
Instituts, Maro, RENAM: Système de Reconnaissance des Entités Nommées
Amazighes
18

les techniques TALN

  • 1.
    Réalisé par :LazragZeineb Les techniques TALN(Traitement automatique du language naturel) 2015/2016 Ministère de l’enseignement supérieur et de la recherche scientifique Institut Supérieur d’informatique et multimédia de gabes
  • 2.
    2 Plan Les deux approchesfondamentals Introduction Conclusion
  • 3.
    Introduction Définition: • Le TraitementsAutomatique des Langues (TAL) est une discipline qui associe étroitement linguistes et informaticiens. Il repose sur la linguistique, les formalismes (représentation de l’information et des connaissances dans des formats interprétables par des machines) et l’informatique. • Le TAL a pour objectif de développer des logiciels ou des programmes informatiques capables de traiter de façon automatique des données linguistiques. • vise `a “faire parler les ordinateurs” et plus précisément, à leur donner les capacités linguistiques d’un être humain. • est un domaine pluridisciplinaire qui fait intervenir l’informatique et la linguistique mais également la logique, les statistiques, la psychologie, les sciences cognitives,etc. 3
  • 4.
    Introduction Quelques notions desciences du langage(propriétes générales):  Langages:  Un langage est un système incluant un ensemble de symboles, une syntaxe (pour former des expressions complexes à partir des symboles) et une sémantique (définissant le sens des expressions du langage).  L’alphabet de langage formel est l’ensemble de symboles, lettres ou lexèmes qui servent à construire les mots du langage.  La théorie des langages a pour objectif d’étudier les aspects purement syntaxiques de tes languages. 4
  • 5.
    Introduction  Langues naturels: Parlée (et écrite) par des humains . • Anglais, français, allemand, chinois, etc.  Deux différences importantes entre langages formels et langues naturelles 5
  • 6.
    Introduction Multidimensionalité: le décodage d’uneexpression fait intervenir l’analyse syntaxique et sémantique mais aussi l’analyse phonétique, phonologique, morphologique, pragmatique (interaction avec le contexte) ainsi que le raisonnement basé sur les connaissances. Combinatoire forte:  Ambiguïté: plusieurs analyses syntaxiques et/ou sémantiques possibles.  Paraphrases: le même contenu peut être exprimé de différentes façons.  Objectifs: gérer/réduire la combinatoire ; résoudre les ambiguités (analyse) ; faire les choix appropriés (génération). 6
  • 7.
    Introduction  Les niveauxd’analyse linguistique: Tous les niveaux linguistique sont pertinents:  Phonétique,Phonologie:sons/phonémes/morphémes.  Morphologie:morphémes/mots  Syntaxe:mots/constituants  Sémantique:syntaxe/sens litéral  Pragmatique:sens litéral,contexte/sens en contexte 7
  • 8.
    Les deux approches 8 Approchesymbolique:  Inspirée par un modèle cognitif fonctionnel de l’esprit.  La méthode symbolique se base sur une analyse syntaxique du texte faite par un analyseur fonctionnel et relationnel.  Elle est basée sur les règles d’un analyseur syntaxico-sémantique.  Cet analyseur traite un texte donné en entrée phrase par phrase et en extrait, pour chaque phrase, les relations syntaxiques présentes.  Il s’agit de relations syntaxiques de base telles que le modifieur d’un nom, d’un verbe, le sujet et l’objet de la phrase, etc., et de relations plus complexes telles que la coréférence entre deux syntagmes de la phrase.
  • 9.
    Les deux approches 9 Approchesatistique:  Elle est basée sur des techniques d’apprentissage automatique.  influence de la linguistique de corpus.  fondée sur le traitement outillé de données attestées.  observation rigoureuse de la performance.  conception distributionnelle du sens (dépend du contexte).
  • 10.
    Approche symbolique 10  Modélisationsymbolique:  Outils utilisées: grammaires formelles,formalismes logiques,combinatoires, mathématiques logiques.  Méthode: écriture à la main de règles ou (rarement) apprentissage symbolique.  inférence déductive, modélisée par la logique.  requiert (souvent) une expertise linguistique.  traduit l’approche cognitiviste de l’esprit humain.
  • 11.
  • 12.
    Approche symbolique 12 Intérêts:  approchetop-down : traitements bien maîtrisés conceptuellement et compréhensibles.  bonne précision : ce qui est traité est bien traité.  déductions logiques puissantes. Inconvénients:  aucun niveau d’analyse d’aucune langue n’est parfaitement modélisé.  mauvaise couverture : beaucoup de cas non traités.  frame problem : impossible de rendre explicites toutes les connaissances sur le monde.
  • 13.
    Approche statique 13 Modélisation fondéesur les données  évolution contemporaine du TALN et de l’IA (depuis 1990).  rendue possible par l’apparition de machines capables de stocker et traiter de grandes masses de données.  le Web fournit cette grande quantité de textes (Big Data !).  techniques : analyse numérique, probabilités et statistiques, inférence inductive, mathématiques du continu.  méthodes : transformation des textes en vecteurs, repérage de co- occurrences/corrélations, apprentissage automatique statistique.  ce qui est modélisé : la réalisation d’une tâche à partir d’exemples.
  • 14.
  • 15.
    Approche statique 15 Intérêts:  approchebottom-up : fondée sur des occurrences attestées plus que sur l’intuition, opérationnalise la “linguistique de corpus”.  les mêmes algorithmes sont applicables quelle que soit la langue (capacité d’apprentissage prime sur érudition).  plus grande souplesse et adaptabilité, mise à jour facilitée à condition de ré-entraîner.  bonne couverture : plus on a de données, mieux ça marche (Google Translate) Inconvénients:  difficulté de disposer de bon corpus annotés.  sémantique reste difficile d’accès.  effet boîte noire : interprétation des résultats (erreurs) difficile.
  • 16.
    conclusion 16 le TAL estpartout ! nombreux outils et ressources utiles :  programmes "grands publics " : moteurs de recherche, classification des mails, traduction, résumé, réponse à des questions...  programmes "pour professionnels" : reconnaissance des entités nommées pour la veille, analyse d’opinion, recommandation pour le marketing. il reste beaucoup de travail à faire pour des linguistes-informaticiens.
  • 17.
    réferences 17  Sigrid Maurel,Paolo Curtoni et Luca Dini, Classification d’opinions par méthodes symbolique, statistique et hybride, CELI-France, SAS .  Claire Gardent , Traitement des Langues Naturelles (TAL) ,disponible sur http://www.dptinfo.ens-cachan.fr/Conferences/.  Meryem Talha1 Siham Boulaknadel1, 2 Driss Aboutajdine1, LRIT, Unité Associée au CNRST (URAC 29), Faculté des Sciences, Mohammed V-Agdal, Rabat, Maroc (2) IRCAM, Avenue Allal El Fassi, Madinat Al Irfane, Rabat- Instituts, Maro, RENAM: Système de Reconnaissance des Entités Nommées Amazighes
  • 18.