1. Réalisé par :Lazrag Zeineb
Les techniques TALN(Traitement automatique du
language naturel)
2015/2016
Ministère de l’enseignement supérieur et de la recherche
scientifique
Institut Supérieur d’informatique et multimédia de gabes
3. Introduction
Définition:
• Le Traitements Automatique des Langues (TAL) est une discipline qui associe
étroitement linguistes et informaticiens. Il repose sur la linguistique,
les formalismes (représentation de l’information et des connaissances dans des
formats interprétables par des machines) et l’informatique.
• Le TAL a pour objectif de développer des logiciels ou des programmes informatiques
capables de traiter de façon automatique des données linguistiques.
• vise `a “faire parler les ordinateurs” et plus précisément, à leur donner les capacités
linguistiques d’un être humain.
• est un domaine pluridisciplinaire qui fait intervenir l’informatique et la linguistique
mais également la logique, les statistiques, la psychologie, les sciences
cognitives,etc.
3
4. Introduction
Quelques notions de sciences du langage(propriétes générales):
Langages:
Un langage est un système incluant un ensemble de symboles, une
syntaxe (pour former des expressions complexes à partir des symboles) et
une sémantique (définissant le sens des expressions du langage).
L’alphabet de langage formel est l’ensemble de symboles, lettres ou
lexèmes qui servent à construire les mots du langage.
La théorie des langages a pour objectif d’étudier les aspects purement
syntaxiques de tes languages.
4
5. Introduction
Langues naturels:
Parlée (et écrite) par des humains .
• Anglais, français, allemand, chinois, etc.
Deux différences importantes entre langages formels et langues naturelles
5
6. Introduction
Multidimensionalité:
le décodage d’une expression fait intervenir l’analyse syntaxique et
sémantique mais aussi l’analyse phonétique, phonologique, morphologique,
pragmatique (interaction avec le contexte) ainsi que le raisonnement basé
sur les connaissances.
Combinatoire forte:
Ambiguïté: plusieurs analyses syntaxiques et/ou sémantiques possibles.
Paraphrases: le même contenu peut être exprimé de différentes façons.
Objectifs: gérer/réduire la combinatoire ; résoudre les ambiguités
(analyse) ; faire les choix appropriés (génération).
6
7. Introduction
Les niveaux d’analyse linguistique:
Tous les niveaux linguistique sont pertinents:
Phonétique,Phonologie:sons/phonémes/morphémes.
Morphologie:morphémes/mots
Syntaxe:mots/constituants
Sémantique:syntaxe/sens litéral
Pragmatique:sens litéral,contexte/sens en contexte
7
8. Les deux approches
8
Approche symbolique:
Inspirée par un modèle cognitif fonctionnel de l’esprit.
La méthode symbolique se base sur une analyse syntaxique du texte faite
par un analyseur fonctionnel et relationnel.
Elle est basée sur les règles d’un analyseur syntaxico-sémantique.
Cet analyseur traite un texte donné en entrée phrase par phrase et en
extrait, pour chaque phrase, les relations syntaxiques présentes.
Il s’agit de relations syntaxiques de base telles que le modifieur d’un nom,
d’un verbe, le sujet et l’objet de la phrase, etc., et de relations plus
complexes telles que la coréférence entre deux syntagmes de la phrase.
9. Les deux approches
9
Approche satistique:
Elle est basée sur des techniques d’apprentissage automatique.
influence de la linguistique de corpus.
fondée sur le traitement outillé de données attestées.
observation rigoureuse de la performance.
conception distributionnelle du sens (dépend du contexte).
10. Approche symbolique
10
Modélisation symbolique:
Outils utilisées: grammaires formelles,formalismes logiques,combinatoires,
mathématiques logiques.
Méthode: écriture à la main de règles ou (rarement) apprentissage
symbolique.
inférence déductive, modélisée par la logique.
requiert (souvent) une expertise linguistique.
traduit l’approche cognitiviste de l’esprit humain.
12. Approche symbolique
12
Intérêts:
approche top-down : traitements bien maîtrisés conceptuellement et
compréhensibles.
bonne précision : ce qui est traité est bien traité.
déductions logiques puissantes.
Inconvénients:
aucun niveau d’analyse d’aucune langue n’est parfaitement modélisé.
mauvaise couverture : beaucoup de cas non traités.
frame problem : impossible de rendre explicites toutes les connaissances
sur le monde.
13. Approche statique
13
Modélisation fondée sur les données
évolution contemporaine du TALN et de l’IA (depuis 1990).
rendue possible par l’apparition de machines capables de stocker et traiter
de grandes masses de données.
le Web fournit cette grande quantité de textes (Big Data !).
techniques : analyse numérique, probabilités et statistiques, inférence
inductive, mathématiques du continu.
méthodes : transformation des textes en vecteurs, repérage de co-
occurrences/corrélations, apprentissage automatique statistique.
ce qui est modélisé : la réalisation d’une tâche à partir d’exemples.
15. Approche statique
15
Intérêts:
approche bottom-up : fondée sur des occurrences attestées plus que sur
l’intuition, opérationnalise la “linguistique de corpus”.
les mêmes algorithmes sont applicables quelle que soit la langue (capacité
d’apprentissage prime sur érudition).
plus grande souplesse et adaptabilité, mise à jour facilitée à condition de
ré-entraîner.
bonne couverture : plus on a de données, mieux ça marche (Google
Translate)
Inconvénients:
difficulté de disposer de bon corpus annotés.
sémantique reste difficile d’accès.
effet boîte noire : interprétation des résultats (erreurs) difficile.
16. conclusion
16
le TAL est partout !
nombreux outils et ressources utiles :
programmes "grands publics " : moteurs de recherche, classification
des mails, traduction, résumé, réponse à des questions...
programmes "pour professionnels" : reconnaissance des entités
nommées pour la veille, analyse d’opinion, recommandation pour le
marketing.
il reste beaucoup de travail à faire pour des linguistes-informaticiens.
17. réferences
17
Sigrid Maurel, Paolo Curtoni et Luca Dini, Classification d’opinions par
méthodes symbolique, statistique et hybride, CELI-France, SAS .
Claire Gardent , Traitement des Langues Naturelles (TAL) ,disponible sur
http://www.dptinfo.ens-cachan.fr/Conferences/.
Meryem Talha1 Siham Boulaknadel1, 2 Driss Aboutajdine1, LRIT, Unité
Associée au CNRST (URAC 29), Faculté des Sciences, Mohammed V-Agdal,
Rabat, Maroc (2) IRCAM, Avenue Allal El Fassi, Madinat Al Irfane, Rabat-
Instituts, Maro, RENAM: Système de Reconnaissance des Entités Nommées
Amazighes