SlideShare une entreprise Scribd logo
1  sur  18
Réalisé par :Lazrag Zeineb
Les techniques TALN(Traitement automatique du
language naturel)
2015/2016
Ministère de l’enseignement supérieur et de la recherche
scientifique
Institut Supérieur d’informatique et multimédia de gabes
2
Plan
Les deux approches fondamentals
Introduction
Conclusion
Introduction
Définition:
• Le Traitements Automatique des Langues (TAL) est une discipline qui associe
étroitement linguistes et informaticiens. Il repose sur la linguistique,
les formalismes (représentation de l’information et des connaissances dans des
formats interprétables par des machines) et l’informatique.
• Le TAL a pour objectif de développer des logiciels ou des programmes informatiques
capables de traiter de façon automatique des données linguistiques.
• vise `a “faire parler les ordinateurs” et plus précisément, à leur donner les capacités
linguistiques d’un être humain.
• est un domaine pluridisciplinaire qui fait intervenir l’informatique et la linguistique
mais également la logique, les statistiques, la psychologie, les sciences
cognitives,etc.
3
Introduction
Quelques notions de sciences du langage(propriétes générales):
 Langages:
 Un langage est un système incluant un ensemble de symboles, une
syntaxe (pour former des expressions complexes à partir des symboles) et
une sémantique (définissant le sens des expressions du langage).
 L’alphabet de langage formel est l’ensemble de symboles, lettres ou
lexèmes qui servent à construire les mots du langage.
 La théorie des langages a pour objectif d’étudier les aspects purement
syntaxiques de tes languages.
4
Introduction
 Langues naturels:
 Parlée (et écrite) par des humains .
• Anglais, français, allemand, chinois, etc.
 Deux différences importantes entre langages formels et langues naturelles
5
Introduction
Multidimensionalité:
le décodage d’une expression fait intervenir l’analyse syntaxique et
sémantique mais aussi l’analyse phonétique, phonologique, morphologique,
pragmatique (interaction avec le contexte) ainsi que le raisonnement basé
sur les connaissances.
Combinatoire forte:
 Ambiguïté: plusieurs analyses syntaxiques et/ou sémantiques possibles.
 Paraphrases: le même contenu peut être exprimé de différentes façons.
 Objectifs: gérer/réduire la combinatoire ; résoudre les ambiguités
(analyse) ; faire les choix appropriés (génération).
6
Introduction
 Les niveaux d’analyse linguistique:
Tous les niveaux linguistique sont pertinents:
 Phonétique,Phonologie:sons/phonémes/morphémes.
 Morphologie:morphémes/mots
 Syntaxe:mots/constituants
 Sémantique:syntaxe/sens litéral
 Pragmatique:sens litéral,contexte/sens en contexte
7
Les deux approches
8
Approche symbolique:
 Inspirée par un modèle cognitif fonctionnel de l’esprit.
 La méthode symbolique se base sur une analyse syntaxique du texte faite
par un analyseur fonctionnel et relationnel.
 Elle est basée sur les règles d’un analyseur syntaxico-sémantique.
 Cet analyseur traite un texte donné en entrée phrase par phrase et en
extrait, pour chaque phrase, les relations syntaxiques présentes.
 Il s’agit de relations syntaxiques de base telles que le modifieur d’un nom,
d’un verbe, le sujet et l’objet de la phrase, etc., et de relations plus
complexes telles que la coréférence entre deux syntagmes de la phrase.
Les deux approches
9
Approche satistique:
 Elle est basée sur des techniques d’apprentissage automatique.
 influence de la linguistique de corpus.
 fondée sur le traitement outillé de données attestées.
 observation rigoureuse de la performance.
 conception distributionnelle du sens (dépend du contexte).
Approche symbolique
10
 Modélisation symbolique:
 Outils utilisées: grammaires formelles,formalismes logiques,combinatoires,
mathématiques logiques.
 Méthode: écriture à la main de règles ou (rarement) apprentissage
symbolique.
 inférence déductive, modélisée par la logique.
 requiert (souvent) une expertise linguistique.
 traduit l’approche cognitiviste de l’esprit humain.
Approche symbolique
11
Approche symbolique
12
Intérêts:
 approche top-down : traitements bien maîtrisés conceptuellement et
compréhensibles.
 bonne précision : ce qui est traité est bien traité.
 déductions logiques puissantes.
Inconvénients:
 aucun niveau d’analyse d’aucune langue n’est parfaitement modélisé.
 mauvaise couverture : beaucoup de cas non traités.
 frame problem : impossible de rendre explicites toutes les connaissances
sur le monde.
Approche statique
13
Modélisation fondée sur les données
 évolution contemporaine du TALN et de l’IA (depuis 1990).
 rendue possible par l’apparition de machines capables de stocker et traiter
de grandes masses de données.
 le Web fournit cette grande quantité de textes (Big Data !).
 techniques : analyse numérique, probabilités et statistiques, inférence
inductive, mathématiques du continu.
 méthodes : transformation des textes en vecteurs, repérage de co-
occurrences/corrélations, apprentissage automatique statistique.
 ce qui est modélisé : la réalisation d’une tâche à partir d’exemples.
Approche statique
14
Approche statique
15
Intérêts:
 approche bottom-up : fondée sur des occurrences attestées plus que sur
l’intuition, opérationnalise la “linguistique de corpus”.
 les mêmes algorithmes sont applicables quelle que soit la langue (capacité
d’apprentissage prime sur érudition).
 plus grande souplesse et adaptabilité, mise à jour facilitée à condition de
ré-entraîner.
 bonne couverture : plus on a de données, mieux ça marche (Google
Translate)
Inconvénients:
 difficulté de disposer de bon corpus annotés.
 sémantique reste difficile d’accès.
 effet boîte noire : interprétation des résultats (erreurs) difficile.
conclusion
16
le TAL est partout !
nombreux outils et ressources utiles :
 programmes "grands publics " : moteurs de recherche, classification
des mails, traduction, résumé, réponse à des questions...
 programmes "pour professionnels" : reconnaissance des entités
nommées pour la veille, analyse d’opinion, recommandation pour le
marketing.
il reste beaucoup de travail à faire pour des linguistes-informaticiens.
réferences
17
 Sigrid Maurel, Paolo Curtoni et Luca Dini, Classification d’opinions par
méthodes symbolique, statistique et hybride, CELI-France, SAS .
 Claire Gardent , Traitement des Langues Naturelles (TAL) ,disponible sur
http://www.dptinfo.ens-cachan.fr/Conferences/.
 Meryem Talha1 Siham Boulaknadel1, 2 Driss Aboutajdine1, LRIT, Unité
Associée au CNRST (URAC 29), Faculté des Sciences, Mohammed V-Agdal,
Rabat, Maroc (2) IRCAM, Avenue Allal El Fassi, Madinat Al Irfane, Rabat-
Instituts, Maro, RENAM: Système de Reconnaissance des Entités Nommées
Amazighes
18

Contenu connexe

Tendances

Chatbot arabe-dialectale-covid19
Chatbot arabe-dialectale-covid19Chatbot arabe-dialectale-covid19
Chatbot arabe-dialectale-covid19othmanakka
 
Mise en place d’une application mobile de géolocalisation
Mise en place d’une application mobile de géolocalisationMise en place d’une application mobile de géolocalisation
Mise en place d’une application mobile de géolocalisationCléa Aurianne Leencé BAWE
 
Présentation PFE Computer Vision
Présentation PFE Computer VisionPrésentation PFE Computer Vision
Présentation PFE Computer VisionRihab Ben Rhouma
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMJaouad Dabounou
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Digital Thursday
 
Rapport Pfe Application Web e-commerce Symfony2
Rapport Pfe Application Web e-commerce Symfony2Rapport Pfe Application Web e-commerce Symfony2
Rapport Pfe Application Web e-commerce Symfony2Ben Abdelwahed Slim
 
Rapport pfe Conceptionet Developpement d'une Application web et Mobile
Rapport pfe Conceptionet Developpement d'une Application web et  Mobile Rapport pfe Conceptionet Developpement d'une Application web et  Mobile
Rapport pfe Conceptionet Developpement d'une Application web et Mobile Raoua Bennasr
 
Analyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationAnalyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationMireille Blay-Fornarino
 
Diaporama GED-SAE
Diaporama GED-SAEDiaporama GED-SAE
Diaporama GED-SAEinforoutes
 
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURICours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURIMansouri Khalifa
 
Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...
Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...
Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...Symphorien Niyonzima
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi AfnouchAhmed
 
Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01Alain Marois
 
Analyse de l'existant // Etat de l'art // Positionnement
Analyse de l'existant // Etat de l'art // PositionnementAnalyse de l'existant // Etat de l'art // Positionnement
Analyse de l'existant // Etat de l'art // PositionnementVirginie Colombel
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 

Tendances (20)

Chatbot arabe-dialectale-covid19
Chatbot arabe-dialectale-covid19Chatbot arabe-dialectale-covid19
Chatbot arabe-dialectale-covid19
 
Mise en place d’une application mobile de géolocalisation
Mise en place d’une application mobile de géolocalisationMise en place d’une application mobile de géolocalisation
Mise en place d’une application mobile de géolocalisation
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
Présentation PFE Computer Vision
Présentation PFE Computer VisionPrésentation PFE Computer Vision
Présentation PFE Computer Vision
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
 
Rapport Pfe Application Web e-commerce Symfony2
Rapport Pfe Application Web e-commerce Symfony2Rapport Pfe Application Web e-commerce Symfony2
Rapport Pfe Application Web e-commerce Symfony2
 
Rapport pfe Conceptionet Developpement d'une Application web et Mobile
Rapport pfe Conceptionet Developpement d'une Application web et  Mobile Rapport pfe Conceptionet Developpement d'une Application web et  Mobile
Rapport pfe Conceptionet Developpement d'une Application web et Mobile
 
Analyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationAnalyse et conception des systèmes d’information
Analyse et conception des systèmes d’information
 
Diaporama GED-SAE
Diaporama GED-SAEDiaporama GED-SAE
Diaporama GED-SAE
 
Slide farany l3
Slide farany l3Slide farany l3
Slide farany l3
 
Méthodes Agiles - La Méthode XP
Méthodes Agiles - La Méthode XPMéthodes Agiles - La Méthode XP
Méthodes Agiles - La Méthode XP
 
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURICours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
 
Word Embedding
Word EmbeddingWord Embedding
Word Embedding
 
Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...
Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...
Conception d’une plateforme web d’e-Commerce au sein d’une entreprise commerc...
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi
 
Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01
 
Prez PFE
Prez PFEPrez PFE
Prez PFE
 
Analyse de l'existant // Etat de l'art // Positionnement
Analyse de l'existant // Etat de l'art // PositionnementAnalyse de l'existant // Etat de l'art // Positionnement
Analyse de l'existant // Etat de l'art // Positionnement
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 

En vedette

Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]
Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]
Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]Debdatta Bakshi
 
Codes and Conventions of Music Magazines
Codes and Conventions of Music MagazinesCodes and Conventions of Music Magazines
Codes and Conventions of Music MagazinesEvijaKapeljuha
 
Distilleries company of Sri Lanka (DCSL)
Distilleries company of Sri Lanka (DCSL)Distilleries company of Sri Lanka (DCSL)
Distilleries company of Sri Lanka (DCSL)thiwanka96
 
Dike Uzoamaka 0007981465
Dike Uzoamaka 0007981465Dike Uzoamaka 0007981465
Dike Uzoamaka 0007981465Uzoamaka Dike
 
Finger wart removal
Finger wart removalFinger wart removal
Finger wart removaldanneeledge
 
Nigeria's Media & Marketing in 2016
Nigeria's Media & Marketing in 2016Nigeria's Media & Marketing in 2016
Nigeria's Media & Marketing in 2016samuel odusami
 
ASD Market Week Post Show Report August 2015
ASD Market Week Post Show Report August 2015ASD Market Week Post Show Report August 2015
ASD Market Week Post Show Report August 2015ASDExhibitor
 
艺术品、展品航空运...PDF
艺术品、展品航空运...PDF艺术品、展品航空运...PDF
艺术品、展品航空运...PDFJoe Yang
 
Vanessa ortega escobar
Vanessa ortega escobarVanessa ortega escobar
Vanessa ortega escobarvane1793
 
Admin resume Lippman
Admin resume LippmanAdmin resume Lippman
Admin resume LippmanBeth Laub
 

En vedette (19)

2ª npc
2ª npc2ª npc
2ª npc
 
Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]
Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]
Debdatta_Bakshi_Supply_Chain_Management_4yrs[1]
 
Codes and Conventions of Music Magazines
Codes and Conventions of Music MagazinesCodes and Conventions of Music Magazines
Codes and Conventions of Music Magazines
 
Cpl- A Practical Guide to Coming Home
Cpl- A Practical Guide to Coming HomeCpl- A Practical Guide to Coming Home
Cpl- A Practical Guide to Coming Home
 
Social Media
Social MediaSocial Media
Social Media
 
Distilleries company of Sri Lanka (DCSL)
Distilleries company of Sri Lanka (DCSL)Distilleries company of Sri Lanka (DCSL)
Distilleries company of Sri Lanka (DCSL)
 
Dike Uzoamaka 0007981465
Dike Uzoamaka 0007981465Dike Uzoamaka 0007981465
Dike Uzoamaka 0007981465
 
Finger wart removal
Finger wart removalFinger wart removal
Finger wart removal
 
Nigeria's Media & Marketing in 2016
Nigeria's Media & Marketing in 2016Nigeria's Media & Marketing in 2016
Nigeria's Media & Marketing in 2016
 
ASD Market Week Post Show Report August 2015
ASD Market Week Post Show Report August 2015ASD Market Week Post Show Report August 2015
ASD Market Week Post Show Report August 2015
 
艺术品、展品航空运...PDF
艺术品、展品航空运...PDF艺术品、展品航空运...PDF
艺术品、展品航空运...PDF
 
Peak.S.GS330
Peak.S.GS330Peak.S.GS330
Peak.S.GS330
 
Ppt proyecto
Ppt proyectoPpt proyecto
Ppt proyecto
 
Портфоліо
ПортфоліоПортфоліо
Портфоліо
 
kaustubh resume- Updated
kaustubh resume- Updatedkaustubh resume- Updated
kaustubh resume- Updated
 
Resume new
Resume newResume new
Resume new
 
CV_Resume
CV_ResumeCV_Resume
CV_Resume
 
Vanessa ortega escobar
Vanessa ortega escobarVanessa ortega escobar
Vanessa ortega escobar
 
Admin resume Lippman
Admin resume LippmanAdmin resume Lippman
Admin resume Lippman
 

Similaire à les techniques TALN

Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologiquemap8slide
 
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Patrick Tremblay
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applicationsbenouini rachid
 
Big Data et Technologies du Langage
Big Data et Technologies du LangageBig Data et Technologies du Langage
Big Data et Technologies du Langageaixtal
 
Conf mapcolldoct24.05
Conf mapcolldoct24.05Conf mapcolldoct24.05
Conf mapcolldoct24.05map8slide
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-MLbabelmoi
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotInria
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des donnéesNajlaa Zouaoui
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...JUSTINDAVONDAMBAT
 
Evaluation Cours 5
Evaluation   Cours 5Evaluation   Cours 5
Evaluation Cours 5s9m7a4f
 
Guide moodle handicap [Septembre 2013]
Guide moodle handicap [Septembre 2013]Guide moodle handicap [Septembre 2013]
Guide moodle handicap [Septembre 2013]floriebrange
 
Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...
Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...
Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...Pablo Luna
 
2007 vsst lcd
2007 vsst lcd2007 vsst lcd
2007 vsst lcdSouad Mo
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 

Similaire à les techniques TALN (20)

Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologique
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
 
Deck 11
Deck 11Deck 11
Deck 11
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applications
 
Big Data et Technologies du Langage
Big Data et Technologies du LangageBig Data et Technologies du Langage
Big Data et Technologies du Langage
 
Conf mapcolldoct24.05
Conf mapcolldoct24.05Conf mapcolldoct24.05
Conf mapcolldoct24.05
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-ML
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale Sébillot
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des données
 
Cergar atala09
Cergar atala09Cergar atala09
Cergar atala09
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
 
Machine Translation
Machine TranslationMachine Translation
Machine Translation
 
Comm ecrite
Comm ecriteComm ecrite
Comm ecrite
 
Usageordi Ciney
Usageordi CineyUsageordi Ciney
Usageordi Ciney
 
Evaluation Cours 5
Evaluation   Cours 5Evaluation   Cours 5
Evaluation Cours 5
 
Guide moodle handicap [Septembre 2013]
Guide moodle handicap [Septembre 2013]Guide moodle handicap [Septembre 2013]
Guide moodle handicap [Septembre 2013]
 
Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...
Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...
Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...
 
2007 vsst lcd
2007 vsst lcd2007 vsst lcd
2007 vsst lcd
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 

les techniques TALN

  • 1. Réalisé par :Lazrag Zeineb Les techniques TALN(Traitement automatique du language naturel) 2015/2016 Ministère de l’enseignement supérieur et de la recherche scientifique Institut Supérieur d’informatique et multimédia de gabes
  • 2. 2 Plan Les deux approches fondamentals Introduction Conclusion
  • 3. Introduction Définition: • Le Traitements Automatique des Langues (TAL) est une discipline qui associe étroitement linguistes et informaticiens. Il repose sur la linguistique, les formalismes (représentation de l’information et des connaissances dans des formats interprétables par des machines) et l’informatique. • Le TAL a pour objectif de développer des logiciels ou des programmes informatiques capables de traiter de façon automatique des données linguistiques. • vise `a “faire parler les ordinateurs” et plus précisément, à leur donner les capacités linguistiques d’un être humain. • est un domaine pluridisciplinaire qui fait intervenir l’informatique et la linguistique mais également la logique, les statistiques, la psychologie, les sciences cognitives,etc. 3
  • 4. Introduction Quelques notions de sciences du langage(propriétes générales):  Langages:  Un langage est un système incluant un ensemble de symboles, une syntaxe (pour former des expressions complexes à partir des symboles) et une sémantique (définissant le sens des expressions du langage).  L’alphabet de langage formel est l’ensemble de symboles, lettres ou lexèmes qui servent à construire les mots du langage.  La théorie des langages a pour objectif d’étudier les aspects purement syntaxiques de tes languages. 4
  • 5. Introduction  Langues naturels:  Parlée (et écrite) par des humains . • Anglais, français, allemand, chinois, etc.  Deux différences importantes entre langages formels et langues naturelles 5
  • 6. Introduction Multidimensionalité: le décodage d’une expression fait intervenir l’analyse syntaxique et sémantique mais aussi l’analyse phonétique, phonologique, morphologique, pragmatique (interaction avec le contexte) ainsi que le raisonnement basé sur les connaissances. Combinatoire forte:  Ambiguïté: plusieurs analyses syntaxiques et/ou sémantiques possibles.  Paraphrases: le même contenu peut être exprimé de différentes façons.  Objectifs: gérer/réduire la combinatoire ; résoudre les ambiguités (analyse) ; faire les choix appropriés (génération). 6
  • 7. Introduction  Les niveaux d’analyse linguistique: Tous les niveaux linguistique sont pertinents:  Phonétique,Phonologie:sons/phonémes/morphémes.  Morphologie:morphémes/mots  Syntaxe:mots/constituants  Sémantique:syntaxe/sens litéral  Pragmatique:sens litéral,contexte/sens en contexte 7
  • 8. Les deux approches 8 Approche symbolique:  Inspirée par un modèle cognitif fonctionnel de l’esprit.  La méthode symbolique se base sur une analyse syntaxique du texte faite par un analyseur fonctionnel et relationnel.  Elle est basée sur les règles d’un analyseur syntaxico-sémantique.  Cet analyseur traite un texte donné en entrée phrase par phrase et en extrait, pour chaque phrase, les relations syntaxiques présentes.  Il s’agit de relations syntaxiques de base telles que le modifieur d’un nom, d’un verbe, le sujet et l’objet de la phrase, etc., et de relations plus complexes telles que la coréférence entre deux syntagmes de la phrase.
  • 9. Les deux approches 9 Approche satistique:  Elle est basée sur des techniques d’apprentissage automatique.  influence de la linguistique de corpus.  fondée sur le traitement outillé de données attestées.  observation rigoureuse de la performance.  conception distributionnelle du sens (dépend du contexte).
  • 10. Approche symbolique 10  Modélisation symbolique:  Outils utilisées: grammaires formelles,formalismes logiques,combinatoires, mathématiques logiques.  Méthode: écriture à la main de règles ou (rarement) apprentissage symbolique.  inférence déductive, modélisée par la logique.  requiert (souvent) une expertise linguistique.  traduit l’approche cognitiviste de l’esprit humain.
  • 12. Approche symbolique 12 Intérêts:  approche top-down : traitements bien maîtrisés conceptuellement et compréhensibles.  bonne précision : ce qui est traité est bien traité.  déductions logiques puissantes. Inconvénients:  aucun niveau d’analyse d’aucune langue n’est parfaitement modélisé.  mauvaise couverture : beaucoup de cas non traités.  frame problem : impossible de rendre explicites toutes les connaissances sur le monde.
  • 13. Approche statique 13 Modélisation fondée sur les données  évolution contemporaine du TALN et de l’IA (depuis 1990).  rendue possible par l’apparition de machines capables de stocker et traiter de grandes masses de données.  le Web fournit cette grande quantité de textes (Big Data !).  techniques : analyse numérique, probabilités et statistiques, inférence inductive, mathématiques du continu.  méthodes : transformation des textes en vecteurs, repérage de co- occurrences/corrélations, apprentissage automatique statistique.  ce qui est modélisé : la réalisation d’une tâche à partir d’exemples.
  • 15. Approche statique 15 Intérêts:  approche bottom-up : fondée sur des occurrences attestées plus que sur l’intuition, opérationnalise la “linguistique de corpus”.  les mêmes algorithmes sont applicables quelle que soit la langue (capacité d’apprentissage prime sur érudition).  plus grande souplesse et adaptabilité, mise à jour facilitée à condition de ré-entraîner.  bonne couverture : plus on a de données, mieux ça marche (Google Translate) Inconvénients:  difficulté de disposer de bon corpus annotés.  sémantique reste difficile d’accès.  effet boîte noire : interprétation des résultats (erreurs) difficile.
  • 16. conclusion 16 le TAL est partout ! nombreux outils et ressources utiles :  programmes "grands publics " : moteurs de recherche, classification des mails, traduction, résumé, réponse à des questions...  programmes "pour professionnels" : reconnaissance des entités nommées pour la veille, analyse d’opinion, recommandation pour le marketing. il reste beaucoup de travail à faire pour des linguistes-informaticiens.
  • 17. réferences 17  Sigrid Maurel, Paolo Curtoni et Luca Dini, Classification d’opinions par méthodes symbolique, statistique et hybride, CELI-France, SAS .  Claire Gardent , Traitement des Langues Naturelles (TAL) ,disponible sur http://www.dptinfo.ens-cachan.fr/Conferences/.  Meryem Talha1 Siham Boulaknadel1, 2 Driss Aboutajdine1, LRIT, Unité Associée au CNRST (URAC 29), Faculté des Sciences, Mohammed V-Agdal, Rabat, Maroc (2) IRCAM, Avenue Allal El Fassi, Madinat Al Irfane, Rabat- Instituts, Maro, RENAM: Système de Reconnaissance des Entités Nommées Amazighes
  • 18. 18