Les défis des langues 
au traitement automatique 
du langage (TAL) 
Jorge Baptista 
U. Algarve - FCHS/CECL et INESC-ID Lis...
resumé 
Dans cette présentation, nous introduisons des concepts-clés du 
domaine du traitement automatique de langues (TAL...
“comprendre”? 
Turing machines 
Terça-feira, 16 de Setembro de 14 3
Turing test 
Terça-feira, 16 de Setembro de 14 4
Terça-feira, 16 de Setembro de 14 5
qu'est-ce qu'un texte pour une machine? 
• un texte n’est qu’une suite de 
caractères entre en début et 
un fin de fichier...
segmentation de textes 
Terça-feira, 16 de Setembro de 14 7
segmentation de textes 
Au commencement, Dieu créa les cieux et la terre. 
/à_le/ 
et il sépara les eaux qui sont au-desso...
segmentation de textes 
Terça-feira, 16 de Setembro de 14 9
Terça-feira, 16 de Setembro de 14 10
comment relier les mots entre elles? 
Au commencement, Dieu créa les cieux et la terre. 
Au commencement , Dieu créa 
les ...
les structures syntaxiques minimales (chunks) 
Au commencement , Dieu créa 
adv pnc n v 
les cieux et la terre . 
det n de...
Au commencement , Dieu créa 
adv pnc n v 
les cieux et la terre . 
det n cnj 
det n pnc 
det det 
coord-g coord-d 
sujet 
...
les relation (rôles) semantiques 
Au commencement , 
adv 
agent obj 
Dieu créa les cieux et la terre . 
n 
pnc 
v det n de...
l'unité sémantique à travers des catégories morphosyntaxiques 
voler 
Luc a volé un stylo 
vol 
Luc a commis un vol 
voler...
l'unité sémantique à travers des catégories morphosyntaxiques 
voler 
32C 36DT 
Luc a volé un stylo 
vol 
F2 F1L 
Luc a co...
Terça-feira, 16 de Setembro de 14 17
jbaptis[5:09] 
echo 
"Missão 
Roseta 
vai 
aterrar 
na 
cabeça 
do 
cometa 
67P/Churyumov-­‐Gerasimenko." 
| 
xip/string.s...
un autre 
formalisme ... 
http://beta.visl.sdu.dk/ 
Terça-feira, 16 de Setembro de 14 19
un autre 
formalisme ... 
http://lxcenter.di.fc.ul.pt/services/en/LXServicesParserDep.html 
Terça-feira, 16 de Setembro de...
Applications 
Terça-feira, 16 de Setembro de 14 21
bionote 
Jorge Baptista est “Professor Associado” à l'Université de l'Algarve, à Faro, Portugal, où il est 
enseignant de ...
Спасибо ! 
Terça-feira, 16 de Setembro de 14 23
Prochain SlideShare
Chargement dans…5
×

Les défis des_langue-pour_le_tal

492 vues

Publié le

Dans cette presentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL): qu'est-ce qu'un texte pour une machine? comment identifier des unités linguistiques à plusieurs niveaux? la segmentation et l'analyse lexicale; la disambiguation automatique; comment relier les mots entre elles? les structures syntaxiques minimales (chunks) et les relations syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); des relations ou rôles sémantiques entre les constituants de la phrase; l'unité sémantique à travers des categories morphosyntaxiques et sa representation dans les lexiques électroniques.

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
492
Sur SlideShare
0
Issues des intégrations
0
Intégrations
117
Actions
Partages
0
Téléchargements
22
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Les défis des_langue-pour_le_tal

  1. 1. Les défis des langues au traitement automatique du langage (TAL) Jorge Baptista U. Algarve - FCHS/CECL et INESC-ID Lisboa/L2T jbaptis@ualg.pt Université Nationale de Taurida, Departement de Philologie Romane et Classique, 16-septembre-2014 BMU-MID Eramus+ Programme Terça-feira, 16 de Setembro de 14 1
  2. 2. resumé Dans cette présentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL): • qu'est-ce qu'un texte pour une machine? • comment identifier des unités linguistiques à plusieurs niveaux? • la segmentation et l'analyse lexicale; • la désambiguation automatique; • comment relier les mots entre elles? • les structures syntaxiques minimales (chunks) et les relations syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); • des relations ou rôles sémantiques entre les constituants de la phrase; • l'unité sémantique à travers des catégories morphosyntaxiques et sa représentation dans les lexiques électroniques. Terça-feira, 16 de Setembro de 14 2
  3. 3. “comprendre”? Turing machines Terça-feira, 16 de Setembro de 14 3
  4. 4. Turing test Terça-feira, 16 de Setembro de 14 4
  5. 5. Terça-feira, 16 de Setembro de 14 5
  6. 6. qu'est-ce qu'un texte pour une machine? • un texte n’est qu’une suite de caractères entre en début et un fin de fichier • il faut le diviser (=analiser) en morceaux pour qu’on puisse faire en sorte que l’ordinateur le “comprends” son contenu Terça-feira, 16 de Setembro de 14 6
  7. 7. segmentation de textes Terça-feira, 16 de Setembro de 14 7
  8. 8. segmentation de textes Au commencement, Dieu créa les cieux et la terre. /à_le/ et il sépara les eaux qui sont au-dessous de l'étendue d'avec les eaux qui sont au-dessus de l'étendue. au/-/dessous/ /de Terça-feira, 16 de Setembro de 14 8
  9. 9. segmentation de textes Terça-feira, 16 de Setembro de 14 9
  10. 10. Terça-feira, 16 de Setembro de 14 10
  11. 11. comment relier les mots entre elles? Au commencement, Dieu créa les cieux et la terre. Au commencement , Dieu créa les cieux et la terre . Terça-feira, 16 de Setembro de 14 11
  12. 12. les structures syntaxiques minimales (chunks) Au commencement , Dieu créa adv pnc n v les cieux et la terre . det n det n pnc Terça-feira, 16 de Setembro de 14 12
  13. 13. Au commencement , Dieu créa adv pnc n v les cieux et la terre . det n cnj det n pnc det det coord-g coord-d sujet TOP cod cod mod-P Terça-feira, 16 de Setembro de 14 13
  14. 14. les relation (rôles) semantiques Au commencement , adv agent obj Dieu créa les cieux et la terre . n pnc v det n det n pnc m-tmps Terça-feira, 16 de Setembro de 14 14
  15. 15. l'unité sémantique à travers des catégories morphosyntaxiques voler Luc a volé un stylo vol Luc a commis un vol voler L’avion vole <sur l’Atlantique> vol L’avion fait un vol <sur l’Atlantique Terça-feira, 16 de Setembro de 14 15
  16. 16. l'unité sémantique à travers des catégories morphosyntaxiques voler 32C 36DT Luc a volé un stylo vol F2 F1L Luc a commis un vol voler L’avion vole <sur l’Atlantique> vol L’avion fait un vol <sur l’Atlantique voleur Luc est un voleur Nprf1 volante Anh0 une machine volante Terça-feira, 16 de Setembro de 14 16
  17. 17. Terça-feira, 16 de Setembro de 14 17
  18. 18. jbaptis[5:09] echo "Missão Roseta vai aterrar na cabeça do cometa 67P/Churyumov-­‐Gerasimenko." | xip/string.sh -­‐t -­‐tr -­‐f -­‐indent -­‐tl 90 TOP +-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐ | | | | | | NP NP VTEMP VINF PP PP + + + + +-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐+ +-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐+ | | | | | | | | | | NOUN NOUN VERB VERB PREP ART NOUN PREP ART NOUN + + + +-­‐ + +-­‐ + + + + | | | | | | | | | | Missão Roseta vai aterrar em a cabeça de o cometa -­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+ | | | | NP PUNCT NP PUNCT +-­‐-­‐-­‐-­‐-­‐+ + + +-­‐ | | | | | NUM NOUN / NOUN . + +-­‐ +-­‐ | | | 67 P Churyumov-­‐Gerasimenko MAIN(aterrar) QUANTD(P,67) DETD(cabeça,a) DETD(cometa,o) VDOMAIN(vai,aterrar) MOD_POST(cabeça,cometa) MOD_POST(aterrar,cabeça) SUBJ_PRE(aterrar,Roseta) CDIR_POST(aterrar,P) NE_QUANT_NUM(67 P) EVENT_OTHER(aterrar) https://string.l2f.inesc-id.pt/demo Terça-feira, 16 de Setembro de 14 18
  19. 19. un autre formalisme ... http://beta.visl.sdu.dk/ Terça-feira, 16 de Setembro de 14 19
  20. 20. un autre formalisme ... http://lxcenter.di.fc.ul.pt/services/en/LXServicesParserDep.html Terça-feira, 16 de Setembro de 14 20
  21. 21. Applications Terça-feira, 16 de Setembro de 14 21
  22. 22. bionote Jorge Baptista est “Professor Associado” à l'Université de l'Algarve, à Faro, Portugal, où il est enseignant de Linguistique (Syntaxe, Phonologie, Morphologie et Histoire du Portugais) et Linguistique-Informatique, depuis 1992. Il fait aussi partie du Laboratoire du Language (L2F) du centre de recherche INESC-ID Lisboa, dès 2005. Il s'est dédié à la construction de resources linguistiques, notamment des dictionaire et des grammaires électroniques pour le TAL, depuis 1990. En Linguistique même, ses travaux couvrent plusieurs aspects du lexique et la grammaire du Portugais: les constructions à verb-suport, le figement, la determination et la syntaxe de l'adverbe. Du coté TAL, il a développé des dictionnaires de mots composés et des dictionnaires syntaxiques (ou lexiques-grammaires) de noms prédicatifs, de verbs distributionnels, d'adverbes (simples et composés) et de phrases verbales figées (ou expressions idiomatiques), qui comptent dans son ensemble, plusieurs milliers d’expressions/mots. Au Laboratoire de Language, il coordonne les aspects linguistique pour le développement d'un système hybride (statistique et avec règles) de traitement automatique du Portugais, appellé STRING(**). Ce système est pourvue de toutes les fonctionnalités essentielles d'un system de TAL (segmentation, analyse lexicale et levée d'ambiguïté (hybride) automatiques, analyse syntaxique de surface (chunking) et profonde (deep parsing). Les plus récents développements sont la reconnaissance des entités nommées (NER), l'identification des événements, leurs participants et circumstances (rôles sémantiques), l'ordination relative des événements D'autre part, il est aussi engagé dans la construction d'un système tutoriel d'apprentissage du Portugais Langue Etrangère - REAP.PT (***), ciblé sur le lexique, mais aussi avec des enjeux dans la grammaire. Il s'agit des exercices générés et corrigés automatiquement, à partir de textes réels, sélectionnés en fonction du niveau de competence langagière de l’étudiant. (*) Furhter details at : https://www.researchgate.net/profile/Jorge_Baptista (**) string.l2f.inesc-id.pt/ (***) www.l2f.inesc-id.pt/wiki/index.php/REAP.PT_(Computer_Aided_Language_Learning_-_Reading_Practice) Terça-feira, 16 de Setembro de 14 22
  23. 23. Спасибо ! Terça-feira, 16 de Setembro de 14 23

×