Analyse des performances demodèles de langage sub-lexicalepour des langues peu-dotées àmorphologie riche     Hadrien Gelas...
Introduction                  Résultats     1             2            3               Segmentation                des don...
Introduction1
AmhariqueLangueSémitique333
SwahiliLangueBantu333
Reconnaissance          Automatique de la               Parole (RAP)"                        Dictionnaire      Modèles   ...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Amharique et swahili   Morphologie riche
Morphologie Richeen swahiliEnglish   They will not tell you
Morphologie Richeen swahiliEnglish   They will not tell youSwahili   hawatakuambieni
Morphologie Richeen swahiliEnglish   They will not tell youSwahili   hawatakuambieniSegm.     ha-wa-ta-ku-ambi-e-niGloss  ...
Morphologie Richeet RAP [Creutz et al., 2007]
Morphologie Richeet RAP        Faible couverture lexicale        OOV% élevé	  3	     Segmentation des mots en        sous-...
Segmentation desdonnées     3 approches et     3 étiquetages 2
Approche #1Approche non-supervisée(Morfessor), guidée par lesdonnées.  liste de mots                  3	     liste de morp...
Approche #2Approche supervisée, nécessite uncorpus d’apprentissagemanuellement segmenté.  liste de mots                  3...
Approche #3Découpage en syllabe à partir derègles suivant les contraintesphonologiques et structurelles deslangues respect...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Etiquetage #1_AFX : Une frontière (MB) est a joutéeà la gauche (ou droite) de lasegmentation laissant la « racine »isolé. ...
Etiquetage #2_ALL : Une frontière (MB) est a joutéede chaque côté de la segmentation.Distinguant ainsi chaque racine parsa...
Etiquetage #3_POS : Pour les syllabes, nous avonsa joutés à la syllabe la position de lasyllabe dans le mot.    ki ta bu  ...
Résultats (WER)"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles     ...
Résultats swahili (WER)
Résultats amharique (WER)
Résultats (OOV %)
ConclusionRAP : langues à morphologie riche        Mots 3	                  Sous-unités      = Amélioration du WER%      =...
RécapitulatifInfluence sur performances =3 paramètres#1 : Longueur couverte par n-gram             si suffisante…#2 : Couv...
Merci!   hadrien.gelas@univ-lyon2.fr   solomon_teferra_7@yahoo.com   laurent.besacier@imag.fr   francois.pellegrino@univ-l...
Résultats swahili (TYPE OOV %)  19.17             12.46                         10.28      11.36                          ...
Comparaison – swahiliapproches et étiquetages
Prochain SlideShare
Chargement dans…5
×

Jep 2012 wrkshp

690 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
690
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Jep 2012 wrkshp

  1. 1. Analyse des performances demodèles de langage sub-lexicalepour des langues peu-dotées àmorphologie riche Hadrien Gelas1,2, Solomon Teferra Abate2, Laurent Besacier2, François Pellegrino1 1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France
  2. 2. Introduction Résultats 1 2 3 Segmentation des données textuelles
  3. 3. Introduction1
  4. 4. AmhariqueLangueSémitique333
  5. 5. SwahiliLangueBantu333
  6. 6. Reconnaissance Automatique de la Parole (RAP)" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage J Sorties texte
  7. 7. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langageAMH : 20h de parole lueSWH : 2h30 de parole lue+ 10h de broadcast news J Sorties texte
  8. 8. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage65k mots les plus fréquentspour les 2 langues J Sorties texte
  9. 9. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langageAMH : 2.3M de motsSWH : 28M de mots J Sorties texte
  10. 10. Amharique et swahili Morphologie riche
  11. 11. Morphologie Richeen swahiliEnglish They will not tell you
  12. 12. Morphologie Richeen swahiliEnglish They will not tell youSwahili hawatakuambieni
  13. 13. Morphologie Richeen swahiliEnglish They will not tell youSwahili hawatakuambieniSegm. ha-wa-ta-ku-ambi-e-niGloss NEG-SM2-FUT-OM2-tell-FIN-PL
  14. 14. Morphologie Richeet RAP [Creutz et al., 2007]
  15. 15. Morphologie Richeet RAP Faible couverture lexicale OOV% élevé  3   Segmentation des mots en sous-unités !
  16. 16. Segmentation desdonnées 3 approches et 3 étiquetages 2
  17. 17. Approche #1Approche non-supervisée(Morfessor), guidée par lesdonnées. liste de mots 3   liste de morphes
  18. 18. Approche #2Approche supervisée, nécessite uncorpus d’apprentissagemanuellement segmenté. liste de mots 3   liste de morphèmes
  19. 19. Approche #3Découpage en syllabe à partir derègles suivant les contraintesphonologiques et structurelles deslangues respectives liste de mots 3   liste de syllabes
  20. 20. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langageOn apprend des modèles delangage à partir des corpussegmentés en sous-unités J Sorties texte
  21. 21. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langageNécessite de reconstruire lessorties au niveau mot ! J Sorties texte
  22. 22. Etiquetage #1_AFX : Une frontière (MB) est a joutéeà la gauche (ou droite) de lasegmentation laissant la « racine »isolé. ki tabu 3  kiMB tabu 3  kitabu
  23. 23. Etiquetage #2_ALL : Une frontière (MB) est a joutéede chaque côté de la segmentation.Distinguant ainsi chaque racine parsa position (ROOT, MBROOT, ROOTMB,MBROOTMB) ki tabu 3  kiMB MBtabu 3  kitabu
  24. 24. Etiquetage #3_POS : Pour les syllabes, nous avonsa joutés à la syllabe la position de lasyllabe dans le mot. ki ta bu 3   1ki 2ta 3bu kitabu 3  
  25. 25. Résultats (WER)" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage 3 J Sorties texte
  26. 26. Résultats swahili (WER)
  27. 27. Résultats amharique (WER)
  28. 28. Résultats (OOV %)
  29. 29. ConclusionRAP : langues à morphologie riche Mots 3   Sous-unités = Amélioration du WER% = Amélioration du OOV% Si segmentation appropriée !
  30. 30. RécapitulatifInfluence sur performances =3 paramètres#1 : Longueur couverte par n-gram si suffisante…#2 : Couverture lexicale si suffisante…#3 : Précision des contextes
  31. 31. Merci! hadrien.gelas@univ-lyon2.fr solomon_teferra_7@yahoo.com laurent.besacier@imag.fr francois.pellegrino@univ-lyon2.fr
  32. 32. Résultats swahili (TYPE OOV %) 19.17 12.46 10.28 11.36 1.61 Word-65k Word-200k Word-400k Morf-65k Morf-200k
  33. 33. Comparaison – swahiliapproches et étiquetages

×