Développement de ressources enswahili pour un système de RAPHadrien Gelas1,2, Laurent Besacier2, François Pellegrino11Labo...
Introduction                  Résultats du Swahili                  du système     1             2            3           ...
Swahili ?1
Grandepartied’Afriquede l’Est                  9	  Parlée dans plus de   pays	  
Grandepartied’Afriquede l’EstLangue officielle de   5	                            nations	  
Grandepartied’Afriquede l’Est  Langue  swahili
2% seulement de locuteurs natifs(entre 800k et 5M)              98% sont             non-natifs entre 40M et 100M de locut...
Services numériquesen swahili
Services numériquesen swahili
Services numériquesen swahili
Services numériquesen swahili
Services numériquesen swahili
Services numériques
Services numériques
Services numériques
Services numériques
Services numériques
Services numériquesMais pas encore
FamilleBantu333
Swahili et RAP Ressources          Non tonale Morphologie riche   Orthographe Classes nominales système d’accord verbes co...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Corpus texte (M mots)                                                        28                                         12...
Corpus texte (M mots)                                                        28  Collecté depuis 16  sites de news        ...
Morphologie Richeen swahili
Morphologie Richeen swahiliEnglish   They will not tell you
Morphologie Richeen swahiliEnglish   They will not tell youSwahili   hawatakuambieni
Morphologie Richeen swahiliEnglish   They will not tell youSwahili   hawatakuambieniSegm.     ha-wa-ta-ku-ambi-e-niGloss  ...
Morphologie Richeet RAP [Creutz et al., 2007]
Morphologie richeen RAP (Type OOV %)  19.17                                    OOV % élevé	               12.46           ...
Morphologie richeen RAP (Type OOV %)                                    Afin d’obtenir une  19.17                         ...
Morphologie richeen RAP (Type OOV %)  19.17             12.46                         10.28      11.36                    ...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Dictionnaire deprononciation65k unités les plus fréquentes+Un script Grapheme-to-phoneme tirantbénéfice de la regularité d...
Dictionnaire deprononciation65k unités les plus fréquentes+Un script Grapheme-to-phoneme tirantbénéfice de la regularité d...
Dictionnaire deprononciationPrès de 9% des unités dans lelexique de 65k mots apparaissentdans le dictionnaire anglais du CMU
Dictionnaire deprononciationMots dans dict. 65k	     Mots dans dict. CMU                          	  …                    ...
Dictionnaire deprononciationMots dans dict. 65k	               Mots dans dict. CMU                                    	  …...
Dictionnaire deprononciationMots dans dict. 65k	               Mots dans dict. CMU                                    	  …...
Dictionnaire deprononciationMots dans dict. 65k	               Mots dans dict. CMU                                    	  …...
Ressources en RAP"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles   ...
Corpus AudioContrainte principale pour nous !Une tâche longue et coûteuse.
Corpus de parolelue (1ère solution)Transcriptions directement disponibles ettâche simple à préparer
Corpus de parolelue (1ère solution)Transcriptions directement disponibles ettâche simple à préparer                  MAIS…...
Corpus de parolelue (1ère solution)Transcriptions directement disponibles ettâche simple à préparer                  MAIS…...
Transcriptions viaCrowdsourcing(2èmesolution)Amazon’s Mechanical Turk:Plateforme de travail en ligne. Tâches disponiblesau...
Transcriptions viaCrowdsourcing(2èmesolution)Amazon’s Mechanical Turk:Plateforme de travail en ligne. Tâches disponiblesau...
Transcriptions viaCrowdsourcing(2èmesolution)Amazon’s Mechanical Turk:Plateforme de travail en ligne. Tâches disponiblesau...
Transcriptioncollaborative (3ème solution)Corpus à transcrire : web broadcast news(disponible en ligne avec une qualité su...
Transcriptioncollaborative (3ème solution)             Un 1er model acoustique             (MA) est appris à partir       ...
Transcriptioncollaborative (3ème solution)             Préparation             Set de 2h                           Un set ...
Transcriptioncollaborative (3ème solution)                  Préparation                  Set de 2h                        ...
Transcriptioncollaborative (3ème solution)                  Préparation                  Set de 2h                        ...
Transcriptioncollaborative (3ème solution)                 Préparation                 Set de 2h              Après correc...
Transcriptioncollaborative (3ème solution)             Préparation             Set de 2h            12h sont ainsi   Set d...
Transcription collaborative                               1er set                          40                          40 ...
Résultats (WER)"                        Dictionnaire      Modèles                   r   prononciation   r    Modèles     ...
Asante! (Merci!)    hadrien.gelas@univ-lyon2.fr    laurent.besacier@imag.fr    francois.pellegrino@univ-lyon2.fr
Taux de pénétrationd’Internet (%)                                                     78.6                                ...
Internet – croissance de          la population (%)   2988.4   2244.8                   2000-2011                         ...
Ressources en ligne
Jep 2012 Swahili
Prochain SlideShare
Chargement dans…5
×

Jep 2012 Swahili

516 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
516
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Jep 2012 Swahili

  1. 1. Développement de ressources enswahili pour un système de RAPHadrien Gelas1,2, Laurent Besacier2, François Pellegrino11Laboratoire DDL, CNRS - Université de Lyon, France2LIG, CNRS - Université Joseph Fourier Grenoble, France
  2. 2. Introduction Résultats du Swahili du système 1 2 3 Ressources pour la RAP
  3. 3. Swahili ?1
  4. 4. Grandepartied’Afriquede l’Est 9  Parlée dans plus de pays  
  5. 5. Grandepartied’Afriquede l’EstLangue officielle de 5   nations  
  6. 6. Grandepartied’Afriquede l’Est Langue swahili
  7. 7. 2% seulement de locuteurs natifs(entre 800k et 5M) 98% sont non-natifs entre 40M et 100M de locuteurs
  8. 8. Services numériquesen swahili
  9. 9. Services numériquesen swahili
  10. 10. Services numériquesen swahili
  11. 11. Services numériquesen swahili
  12. 12. Services numériquesen swahili
  13. 13. Services numériques
  14. 14. Services numériques
  15. 15. Services numériques
  16. 16. Services numériques
  17. 17. Services numériques
  18. 18. Services numériquesMais pas encore
  19. 19. FamilleBantu333
  20. 20. Swahili et RAP Ressources Non tonale Morphologie riche Orthographe Classes nominales système d’accord verbes complexes
  21. 21. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage 2 J Sorties texte
  22. 22. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage Nécessite un corpus de texte J Sorties texte
  23. 23. Corpus texte (M mots) 28 12 5 2 Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus
  24. 24. Corpus texte (M mots) 28 Collecté depuis 16 sites de news 12 5 2 Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus
  25. 25. Morphologie Richeen swahili
  26. 26. Morphologie Richeen swahiliEnglish They will not tell you
  27. 27. Morphologie Richeen swahiliEnglish They will not tell youSwahili hawatakuambieni
  28. 28. Morphologie Richeen swahiliEnglish They will not tell youSwahili hawatakuambieniSegm. ha-wa-ta-ku-ambi-e-niGloss NEG-SM2-FUT-OM2-tell-FIN-PL
  29. 29. Morphologie Richeet RAP [Creutz et al., 2007]
  30. 30. Morphologie richeen RAP (Type OOV %) 19.17 OOV % élevé   12.46 10.28 Word-65k Word-200k Word-400k
  31. 31. Morphologie richeen RAP (Type OOV %) Afin d’obtenir une 19.17 couverture lexicale plus large, nous avons utilisé une 12.46 approche non- 10.28 supervisée (Morfessor) pour segmenter les mots en unités sub-lexicales   Word-65k Word-200k Word-400k
  32. 32. Morphologie richeen RAP (Type OOV %) 19.17 12.46 10.28 11.36 1.61 Word-65k Word-200k Word-400k Morf-65k Morf-200k
  33. 33. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage Nécessite la prononciation des unités J Sorties texte
  34. 34. Dictionnaire deprononciation65k unités les plus fréquentes+Un script Grapheme-to-phoneme tirantbénéfice de la regularité de l’orthographe swahili
  35. 35. Dictionnaire deprononciation65k unités les plus fréquentes+Un script Grapheme-to-phoneme tirantbénéfice de la regularité de l’orthographe swahili MAIS…Problèmes avec tout les mots anglais, nomspropres et acronymes !
  36. 36. Dictionnaire deprononciationPrès de 9% des unités dans lelexique de 65k mots apparaissentdans le dictionnaire anglais du CMU
  37. 37. Dictionnaire deprononciationMots dans dict. 65k   Mots dans dict. CMU  … …games g a m e s games G EY M Z… …
  38. 38. Dictionnaire deprononciationMots dans dict. 65k   Mots dans dict. CMU  … 1 … Mot identiquegames g a m e s games G EY M Z… …
  39. 39. Dictionnaire deprononciationMots dans dict. 65k   Mots dans dict. CMU  … 1 … Mot identiquegames g a m e s games G EY M Z… … 2 Conversion vers les phones du swahili
  40. 40. Dictionnaire deprononciationMots dans dict. 65k   Mots dans dict. CMU  … 1 … Mot identiquegames g a m e s games G EY M Zgames(2) g e y m z …… Ajout 3 comme variante 2 Conversion vers les phones du swahili
  41. 41. Ressources en RAP" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langageNécessite des données audioainsi que les transcriptionscorrespondantes J Sorties texte
  42. 42. Corpus AudioContrainte principale pour nous !Une tâche longue et coûteuse.
  43. 43. Corpus de parolelue (1ère solution)Transcriptions directement disponibles ettâche simple à préparer
  44. 44. Corpus de parolelue (1ère solution)Transcriptions directement disponibles ettâche simple à préparer MAIS…Données peu naturelles et nécessite tout demême de trouver des locuteurs
  45. 45. Corpus de parolelue (1ère solution)Transcriptions directement disponibles ettâche simple à préparer MAIS…Données peu naturelles et nécessite tout demême de trouver des locuteurs 3h30 collectées
  46. 46. Transcriptions viaCrowdsourcing(2èmesolution)Amazon’s Mechanical Turk:Plateforme de travail en ligne. Tâches disponiblesaux utilisateurs contre paiement.
  47. 47. Transcriptions viaCrowdsourcing(2èmesolution)Amazon’s Mechanical Turk:Plateforme de travail en ligne. Tâches disponiblesaux utilisateurs contre paiement.Qualité assez bonne Durée bien plus longuepour des modèles que pour l’anglaisacoustiques Problèmes éthiquesPossibilité de trouverdes transcripteurs
  48. 48. Transcriptions viaCrowdsourcing(2èmesolution)Amazon’s Mechanical Turk:Plateforme de travail en ligne. Tâches disponiblesaux utilisateurs contre paiement.Qualité assez bonne Durée bien plus longuepour des modèles que pour l’anglaisacoustiques Problèmes éthiquesPossibilité de trouverdes transcripteurs Seulement un test, 1h30 de parole lue transcrite
  49. 49. Transcriptioncollaborative (3ème solution)Corpus à transcrire : web broadcast news(disponible en ligne avec une qualité suffisante)Collaboration avec un institut kenyan :  
  50. 50. Transcriptioncollaborative (3ème solution) Un 1er model acoustique (MA) est appris à partir du corpus de parole lueMA 1er set
  51. 51. Transcriptioncollaborative (3ème solution) Préparation Set de 2h Un set de 2h est segmenté et filtréMA 1er set automatiquement
  52. 52. Transcriptioncollaborative (3ème solution) Préparation Set de 2h Set de 2hMA 1er set transcrit Le set de 2h est transcrit avec notre 1er MA
  53. 53. Transcriptioncollaborative (3ème solution) Préparation Set de 2h Set de 2hMA 1er set Le set de 2h est envoyé transcrit au Ta ji Institute pour correction Set de 2h corrigé
  54. 54. Transcriptioncollaborative (3ème solution) Préparation Set de 2h Après correction, les données sont Set de 2hMA 2ème set a joutées au corpus transcrit d’entrainement et un nouveau MA est appris Set de 2h corrigé
  55. 55. Transcriptioncollaborative (3ème solution) Préparation Set de 2h 12h sont ainsi Set de 2hMA 6ème set transcrit transcrites Set de 2h corrigé
  56. 56. Transcription collaborative 1er set 40 40 35Temps Time Spent (hours) 30(heures) 3ème set 5ème set 25 2ème set 25 4ème set 20 6ème set 15 15 60 60 65 70 70 75 80 85 85 Caractères corrects (%) Character Accuracy Rate (%)
  57. 57. Résultats (WER)" Dictionnaire Modèles r prononciation r Modèles acoustiques l l de langage 3 J Sorties texte
  58. 58. Asante! (Merci!) hadrien.gelas@univ-lyon2.fr laurent.besacier@imag.fr francois.pellegrino@univ-lyon2.fr
  59. 59. Taux de pénétrationd’Internet (%) 78.6 67.5 61.3 39.5 35.6 32.7 26.213.5Africa Asia World Middle East Latin Europe Oceania / North Average America / Australia America Caribbean
  60. 60. Internet – croissance de la population (%) 2988.4 2244.8 2000-2011 1205.1 789.6 528.1 376.4 214 152.6 Africa Asia World Middle East Latin Europe Oceania / North Average America / Australia America Caribbean
  61. 61. Ressources en ligne

×