Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et persp...
Prochain SlideShare
Chargement dans…5
×

Présentation de thèse Haithem AFLI

357 vues

Publié le

Résumé:

Les performances des systèmes de traduction automatique statistique
dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes.
Cependant, les textes parallèles librement disponibles sont aussi des
ressources rares~: la taille est souvent limitée, la couverture linguistique
insuffisante ou le domaine des textes n'est pas approprié. Il y a relativement
peu de paires de langues pour lesquelles des corpus parallèles de tailles
raisonnables sont disponibles pour certains domaines.
L'une des façons pour pallier au manque de données parallèles est d'exploiter les corpus
comparables qui sont plus abondants.

Les travaux précédents dans ce domaine n'ont été appliqués que pour la modalité texte.
La question que nous nous sommes posée durant cette thèse est de savoir
si un corpus comparable multimodal permet d’apporter des
solutions au manque de données parallèles dans le domaine de la traduction automatique.

Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes
modalités (texte ou parole) pour le développement d'un système de traduction automatique statistique.
Une première partie des contributions consiste à proposer une technique
pour l’extraction des données parallèles à partir d’un corpus comparable multimodal (audio et texte).
Les enregistrements sont transcrits avec un système de reconnaissance
automatique de la parole et traduits avec un système de traduction automatique.
Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche
d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte.

Dans la deuxième partie des contributions, nous visons l'amélioration de notre méthode
en exploitant les entités sous-phrastiques créant ainsi une extension à
notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de
filtrage. Enfin, nous présentons plusieurs manières d'aborder l'adaptation des
systèmes de traduction avec les données extraites.

Nos expériences ont été menées sur les données des sites web TED et Euronews
qui montrent la faisabilité de nos approches.

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
357
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
11
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Présentation de thèse Haithem AFLI

  1. 1. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives La traduction automatique statistique dans un contexte multimodal Th`ese pr´esent´ee par Haithem Afli dirig´ee par Lo¨ıc Barrault & Holger Schwenk 7 juillet 2014 1/ 51 Haithem Afli La TAS dans un contexte multimodal
  2. 2. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Le DEPART de la th`ese Projet DEPART Documents Ecrits et Paroles – Reconnaissance et Traduction Financ´e par la r´egion des Pays de la Loire Partenaires : LST/LIUM, TALN/LINA et IVC/IRCCyN Objectifs : La r´esolution de probl`emes scientifiques et technologiques mettant en jeu des donn´ees multimodales et multilingues 2/ 51 Haithem Afli La TAS dans un contexte multimodal
  3. 3. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Axes de recherches Axe1 Collection multim´edia multilingue Axe 2 Analyse conjointe et traduction Axe 3 Adaptation des m´ethodes et donn´ees aux diff´erents types de documents multim´edia 3/ 51 Haithem Afli La TAS dans un contexte multimodal
  4. 4. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Axes de recherches Axe1 Collection multim´edia multilingue Axe 2 Analyse conjointe et traduction Notre tˆache : traduction de documents multimodaux Axe 3 Adaptation des m´ethodes et donn´ees aux diff´erents types de documents multim´edia 3/ 51 Haithem Afli La TAS dans un contexte multimodal
  5. 5. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles 5 Conclusion et perspectives 4/ 51 Haithem Afli La TAS dans un contexte multimodal
  6. 6. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  7. 7. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  8. 8. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  9. 9. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t Mod´elisation Mod`ele de Langue : P(t) → estim´e `a l’aide de textes monolingues en langue cible 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  10. 10. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t Mod´elisation Mod`ele de Langue : P(t) → estim´e `a l’aide de textes monolingues en langue cible Mod`ele de Traduction : P(s|t) → estim´e `a l’aide de textes bilingues 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  11. 11. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t Mod´elisation Mod`ele de Langue : P(t) → estim´e `a l’aide de textes monolingues en langue cible Mod`ele de Traduction : P(s|t) → estim´e `a l’aide de textes bilingues Des outils tels que Moses et Joshua sont disponibles ⇒ Besoin de donn´ees parall`eles 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  12. 12. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Corpus parall`ele : bitexte Textes qui sont des traductions l’un de l’autre Ressource essentielle pour la TAS Donn´ees d’entraˆınement pour les mod`eles de traduction statistiques Disponible en quantit´e limit´ee langues domaines sp´ecifiques Coˆuteux et long `a construire Traduction des phrases ... ⇒ Besoin d’autres solutions et sources Pierre de Rosette 6/ 51 Haithem Afli La TAS dans un contexte multimodal
  13. 13. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Exploitation des corpus comparables Pas parall`eles au sens strict Contiennent les mˆemes informations Disponibles en grande quantit´e et en de nombreuses langues Principalement `a partir de sources journalistiques (newswire) AFP, Al JAZEERA, BBC ... Projets r´ecents : ACCURAT.. 7/ 51 Haithem Afli La TAS dans un contexte multimodal
  14. 14. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Donn´ees de modalit´es diff´erentes www.coursera.org/ amara.org/ 8/ 51 Haithem Afli La TAS dans un contexte multimodal
  15. 15. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Objectif : exploiter des corpus comparables multimodaux Extraction des données parallèles Textes parallèles Audio (L1) Textes (L2) 9/ 51 Haithem Afli La TAS dans un contexte multimodal
  16. 16. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable D´efinition. Un corpus multimodal comparable est une collection de donn´ees de diff´erentes modalit´es qui contiennent les mˆemes informations, mais ne sont pas des traductions exactes les unes des autres. 10/ 51 Haithem Afli La TAS dans un contexte multimodal
  17. 17. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Probl´ematiques Faisabilit´e Les corpus comparables multimodaux sont-ils utilisables pour extraire du texte parall`ele ? 11/ 51 Haithem Afli La TAS dans un contexte multimodal
  18. 18. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Probl´ematiques Faisabilit´e Les corpus comparables multimodaux sont-ils utilisables pour extraire du texte parall`ele ? Qualit´e Est-il possible d’am´eliorer un syst`eme de traduction avec les donn´ees extraites ? 11/ 51 Haithem Afli La TAS dans un contexte multimodal
  19. 19. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Probl´ematiques Faisabilit´e Les corpus comparables multimodaux sont-ils utilisables pour extraire du texte parall`ele ? Qualit´e Est-il possible d’am´eliorer un syst`eme de traduction avec les donn´ees extraites ? Efficacit´e Comment tirer parti au mieux des donn´ees disponibles ? ⇒ Besoin de construction de corpus multimodal (cas d’´etude) 11/ 51 Haithem Afli La TAS dans un contexte multimodal
  20. 20. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus TED-LIUM TED : expos´es scientifiques oraux en anglais disponibles avec leurs traductions en plusieurs langues, dont le fran¸cais Traduction Audio (en) Texte (fr) 12/ 51 Haithem Afli La TAS dans un contexte multimodal
  21. 21. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus TED-LIUM Tˆache : exploiter des donn´ees de IWSLT’11 → d´etaill´ee dans [Rousseau et al., 2011] → traduire des discours de TED de l’anglais vers le fran¸cais utiliser la partie audio en anglais (TEDasr) enrichir avec des textes parall`eles (TEDbi) Donn´ees # mots TEDasr 1.8M TEDbi 1.9M 13/ 51 Haithem Afli La TAS dans un contexte multimodal
  22. 22. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus bimodal Euronews Audio comparable Textes comparables Transcription Transcription Extraction des donn´ees sur la p´eriode 2010 `a 2012 14/ 51 Haithem Afli La TAS dans un contexte multimodal
  23. 23. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Construction Premi`ere phase : 1 t´el´echargement de la liste des articles → en deux langues (fran¸cais/anglais) 2 conservation de l’intersection → la liste des articles qui ont des correspondances comparables Deuxi`eme phase : 1 rep´erage du nom et du domaine de la vid´eo 2 r´ecup´eration des vid´eos et des textes qui correspondent 3 extraction du flux audio de la vid´eo → conversion dans le format utilis´e pour le syst`eme RAP 15/ 51 Haithem Afli La TAS dans un contexte multimodal
  24. 24. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus Euronews-LIUM Nombre de mots et de phrases de la transcription automatique de la partie audio anglais # mots # phrases 2.2 M 76 K Quantit´e en termes de mots de la partie texte anglais/fran¸cais # mots Fr # mots En 6.2 M 6.1 M Plusieurs domaines : ´economie, sport, culture, Europe, style de vie, politique et sciences. 16/ 51 Haithem Afli La TAS dans un contexte multimodal
  25. 25. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Plan 1 Introduction 2 Travaux pr´ec´edents Principales m´ethodes existantes La m´ethode de traduction automatique 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles 5 Conclusion et perspectives 17/ 51 Haithem Afli La TAS dans un contexte multimodal
  26. 26. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  27. 27. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. Alignement : utilisation de mod`eles d’alignement de mots pour estimer la proximit´e de deux documents (ou phrases) en langue source et cible [Brown et al., 1991]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  28. 28. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. Alignement : utilisation de mod`eles d’alignement de mots pour estimer la proximit´e de deux documents (ou phrases) en langue source et cible [Brown et al., 1991]. RI crosslingue : utilisation d’un lexique pour traduire les mots source et utilisation de m´ethodes de RI [Munteanu and Marcu, 2005]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  29. 29. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. Alignement : utilisation de mod`eles d’alignement de mots pour estimer la proximit´e de deux documents (ou phrases) en langue source et cible [Brown et al., 1991]. RI crosslingue : utilisation d’un lexique pour traduire les mots source et utilisation de m´ethodes de RI [Munteanu and Marcu, 2005]. Traduction automatique : utilisation d’un syst`eme de TAS pour traduire les documents et utilisation de m´ethodes de RI [AbduI-Rauf and Schwenk, 2009]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  30. 30. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Corpus comparable (textes) ---------- ---------- ---------- ---------- TAS ---------- ---------- ---------- ---------- ---------- ---------- ........ ............... -- - -- - -- - -- - -- - -- - -------- --------- -------- ------------- -------- ------------- -------- --------- articles d'actualités datés articles de Gigaword (+- 5 jours) phrases candidates ---- ---- ---- ---- ---- ---- ---- ---- -- - -- - -- - -- - tail removal Filtrage (TER,WER,TER+) phrases parallèles Traduction Abdul-Rauf et Schwenk, 2009 lexique ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- Classifieur ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ........ Phrases candidates Phrases parallèlesPaires d'articles Corpus comparable Sélection d'articles sélection de phrases candidates sélection de phrases parallèles Corpus parallèle Munteanu et Marcu, 2005 19/ 51 Haithem Afli La TAS dans un contexte multimodal
  31. 31. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee 4 Extraction de segments parall`eles 5 Conclusion et perspectives 20/ 51 Haithem Afli La TAS dans un contexte multimodal
  32. 32. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  33. 33. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  34. 34. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions 3 Utiliser les traductions comme requˆetes de RI Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  35. 35. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions 3 Utiliser les traductions comme requˆetes de RI 4 Utiliser le TER entre la requˆete et le r´esultat de RI comme m´etrique de filtrage Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  36. 36. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions 3 Utiliser les traductions comme requˆetes de RI 4 Utiliser le TER entre la requˆete et le r´esultat de RI comme m´etrique de filtrage 5 G´en´erer le bitexte Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  37. 37. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (1) : faisabilit´e Analyse de l’impact des erreurs commises par les diff´erents modules Exp 1 : le syst`eme de RAP et de TAS ne commettent aucune erreur. Exp 1 Réf. de trad. Fr Texte Fr RI Données génériques +% Réf. fr 22/ 51 Haithem Afli La TAS dans un contexte multimodal
  38. 38. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (1) : faisabilit´e Analyse de l’impact des erreurs commises par les diff´erents modules Exp 1 : le syst`eme de RAP et de TAS ne commettent aucune erreur. Exp 2 : erreurs du syst`eme de traduction. Exp 1 Exp 2 Réf. de trans. En Trad. auto. Fr Texte Fr TAS RI Réf. de trad. Fr Texte Fr RI Données génériques +% Réf. fr 22/ 51 Haithem Afli La TAS dans un contexte multimodal
  39. 39. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (1) : faisabilit´e Analyse de l’impact des erreurs commises par les diff´erents modules Exp 1 : le syst`eme de RAP et de TAS ne commettent aucune erreur. Exp 2 : erreurs du syst`eme de traduction. Exp 3 : cas r´eel, enchaˆınement de tous les modules automatiques TED audio Trans. auto. En Trad. auto. Fr Texte Fr RAP TAS RI Exp 1 Exp 2 Exp 3 Réf. de trans. En Trad. auto. Fr Texte Fr TAS RI Réf. de trad. Fr Texte Fr RI Données génériques +% Réf. fr 22/ 51 Haithem Afli La TAS dans un contexte multimodal
  40. 40. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (2) Analyse de l’importance du degr´e de similarit´e 23/ 51 Haithem Afli La TAS dans un contexte multimodal
  41. 41. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (2) Analyse de l’importance du degr´e de similarit´e → construction artificielle de 4 corpus comparables avec diff´erents degr´es de similarit´e le cˆot´e source est toujours le mˆeme la partie cible est compos´ee d’un grand corpus g´en´erique auquel est ajout´e 25%, 50%, 75% et 100% des traductions de r´ef´erence 23/ 51 Haithem Afli La TAS dans un contexte multimodal
  42. 42. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Donn´ees ´Evaluation de l’approche les donn´ees extraites sont r´einject´ees dans le syst`eme de base les syst`emes sont ´evalu´es automatiquement avec BLEU Entraˆınement bitextes # mots g´en´eriques nc7 3.7M oui eparl7 56.4M oui Corpus de d´eveloppement et de test Dev # mots devTED.en 36k devEuronews 74k Test # mots tstTED.en 8.7k tstEuronews 61k 24/ 51 Haithem Afli La TAS dans un contexte multimodal
  43. 43. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exp´erimentation : modules RAP : syst`eme 5-passes fond´e sur CMU Sphinx WER d’environ 18% TAS : syst`eme `a base de segment utilisant Moses entraˆın´e sur les donn´ees g´en´eriques RI : utilisation de l’outil Lemur indexation de toutes les donn´ees cibles (en fran¸cais) 25/ 51 Haithem Afli La TAS dans un contexte multimodal
  44. 44. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  45. 45. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un supercomputer parce qu’ils savent comment prendre .. 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  46. 46. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un supercomputer parce qu’ils savent comment prendre .. Phrase trouv´ee (sortie RI) : ... vous prenez un superordinateur car ils savent comment concentrer ... 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  47. 47. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... Phrase trouv´ee (sortie RI) : ... vous prenez un superordinateur car ils savent comment concentrer ... 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  48. 48. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : am´elioration Test audio Sortie ASR a supercomputer has calculated that humans and only ... R´ef´erence a supercomputer has calculated that humans have only ... Traductions de la sortie ASR Syst`eme de base un supercomputer a calcul´e que les humains et seulement ... Syst`eme adapt´e un superordinateur a calcul´e que les humains et seulement ... R´ef´erence un superordinateur a calcul´e que les humains n’avaient plus que ... 27/ 51 Haithem Afli La TAS dans un contexte multimodal
  49. 49. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : filtrage 22.5 23 23.5 24 24.5 0 20 40 60 80 100 scoreBLEU TER threshold Exp1 Exp2 Exp3 22 22.5 23 23.5 24 24.5 25 25.5 26 0 20 40 60 80 100 scoreBLEU seuil TER Exp1 Exp2 Exp3 Donn´ees g´en´eriques + 25% TEDbi Donn´ees g´en´eriques + 100% TEDbi 28/ 51 Haithem Afli La TAS dans un contexte multimodal
  50. 50. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : filtrage le choix du seuil de TER ad´equat d´epend de la nature des donn´ees le meilleur seuil pour les donn´ees TED est dans l’intervalle [80-90] → le seuil de 80 est retenu pour le filtrage des r´esultats ⇒ ce choix est confirm´e par les r´esultats obtenus sur TestTED 29/ 51 Haithem Afli La TAS dans un contexte multimodal
  51. 51. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  52. 52. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 les phrases extraites permettent d’am´eliorer le syst`eme de TAS → faisabilit´e 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  53. 53. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 les phrases extraites permettent d’am´eliorer le syst`eme de TAS → faisabilit´e moins d’impacts des erreurs de TAS → plus en RAP 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  54. 54. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 les phrases extraites permettent d’am´eliorer le syst`eme de TAS → faisabilit´e moins d’impacts des erreurs de TAS → plus en RAP 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  55. 55. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : degr´e de comparabilit´e Scores BLEU pour diff´erents degr´es de comparabilit´e Exp´erience DevTED TstTED # mots inject´es Syst`eme de base 22.93 23.96 - 25% TEDbi 23.11 24.40 ∼110k 50% TEDbi 23.27 24.58 ∼215k 75% TEDbi 23.43 24.42 ∼293k 100% TEDbi 23.40 24.69 ∼393k TEDbi 1.9 M 31/ 51 Haithem Afli La TAS dans un contexte multimodal
  56. 56. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : degr´e de comparabilit´e Scores BLEU pour diff´erents degr´es de comparabilit´e Exp´erience DevTED TstTED # mots inject´es Syst`eme de base 22.93 23.96 - 25% TEDbi 23.11 24.40 ∼110k 50% TEDbi 23.27 24.58 ∼215k 75% TEDbi 23.43 24.42 ∼293k 100% TEDbi 23.40 24.69 ∼393k TEDbi 1.9 M meilleurs r´esultats avec 75% et 100% les modules de RI et filtrage sont tr`es importants 31/ 51 Haithem Afli La TAS dans un contexte multimodal
  57. 57. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : degr´e de comparabilit´e Scores BLEU pour diff´erents degr´es de comparabilit´e Exp´erience DevTED TstTED # mots inject´es Syst`eme de base 22.93 23.96 - 25% TEDbi 23.11 24.40 ∼110k 50% TEDbi 23.27 24.58 ∼215k 75% TEDbi 23.43 24.42 ∼293k 100% TEDbi 23.40 24.69 ∼393k TEDbi 1.9 M meilleurs r´esultats avec 75% et 100% les modules de RI et filtrage sont tr`es importants quantit´es faibles 31/ 51 Haithem Afli La TAS dans un contexte multimodal
  58. 58. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Discussion Constat Les phrases parall`eles extraites am´eliorent les syst`emes de traduction mais la quantit´e est faible → Comment optimiser l’exploitation des corpus pour extraire davantage de donn´ees parall`eles ? Types d’erreurs Les phrases les plus longues ont un TER ´elev´e ⇒ exclues par le filtrage mˆeme si elles contiennent de bonnes traductions 32/ 51 Haithem Afli La TAS dans un contexte multimodal
  59. 59. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Approche l´eg`erement supervis´ee (unsup) Objectif : compl´eter les r´esultats de la RI En Fr TAS En-Fr En Fr 2 1 En Fr Filtrage de données 33/ 51 Haithem Afli La TAS dans un contexte multimodal
  60. 60. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Approche l´eg`erement supervis´ee (unsup) Objectif : compl´eter les r´esultats de la RI En Fr TAS En-Fr En Fr 2 1 En Fr Filtrage de données 2 ´etapes [Schwenk, 2009] : traduction des donn´ees monolingues (anglais) avec le syst`eme de base filtrage des r´esultats pour ´eliminer les paires de phrases non d´esir´ees 33/ 51 Haithem Afli La TAS dans un contexte multimodal
  61. 61. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee RI & unsup : r´esultats 22.5 23 23.5 24 24.5 70 75 80 85 90 95 100 ScoreBLEU Seuil TER RI + Unsup Baseline RI pas d’am´elioration significative ⇒ Chercher d’autres solutions pour augmenter la couverture 34/ 51 Haithem Afli La TAS dans un contexte multimodal
  62. 62. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Segments parall`eles 35/ 51 Haithem Afli La TAS dans un contexte multimodal
  63. 63. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex 5 Conclusion et perspectives 36/ 51 Haithem Afli La TAS dans un contexte multimodal
  64. 64. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Extraction des segments parall`eles L’approche associative : reposer sur des mesures comme l’information mutuelle ou le rapport de vraisemblance [Munteanu and Marcu, 2006] [Hewavitharana and Vogel, 2011] L’alignement : d´eterminer le meilleur ensemble de liens d’alignement entre des groupes de mots sources et cibles de chaque paire de phrases ou documents [Quirk et al., 2007] [Riesa and Marcu, 2012]. 37/ 51 Haithem Afli La TAS dans un contexte multimodal
  65. 65. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex M´ethode propos´ee [Afli et al., 2013] 1 g´en´erer tous les segments possibles → segments de 2 `a 10 mots la sortie du syst`eme RAP Audio L1 Phrases L1 Traductions L2 Segments L2 RAP TAS RI Textes L2 Corpus Comparable multimodal Données Parallèles Filtrage Segments L1 Découpage Segments L2 Découpage 38/ 51 Haithem Afli La TAS dans un contexte multimodal
  66. 66. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex M´ethode propos´ee [Afli et al., 2013] 1 g´en´erer tous les segments possibles → segments de 2 `a 10 mots la sortie du syst`eme RAP le corpus texte de RI Audio L1 Phrases L1 Traductions L2 Segments L2 RAP TAS RI Textes L2 Corpus Comparable multimodal Données Parallèles Filtrage Segments L1 Découpage Segments L2 Découpage 38/ 51 Haithem Afli La TAS dans un contexte multimodal
  67. 67. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex M´ethode propos´ee [Afli et al., 2013] 1 g´en´erer tous les segments possibles → segments de 2 `a 10 mots la sortie du syst`eme RAP le corpus texte de RI 2 appliquer la mˆeme m´ethode d’extraction utilis´ee dans SentExtract ⇒ aligner les segments parall`eles Audio L1 Phrases L1 Traductions L2 Segments L2 RAP TAS RI Textes L2 Corpus Comparable multimodal Données Parallèles Filtrage Segments L1 Découpage Segments L2 Découpage 38/ 51 Haithem Afli La TAS dans un contexte multimodal
  68. 68. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex PhrExtract vs SentExtract, donn´ees TED TER SentExtract PhrExtract 0 22.86 23.39 10 22.97 23.35 20 23.06 23.53 30 22.95 23.39 40 22.92 23.45 50 23.26 23.54 60 23.10 23.70 70 23.29 23.41 80 23.40 23.40 90 23.39 23.18 100 23.34 23.26 Baseline 22.93 39/ 51 Haithem Afli La TAS dans un contexte multimodal
  69. 69. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex PhrExtract vs SentExtract, donn´ees TED TER SentExtract PhrExtract 0 22.86 23.39 10 22.97 23.35 20 23.06 23.53 30 22.95 23.39 40 22.92 23.45 50 23.26 23.54 60 23.10 23.70 70 23.29 23.41 80 23.40 23.40 90 23.39 23.18 100 23.34 23.26 Baseline 22.93 39/ 51 Haithem Afli La TAS dans un contexte multimodal
  70. 70. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex PhrExtract vs SentExtract, donn´ees TED TER SentExtract PhrExtract 0 22.86 23.39 10 22.97 23.35 20 23.06 23.53 30 22.95 23.39 40 22.92 23.45 50 23.26 23.54 60 23.10 23.70 70 23.29 23.41 80 23.40 23.40 90 23.39 23.18 100 23.34 23.26 Baseline 22.93 39/ 51 Haithem Afli La TAS dans un contexte multimodal
  71. 71. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Application sur les donn´ees Euronews TER # mots (fr) devEuronews tstEuronews 0 90 k 29.95 27.13 20 168 k 30.01 27.33 30 322 k 30.04 27.59 40 769 k 29.92 27.45 50 1.9 M 30.03 27.27 60 3.1M 29.92 27.30 70 5.7M 29.83 27.11 80 12.39 M 29.73 27.10 90 25.7 M 29.73 26.88 100 40.3 M 29.52 26.53 Baseline 60.1M 25.19 22.12 40/ 51 Haithem Afli La TAS dans un contexte multimodal
  72. 72. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Application sur les donn´ees Euronews TER # mots (fr) devEuronews tstEuronews 0 90 k 29.95 27.13 20 168 k 30.01 27.33 30 322 k 30.04 27.59 40 769 k 29.92 27.45 50 1.9 M 30.03 27.27 60 3.1M 29.92 27.30 70 5.7M 29.83 27.11 80 12.39 M 29.73 27.10 90 25.7 M 29.73 26.88 100 40.3 M 29.52 26.53 Baseline 60.1M 25.19 22.12 40/ 51 Haithem Afli La TAS dans un contexte multimodal
  73. 73. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Discussion Am´elioration des r´esultats redondance Approche actuelle de filtrage : seuil de TER entre traduction et r´esultat de RI ´Ecueils : approche empirique pour d´eterminer le seuil statique 41/ 51 Haithem Afli La TAS dans un contexte multimodal
  74. 74. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Discussion Am´elioration des r´esultats redondance Approche actuelle de filtrage : seuil de TER entre traduction et r´esultat de RI ´Ecueils : approche empirique pour d´eterminer le seuil statique ⇒ Utilisation de la m´ethode LLR (Log Likelihood Ratio) [Munteanu and Marcu, 2006] 41/ 51 Haithem Afli La TAS dans un contexte multimodal
  75. 75. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Filtrage avec LLR LLR : le rapport de vraisemblance l’ind´ependance des paires de mots qui co-occurent LLR faible → mots ind´ependants LLR augmente → mots associ´es [Munteanu and Marcu, 2006] 42/ 51 Haithem Afli La TAS dans un contexte multimodal
  76. 76. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex SenExtract +LLR lex : architecture [Afli et al., 2014] 1 utiliser le syst`eme d’extraction des phrases, consid´er´ees quasi parall`eles Audio L1 Phrases L1 Traductions L2 Phrases L2 RAP TAS Texts L2 Corpus Comparable multimodal Phrases Quasi- Parallèles RI Corpus parallèle de base Lexique LLR Génération des Segments Lex. Extraction Apprentissage Segments parallèles 43/ 51 Haithem Afli La TAS dans un contexte multimodal
  77. 77. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex SenExtract +LLR lex : architecture [Afli et al., 2014] 1 utiliser le syst`eme d’extraction des phrases, consid´er´ees quasi parall`eles 2 construire le lexique LLR lex `a partir des donn´ees d’apprentissage du TAS Audio L1 Phrases L1 Traductions L2 Phrases L2 RAP TAS Texts L2 Corpus Comparable multimodal Phrases Quasi- Parallèles RI Corpus parallèle de base Lexique LLR Génération des Segments Lex. Extraction Apprentissage Segments parallèles 43/ 51 Haithem Afli La TAS dans un contexte multimodal
  78. 78. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex SenExtract +LLR lex : architecture [Afli et al., 2014] 1 utiliser le syst`eme d’extraction des phrases, consid´er´ees quasi parall`eles 2 construire le lexique LLR lex `a partir des donn´ees d’apprentissage du TAS 3 d´etecter, `a l’aide du lexique, les fragments parall`eles dans les phrases g´en´er´ees Audio L1 Phrases L1 Traductions L2 Phrases L2 RAP TAS Texts L2 Corpus Comparable multimodal Phrases Quasi- Parallèles RI Corpus parallèle de base Lexique LLR Génération des Segments Lex. Extraction Apprentissage Segments parallèles 43/ 51 Haithem Afli La TAS dans un contexte multimodal
  79. 79. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees TED Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 60) 321 k 322 k SenExtract +LLR lex 236 k 224 k Scores BLEU Syst`emes devTED tstTED Baseline 22.93 23.96 PhrExtract (TER 60) 23.70 24.84 SenExtract +LLR lex 23.63 24.88 44/ 51 Haithem Afli La TAS dans un contexte multimodal
  80. 80. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees TED Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 60) 321 k 322 k SenExtract +LLR lex 236 k 224 k Scores BLEU Syst`emes devTED tstTED Baseline 22.93 23.96 PhrExtract (TER 60) 23.70 24.84 SenExtract +LLR lex 23.63 24.88 44/ 51 Haithem Afli La TAS dans un contexte multimodal
  81. 81. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees Euronews Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 30) 16.6 M 13.8 M SenExtract +LLR lex 1.6 M 2.2 M Scores BLEU Syst`emes devEuronews tstEuronews Baseline 25.19 22.12 PhrExtract (TER 30) 30.04 27.59 SenExtract +LLR lex 30.00 27.47 45/ 51 Haithem Afli La TAS dans un contexte multimodal
  82. 82. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees Euronews Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 30) 16.6 M 13.8 M SenExtract +LLR lex 1.6 M 2.2 M Scores BLEU Syst`emes devEuronews tstEuronews Baseline 25.19 22.12 PhrExtract (TER 30) 30.04 27.59 SenExtract +LLR lex 30.00 27.47 45/ 51 Haithem Afli La TAS dans un contexte multimodal
  83. 83. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Discussion M´ethode plus efficace r´esultats similaires au meilleur seuil TER moins de quantit´e de donn´ees : plus de pr´ecision dans la s´election des donn´ees pertinentes Besoin de plus d’am´eliorations optimiser l’exploitation des corpus 46/ 51 Haithem Afli La TAS dans un contexte multimodal
  84. 84. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles 5 Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives 47/ 51 Haithem Afli La TAS dans un contexte multimodal
  85. 85. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Conclusion Construction du corpus bimodal Euronews LIUM Extraction des donn´ees sur la p´eriode 2010 `a 2012 Mettre `a disposition `a la communaut´e → corpus et bitextes extraits Mise `a jour du corpus TED LIUM partie texte en fran¸cais correspond `a TEDbi Mettre `a disposition `a la communaut´e → corpus brut et bitextes extraits 48/ 51 Haithem Afli La TAS dans un contexte multimodal
  86. 86. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Conclusion Extension de l’utilisation de corpus comparables `a des donn´ees multimodales, i.e. audio cˆot´e source et texte cˆot´e cible D´eveloppement des syst`emes d’acquisition des donn´ees comparables multimodales et d’extraction de textes parall`eles → totalement automatique Extension de la m´ethode pour extraire des segments parall`eles Am´elioration du module de filtrage de nos syst`emes : du filtrage TER vers le filtrage LLR M´ethodes valid´ees sur diff´erents corpus et tˆaches (TED et Euronews) adaptation d’un syst`eme g´en´erique am´elioration d’un syst`eme du domaine 49/ 51 Haithem Afli La TAS dans un contexte multimodal
  87. 87. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Perspectives Ce travail ouvre la voie `a l’exploitation des donn´ees multimodales pour la TA Am´elioration de la m´ethode PhrExtract en changeant la segmentation des phrases groupes syntaxiques connaissances linguistiques l’alignement en groupe de mots du syst`eme de TAS Am´elioration de la m´ethode SentExtract en essayant d’autres techniques de filtrage Utilisation de la m´ethode Unsup avec les phrases courtes Application des m´ethodes d’extraction sur d’autres domaines de sp´ecialit´e 50/ 51 Haithem Afli La TAS dans un contexte multimodal
  88. 88. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Merci pour votre attention. Universitédu Maine U 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  89. 89. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives AbduI-Rauf, S. and Schwenk, H. (2009). On the use of comparable corpora to improve smt performance. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 16–23, Stroudsburg, PA, USA. Association for Computational Linguistics. Afli, H., Barrault, L., and Schwenk, H. (2012). Parallel texts extraction from multimodal comparable corpora. In JapTAL, volume 7614 of Lecture Notes in Computer Science, pages 40–51. Springer. Afli, H., Barrault, L., and Schwenk, H. (2013). Multimodal comparable corpora as resources for extracting parallel data : Parallel phrases extraction. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  90. 90. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives International Joint Conference on Natural Language Processing. Afli, H., Barrault, L., and Schwenk, H. (2014). Multimodal comparable corpora for machine translation. LREC 2014, 7th Workshop on Building and Using Comparable Corpora, Building Resources for Machine Translation Research. Bisazza, A., Ruiz, N., and Federico, M. (2011). Fill-up versus interpolation methods for phrase-based smt adaptation. International Workshop on Spoken Language Translation 2011. Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S. (1990). A statistical approach to machine translation. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  91. 91. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Comput. Linguist., 16 :79–85. Brown, P. F., Lai, J. C., and Mercer, R. L. (1991). Aligning sentences in parallel corpora. In Proceedings of the 29th annual meeting on Association for Computational Linguistics, ACL ’91, pages 169–176. Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Comput. Linguist., 19(1) :61–74. Hewavitharana, S. and Vogel, S. (2011). Extracting parallel phrases from comparable data. In Proceedings of the 4th Workshop on Building and Using Comparable Corpora : Comparable Corpora and the Web, BUCC ’11, pages 61–68. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  92. 92. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Munteanu, D. S. and Marcu, D. (2005). Improving Machine Translation Performance by Exploiting Non-Parallel Corpora. Computational Linguistics, 31(4) :477–504. Munteanu, D. S. and Marcu, D. (2006). Extracting parallel sub-sentential fragments from non-parallel corpora. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, ACL-44, pages 81–88. Quirk, Q., Udupa, R., and Menezes, A. (2007). Generative models of noisy translations with applications to parallel fragment extraction. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  93. 93. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives In In Proceedings of MT Summit XI, European Association for Machine Translation. Resnik, P. and Smith, N. A. (2003). The web as a parallel corpus. Comput. Linguist., 29 :349–380. Riesa, J. and Marcu, D. (2012). Automatic parallel fragment extraction from noisy data. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, NAACL HLT ’12, pages 538–542. Rousseau, A., Bougares, F., Del´eglise, P., Schwenk, H., and Est`eve, Y. (2011). LIUM’s systems for the IWSLT 2011 speech translation tasks. International Workshop on Spoken Language Translation 2011. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  94. 94. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Schwenk, H. (2009). Translation model adaptation for an arabic/french news translation system by lightly-supervised training. MT Summit. 51/ 51 Haithem Afli La TAS dans un contexte multimodal

×