Plateforme Web TTC: de la compilation de
      corpus à l’alignement bilingue

                                         Helena Blancafort (1)
             Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3),
             (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität
                                               Stuttgart
                                             TRALOGY II
                                        18 Janvier 2013, Paris

               The research leading to these results has received funding from the European Community's
               Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.
18/01/2013                                   Tralogy II                                          1
Projet TTC
                   Traduction, Terminologies et
                       Corpus Comparables
Objectifs :
1) compilation de terminologies bilingues à partir des corpus
   comparables pour la traduction automatique et assistée
3) Démonstrateur de toute la chaîne en ligne  atelier
   utilisateurs fin projet (Octobre 2012, Stuttgart)

• 7 langues: FR, EN, DE, ES, LV, RU, ZH
• 7 partenaires, Leader du projet : LINA - Université de
  Nantes

   18/01/2013                Tralogy II                    2
Chaîne TTC
 Compilation
  de Corpus




                              Extraction         T
                             Monolingue          E
               CORPORA            &              R
                         Alignement Bilingue     M
                                                 E
                                                 S




                                                  Outil de
                                                  Gestion
18/01/2013               Tralogy II            Terminologique   3
18/01/2013   Tralogy II   4
Chaîne TTC



                  Module 1
             Compilation de Corpus



18/01/2013            Tralogy II                5
1. Compilation de Corpus
                   Qu’est-ce qu’un crawler ?




         Outil pour récupérer de l’information du Web
           Crawler thématique: un domaine précis

18/01/2013                   Tralogy II                 6
Entrée et sortie
En entrée: 4-5 mots clés, termes du domaine recherchés

En sortie:
1) Fichiers textes, utf8, nettoyés
2) Fichiers originaux (pdf, doc, html)
3) Fichiers métadata




   18/01/2013                Tralogy II                  7
Retour utilisateur – Crawler
                       Utile pour la création de
                           terminologies ?
Avantages
 permet de collecter un grand volume de données rapidement
 un atout lors que le traducteur n’a pas de documents, terminologies
du domaine
 outil facil à prendre en main
Options avancées : plusieurs filtres
   Type de site: officiel (.gouv)
   Filtres : exclure wikipedia




   18/01/2013                    Tralogy II                       8
Retour utilisateur – Crawler
                            Utile pour la création de
                                 terminologies ?
Désavantages  liées au Web
•   surreprésentation de données commerciales ou peu scientifiques, degré de
    spécialisation faible
•   Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex:
    articles scientifiques).
• Corpus final composé de données très hétérogènes, difficile à évaluer
     • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL
• Dépendance des langues
     • Letton : moins de données sur le web
     • Russe : moins de crawl possible (blocage BING)
• Dépendance des moteurs de recherche : services payants
• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT
    18/01/2013                          Tralogy II                                  9
Chaîne TTC


                      Module 2
             Extraction Terminologique
                    Monolingue



18/01/2013              Tralogy II                10
Extraction Terminologique
                         Monolingue
• En entrée: corpus monolingue
   output Babouk
• En sortie
   format : tabulation (TSV), format terminologique
  standard (TBX), format compatible UIMA (XMI)
• Extraction de termes simples et complexes
• Innovation des outils TTC
  TTC Term Suite variation terminologique, détection des
     élements néoclassiques
  méthodes Knowledge-rich vs. knowledge-poor
  18/01/2013               Tralogy II                11
Retour utilisateurs
                      Extraction monolingue

Points forts
• Résultats propres et de qualité, bien présentés
• Utile pour découvrir la terminologie d’un corpus ou d’un
  nouveau domaine
Points discutables
• Avis partagé sur les formats: TBX vs. TSV.
• Avis partagé sur la lemmatisation vs. formes
• Avis partagés sur outil via plateforme ou installation.
• Variantes Terminologiques: moins d’intérêt qu’attendu
  (plutôt pour filtrer variantes non voulues selon client)
   18/01/2013               Tralogy II                   12
Demandes des utilisateurs
                    Extraction monolingue
• Focus sur les abréviations
• Fournir le terme en contexte : montrer plusieurs phrases,
  autrement difficile de juger la pertinence du terme par
  rapport à un domaine.
• Possibilité de fournir les patrons terminologiques
  • Disponible avec Term Suite (à installer)
  • Indisponible via la plateforme




   18/01/2013               Tralogy II                   13
Chaîne TTC



                  Module 3
             Alignement Bilingue



18/01/2013             Tralogy II   14
Alignement bilingue des
                        terminologies
Pour un terme, plusieurs candidats
Conditions: lexique bilingue, disponible pour certaines
  pairs de langues




18/01/2013                Tralogy II                      15
Retour Utilisateurs
                         Alignement Bilingue
Points forts
1) Outil très utile (pas d’autres disponibles)

Points abordés
1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)
2) Contexte: Montrer les termes en contexte, lien avec les
   phrases, autrement difficile d’évaluer une traduction.
3) Fonctions avancées: fonction par défaut suffit.


   18/01/2013                 Tralogy II                    16
Chaîne TTC




             Connexion avec
                 MyETB
             (EuroTermBank)
       Plateforme Terminologique
18/01/2013        Tralogy II                17
Editing TTC Output with MyETB

• Envoi des résultats terminologiques à la plateforme
• Possibilité de gérer différentes collections terminologiques
• Permet l’édition et gestion des terminologies TTC
   Validation des termes et informations correspondantes
   Suppresion des termes
   Édition (ajout d’informations)




   18/01/2013                Tralogy II                   18
Retour Utilisateurs
                              MyETB
Avantages
• Utile d’avoir une plateforme web collaborative pour éditer
  les résultats
• Gestion de plusieurs terminologies

Améliorations proposées
• Editer les résultats monolingues TTC et renvoyer à la
  plateforme pour alignement bilingue
• Export des résultats format tabulaire simple

   18/01/2013                Tralogy II                   19
Conclusions
                  Retour Plateforme Web TTC
Evaluation globale très positive
Points forts
1) Illustration de toute la chaîne sous 1 seule plateforme
2) Interface agréable, prise en main facile
3) Architecture modulaire et possibilité paramétrage des
   outils
   Différents profils, différents usages
Points délicats
1) Le web comme ressource pour le travail terminologique
   18/01/2013               Tralogy II                  20
Thank you!
               Merci!
              ¡Gracias!
               Gràcies
               Danke!
               Paldies
                谢谢
              спасибо
18/01/2013      Tralogy II   21

Tralogy 2013-ttc platform

  • 1.
    Plateforme Web TTC:de la compilation de corpus à l’alignement bilingue Helena Blancafort (1) Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3), (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität Stuttgart TRALOGY II 18 Janvier 2013, Paris The research leading to these results has received funding from the European Community's Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005. 18/01/2013 Tralogy II 1
  • 2.
    Projet TTC Traduction, Terminologies et Corpus Comparables Objectifs : 1) compilation de terminologies bilingues à partir des corpus comparables pour la traduction automatique et assistée 3) Démonstrateur de toute la chaîne en ligne  atelier utilisateurs fin projet (Octobre 2012, Stuttgart) • 7 langues: FR, EN, DE, ES, LV, RU, ZH • 7 partenaires, Leader du projet : LINA - Université de Nantes 18/01/2013 Tralogy II 2
  • 3.
    Chaîne TTC Compilation de Corpus Extraction T Monolingue E CORPORA & R Alignement Bilingue M E S Outil de Gestion 18/01/2013 Tralogy II Terminologique 3
  • 4.
    18/01/2013 Tralogy II 4
  • 5.
    Chaîne TTC Module 1 Compilation de Corpus 18/01/2013 Tralogy II 5
  • 6.
    1. Compilation deCorpus Qu’est-ce qu’un crawler ? Outil pour récupérer de l’information du Web Crawler thématique: un domaine précis 18/01/2013 Tralogy II 6
  • 7.
    Entrée et sortie Enentrée: 4-5 mots clés, termes du domaine recherchés En sortie: 1) Fichiers textes, utf8, nettoyés 2) Fichiers originaux (pdf, doc, html) 3) Fichiers métadata 18/01/2013 Tralogy II 7
  • 8.
    Retour utilisateur –Crawler Utile pour la création de terminologies ? Avantages  permet de collecter un grand volume de données rapidement  un atout lors que le traducteur n’a pas de documents, terminologies du domaine  outil facil à prendre en main Options avancées : plusieurs filtres Type de site: officiel (.gouv) Filtres : exclure wikipedia 18/01/2013 Tralogy II 8
  • 9.
    Retour utilisateur –Crawler Utile pour la création de terminologies ? Désavantages  liées au Web • surreprésentation de données commerciales ou peu scientifiques, degré de spécialisation faible • Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex: articles scientifiques). • Corpus final composé de données très hétérogènes, difficile à évaluer • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL • Dépendance des langues • Letton : moins de données sur le web • Russe : moins de crawl possible (blocage BING) • Dépendance des moteurs de recherche : services payants • Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT 18/01/2013 Tralogy II 9
  • 10.
    Chaîne TTC Module 2 Extraction Terminologique Monolingue 18/01/2013 Tralogy II 10
  • 11.
    Extraction Terminologique Monolingue • En entrée: corpus monolingue  output Babouk • En sortie  format : tabulation (TSV), format terminologique standard (TBX), format compatible UIMA (XMI) • Extraction de termes simples et complexes • Innovation des outils TTC TTC Term Suite variation terminologique, détection des élements néoclassiques méthodes Knowledge-rich vs. knowledge-poor 18/01/2013 Tralogy II 11
  • 12.
    Retour utilisateurs Extraction monolingue Points forts • Résultats propres et de qualité, bien présentés • Utile pour découvrir la terminologie d’un corpus ou d’un nouveau domaine Points discutables • Avis partagé sur les formats: TBX vs. TSV. • Avis partagé sur la lemmatisation vs. formes • Avis partagés sur outil via plateforme ou installation. • Variantes Terminologiques: moins d’intérêt qu’attendu (plutôt pour filtrer variantes non voulues selon client) 18/01/2013 Tralogy II 12
  • 13.
    Demandes des utilisateurs Extraction monolingue • Focus sur les abréviations • Fournir le terme en contexte : montrer plusieurs phrases, autrement difficile de juger la pertinence du terme par rapport à un domaine. • Possibilité de fournir les patrons terminologiques • Disponible avec Term Suite (à installer) • Indisponible via la plateforme 18/01/2013 Tralogy II 13
  • 14.
    Chaîne TTC Module 3 Alignement Bilingue 18/01/2013 Tralogy II 14
  • 15.
    Alignement bilingue des terminologies Pour un terme, plusieurs candidats Conditions: lexique bilingue, disponible pour certaines pairs de langues 18/01/2013 Tralogy II 15
  • 16.
    Retour Utilisateurs Alignement Bilingue Points forts 1) Outil très utile (pas d’autres disponibles) Points abordés 1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier) 2) Contexte: Montrer les termes en contexte, lien avec les phrases, autrement difficile d’évaluer une traduction. 3) Fonctions avancées: fonction par défaut suffit. 18/01/2013 Tralogy II 16
  • 17.
    Chaîne TTC Connexion avec MyETB (EuroTermBank) Plateforme Terminologique 18/01/2013 Tralogy II 17
  • 18.
    Editing TTC Outputwith MyETB • Envoi des résultats terminologiques à la plateforme • Possibilité de gérer différentes collections terminologiques • Permet l’édition et gestion des terminologies TTC  Validation des termes et informations correspondantes  Suppresion des termes  Édition (ajout d’informations) 18/01/2013 Tralogy II 18
  • 19.
    Retour Utilisateurs MyETB Avantages • Utile d’avoir une plateforme web collaborative pour éditer les résultats • Gestion de plusieurs terminologies Améliorations proposées • Editer les résultats monolingues TTC et renvoyer à la plateforme pour alignement bilingue • Export des résultats format tabulaire simple 18/01/2013 Tralogy II 19
  • 20.
    Conclusions Retour Plateforme Web TTC Evaluation globale très positive Points forts 1) Illustration de toute la chaîne sous 1 seule plateforme 2) Interface agréable, prise en main facile 3) Architecture modulaire et possibilité paramétrage des outils  Différents profils, différents usages Points délicats 1) Le web comme ressource pour le travail terminologique 18/01/2013 Tralogy II 20
  • 21.
    Thank you! Merci! ¡Gracias! Gràcies Danke! Paldies 谢谢 спасибо 18/01/2013 Tralogy II 21