Plateforme Web TTC: de la compilation de      corpus à l’alignement bilingue                                         Helen...
Projet TTC                   Traduction, Terminologies et                       Corpus ComparablesObjectifs :1) compilatio...
Chaîne TTC Compilation  de Corpus                              Extraction         T                             Monolingue...
18/01/2013   Tralogy II   4
Chaîne TTC                  Module 1             Compilation de Corpus18/01/2013            Tralogy II                5
1. Compilation de Corpus                   Qu’est-ce qu’un crawler ?         Outil pour récupérer de l’information du Web ...
Entrée et sortieEn entrée: 4-5 mots clés, termes du domaine recherchésEn sortie:1) Fichiers textes, utf8, nettoyés2) Fichi...
Retour utilisateur – Crawler                       Utile pour la création de                           terminologies ?Avan...
Retour utilisateur – Crawler                            Utile pour la création de                                 terminol...
Chaîne TTC                      Module 2             Extraction Terminologique                    Monolingue18/01/2013    ...
Extraction Terminologique                         Monolingue• En entrée: corpus monolingue   output Babouk• En sortie   ...
Retour utilisateurs                      Extraction monolinguePoints forts• Résultats propres et de qualité, bien présenté...
Demandes des utilisateurs                    Extraction monolingue• Focus sur les abréviations• Fournir le terme en contex...
Chaîne TTC                  Module 3             Alignement Bilingue18/01/2013             Tralogy II   14
Alignement bilingue des                        terminologiesPour un terme, plusieurs candidatsConditions: lexique bilingue...
Retour Utilisateurs                         Alignement BilinguePoints forts1) Outil très utile (pas d’autres disponibles)P...
Chaîne TTC             Connexion avec                 MyETB             (EuroTermBank)       Plateforme Terminologique18/0...
Editing TTC Output with MyETB• Envoi des résultats terminologiques à la plateforme• Possibilité de gérer différentes colle...
Retour Utilisateurs                              MyETBAvantages• Utile d’avoir une plateforme web collaborative pour édite...
Conclusions                  Retour Plateforme Web TTCEvaluation globale très positivePoints forts1) Illustration de toute...
Thank you!               Merci!              ¡Gracias!               Gràcies               Danke!               Paldies   ...
Prochain SlideShare
Chargement dans…5
×

Tralogy 2013-ttc platform

369 vues

Publié le

présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
369
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Tralogy 2013-ttc platform

  1. 1. Plateforme Web TTC: de la compilation de corpus à l’alignement bilingue Helena Blancafort (1) Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3), (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität Stuttgart TRALOGY II 18 Janvier 2013, Paris The research leading to these results has received funding from the European Communitys Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.18/01/2013 Tralogy II 1
  2. 2. Projet TTC Traduction, Terminologies et Corpus ComparablesObjectifs :1) compilation de terminologies bilingues à partir des corpus comparables pour la traduction automatique et assistée3) Démonstrateur de toute la chaîne en ligne  atelier utilisateurs fin projet (Octobre 2012, Stuttgart)• 7 langues: FR, EN, DE, ES, LV, RU, ZH• 7 partenaires, Leader du projet : LINA - Université de Nantes 18/01/2013 Tralogy II 2
  3. 3. Chaîne TTC Compilation de Corpus Extraction T Monolingue E CORPORA & R Alignement Bilingue M E S Outil de Gestion18/01/2013 Tralogy II Terminologique 3
  4. 4. 18/01/2013 Tralogy II 4
  5. 5. Chaîne TTC Module 1 Compilation de Corpus18/01/2013 Tralogy II 5
  6. 6. 1. Compilation de Corpus Qu’est-ce qu’un crawler ? Outil pour récupérer de l’information du Web Crawler thématique: un domaine précis18/01/2013 Tralogy II 6
  7. 7. Entrée et sortieEn entrée: 4-5 mots clés, termes du domaine recherchésEn sortie:1) Fichiers textes, utf8, nettoyés2) Fichiers originaux (pdf, doc, html)3) Fichiers métadata 18/01/2013 Tralogy II 7
  8. 8. Retour utilisateur – Crawler Utile pour la création de terminologies ?Avantages permet de collecter un grand volume de données rapidement un atout lors que le traducteur n’a pas de documents, terminologiesdu domaine outil facil à prendre en mainOptions avancées : plusieurs filtres Type de site: officiel (.gouv) Filtres : exclure wikipedia 18/01/2013 Tralogy II 8
  9. 9. Retour utilisateur – Crawler Utile pour la création de terminologies ?Désavantages  liées au Web• surreprésentation de données commerciales ou peu scientifiques, degré de spécialisation faible• Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex: articles scientifiques).• Corpus final composé de données très hétérogènes, difficile à évaluer • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL• Dépendance des langues • Letton : moins de données sur le web • Russe : moins de crawl possible (blocage BING)• Dépendance des moteurs de recherche : services payants• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT 18/01/2013 Tralogy II 9
  10. 10. Chaîne TTC Module 2 Extraction Terminologique Monolingue18/01/2013 Tralogy II 10
  11. 11. Extraction Terminologique Monolingue• En entrée: corpus monolingue  output Babouk• En sortie  format : tabulation (TSV), format terminologique standard (TBX), format compatible UIMA (XMI)• Extraction de termes simples et complexes• Innovation des outils TTC TTC Term Suite variation terminologique, détection des élements néoclassiques méthodes Knowledge-rich vs. knowledge-poor 18/01/2013 Tralogy II 11
  12. 12. Retour utilisateurs Extraction monolinguePoints forts• Résultats propres et de qualité, bien présentés• Utile pour découvrir la terminologie d’un corpus ou d’un nouveau domainePoints discutables• Avis partagé sur les formats: TBX vs. TSV.• Avis partagé sur la lemmatisation vs. formes• Avis partagés sur outil via plateforme ou installation.• Variantes Terminologiques: moins d’intérêt qu’attendu (plutôt pour filtrer variantes non voulues selon client) 18/01/2013 Tralogy II 12
  13. 13. Demandes des utilisateurs Extraction monolingue• Focus sur les abréviations• Fournir le terme en contexte : montrer plusieurs phrases, autrement difficile de juger la pertinence du terme par rapport à un domaine.• Possibilité de fournir les patrons terminologiques • Disponible avec Term Suite (à installer) • Indisponible via la plateforme 18/01/2013 Tralogy II 13
  14. 14. Chaîne TTC Module 3 Alignement Bilingue18/01/2013 Tralogy II 14
  15. 15. Alignement bilingue des terminologiesPour un terme, plusieurs candidatsConditions: lexique bilingue, disponible pour certaines pairs de langues18/01/2013 Tralogy II 15
  16. 16. Retour Utilisateurs Alignement BilinguePoints forts1) Outil très utile (pas d’autres disponibles)Points abordés1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)2) Contexte: Montrer les termes en contexte, lien avec les phrases, autrement difficile d’évaluer une traduction.3) Fonctions avancées: fonction par défaut suffit. 18/01/2013 Tralogy II 16
  17. 17. Chaîne TTC Connexion avec MyETB (EuroTermBank) Plateforme Terminologique18/01/2013 Tralogy II 17
  18. 18. Editing TTC Output with MyETB• Envoi des résultats terminologiques à la plateforme• Possibilité de gérer différentes collections terminologiques• Permet l’édition et gestion des terminologies TTC  Validation des termes et informations correspondantes  Suppresion des termes  Édition (ajout d’informations) 18/01/2013 Tralogy II 18
  19. 19. Retour Utilisateurs MyETBAvantages• Utile d’avoir une plateforme web collaborative pour éditer les résultats• Gestion de plusieurs terminologiesAméliorations proposées• Editer les résultats monolingues TTC et renvoyer à la plateforme pour alignement bilingue• Export des résultats format tabulaire simple 18/01/2013 Tralogy II 19
  20. 20. Conclusions Retour Plateforme Web TTCEvaluation globale très positivePoints forts1) Illustration de toute la chaîne sous 1 seule plateforme2) Interface agréable, prise en main facile3) Architecture modulaire et possibilité paramétrage des outils  Différents profils, différents usagesPoints délicats1) Le web comme ressource pour le travail terminologique 18/01/2013 Tralogy II 20
  21. 21. Thank you! Merci! ¡Gracias! Gràcies Danke! Paldies 谢谢 спасибо18/01/2013 Tralogy II 21

×