Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Tralogy 2013-ttc platform

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Devoir5
Devoir5
Chargement dans…3
×

Consultez-les par la suite

1 sur 21 Publicité

Tralogy 2013-ttc platform

Télécharger pour lire hors ligne

présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/

présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/

Publicité
Publicité

Plus De Contenu Connexe

Similaire à Tralogy 2013-ttc platform (20)

Publicité

Plus récents (20)

Tralogy 2013-ttc platform

  1. 1. Plateforme Web TTC: de la compilation de corpus à l’alignement bilingue Helena Blancafort (1) Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3), (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität Stuttgart TRALOGY II 18 Janvier 2013, Paris The research leading to these results has received funding from the European Community's Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005. 18/01/2013 Tralogy II 1
  2. 2. Projet TTC Traduction, Terminologies et Corpus Comparables Objectifs : 1) compilation de terminologies bilingues à partir des corpus comparables pour la traduction automatique et assistée 3) Démonstrateur de toute la chaîne en ligne  atelier utilisateurs fin projet (Octobre 2012, Stuttgart) • 7 langues: FR, EN, DE, ES, LV, RU, ZH • 7 partenaires, Leader du projet : LINA - Université de Nantes 18/01/2013 Tralogy II 2
  3. 3. Chaîne TTC Compilation de Corpus Extraction T Monolingue E CORPORA & R Alignement Bilingue M E S Outil de Gestion 18/01/2013 Tralogy II Terminologique 3
  4. 4. 18/01/2013 Tralogy II 4
  5. 5. Chaîne TTC Module 1 Compilation de Corpus 18/01/2013 Tralogy II 5
  6. 6. 1. Compilation de Corpus Qu’est-ce qu’un crawler ? Outil pour récupérer de l’information du Web Crawler thématique: un domaine précis 18/01/2013 Tralogy II 6
  7. 7. Entrée et sortie En entrée: 4-5 mots clés, termes du domaine recherchés En sortie: 1) Fichiers textes, utf8, nettoyés 2) Fichiers originaux (pdf, doc, html) 3) Fichiers métadata 18/01/2013 Tralogy II 7
  8. 8. Retour utilisateur – Crawler Utile pour la création de terminologies ? Avantages  permet de collecter un grand volume de données rapidement  un atout lors que le traducteur n’a pas de documents, terminologies du domaine  outil facil à prendre en main Options avancées : plusieurs filtres Type de site: officiel (.gouv) Filtres : exclure wikipedia 18/01/2013 Tralogy II 8
  9. 9. Retour utilisateur – Crawler Utile pour la création de terminologies ? Désavantages  liées au Web • surreprésentation de données commerciales ou peu scientifiques, degré de spécialisation faible • Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex: articles scientifiques). • Corpus final composé de données très hétérogènes, difficile à évaluer • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL • Dépendance des langues • Letton : moins de données sur le web • Russe : moins de crawl possible (blocage BING) • Dépendance des moteurs de recherche : services payants • Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT 18/01/2013 Tralogy II 9
  10. 10. Chaîne TTC Module 2 Extraction Terminologique Monolingue 18/01/2013 Tralogy II 10
  11. 11. Extraction Terminologique Monolingue • En entrée: corpus monolingue  output Babouk • En sortie  format : tabulation (TSV), format terminologique standard (TBX), format compatible UIMA (XMI) • Extraction de termes simples et complexes • Innovation des outils TTC TTC Term Suite variation terminologique, détection des élements néoclassiques méthodes Knowledge-rich vs. knowledge-poor 18/01/2013 Tralogy II 11
  12. 12. Retour utilisateurs Extraction monolingue Points forts • Résultats propres et de qualité, bien présentés • Utile pour découvrir la terminologie d’un corpus ou d’un nouveau domaine Points discutables • Avis partagé sur les formats: TBX vs. TSV. • Avis partagé sur la lemmatisation vs. formes • Avis partagés sur outil via plateforme ou installation. • Variantes Terminologiques: moins d’intérêt qu’attendu (plutôt pour filtrer variantes non voulues selon client) 18/01/2013 Tralogy II 12
  13. 13. Demandes des utilisateurs Extraction monolingue • Focus sur les abréviations • Fournir le terme en contexte : montrer plusieurs phrases, autrement difficile de juger la pertinence du terme par rapport à un domaine. • Possibilité de fournir les patrons terminologiques • Disponible avec Term Suite (à installer) • Indisponible via la plateforme 18/01/2013 Tralogy II 13
  14. 14. Chaîne TTC Module 3 Alignement Bilingue 18/01/2013 Tralogy II 14
  15. 15. Alignement bilingue des terminologies Pour un terme, plusieurs candidats Conditions: lexique bilingue, disponible pour certaines pairs de langues 18/01/2013 Tralogy II 15
  16. 16. Retour Utilisateurs Alignement Bilingue Points forts 1) Outil très utile (pas d’autres disponibles) Points abordés 1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier) 2) Contexte: Montrer les termes en contexte, lien avec les phrases, autrement difficile d’évaluer une traduction. 3) Fonctions avancées: fonction par défaut suffit. 18/01/2013 Tralogy II 16
  17. 17. Chaîne TTC Connexion avec MyETB (EuroTermBank) Plateforme Terminologique 18/01/2013 Tralogy II 17
  18. 18. Editing TTC Output with MyETB • Envoi des résultats terminologiques à la plateforme • Possibilité de gérer différentes collections terminologiques • Permet l’édition et gestion des terminologies TTC  Validation des termes et informations correspondantes  Suppresion des termes  Édition (ajout d’informations) 18/01/2013 Tralogy II 18
  19. 19. Retour Utilisateurs MyETB Avantages • Utile d’avoir une plateforme web collaborative pour éditer les résultats • Gestion de plusieurs terminologies Améliorations proposées • Editer les résultats monolingues TTC et renvoyer à la plateforme pour alignement bilingue • Export des résultats format tabulaire simple 18/01/2013 Tralogy II 19
  20. 20. Conclusions Retour Plateforme Web TTC Evaluation globale très positive Points forts 1) Illustration de toute la chaîne sous 1 seule plateforme 2) Interface agréable, prise en main facile 3) Architecture modulaire et possibilité paramétrage des outils  Différents profils, différents usages Points délicats 1) Le web comme ressource pour le travail terminologique 18/01/2013 Tralogy II 20
  21. 21. Thank you! Merci! ¡Gracias! Gràcies Danke! Paldies 谢谢 спасибо 18/01/2013 Tralogy II 21

×