SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
Construction d’un corpus multilingue
annoté en relations de traduction
Yuming Zhai
LIMSI/CNRS, Univ. Paris-Sud, Université Paris-Saclay, Orsay, France
yuming.zhai@limsi.fr
RÉSUMÉ
• Catégoriser les relations de traduction (littérale vs non littérale)
• Annotation manuelle dans un corpus parallèle trilingue (anglais,
français, chinois) de présentations orales (TED Talks)
HIÉRARCHIE DES RELATIONS
• Fondée sur les théories explicitées dans (Chuquet & Paillard, 1989) et sur les phénomènes rencontrés pendant notre étude de corpus.
• Les relations sur fond bleu sont celles qui ont été annotées.
RELATIONS ET EXEMPLES
Littérale What time is it? ! Quelle heure est-il ?
Équivalence Birds of a feather flock together. ! Qui se ressemble s’assemble.
magic trick ! tour de magie
Modulation this is a completely unsustainable pattern ! il est absolument
impossible de continuer sur cette tendance
Particularisation the director [said] ! le directeur [déclara]
language loss ! l’extinction du langage
Généralisation look carefully at ! regardez
trial and error ! procéder par tâtonnements
Transposition astonishingly inquisitive ! dotée d’une curiosité stupéfiante
Mod. + Trans. this is a people [who cognitively do not distinguish] ! c’est
un peuple [dont l’état des connaissances ne permet pas de
faire la distinction]
Idiome at any given moment ! à un instant “t”
Métaphore the Sun begins to [bathe] the slopes of the landscape ! le soleil
qui [inonde] les flancs de ce paysage
Non aligné
Explicitation feel their past in the wind ! ressentent leur passé [souffler]
dans le vent
Simplification and you’ll [suddenly] discover what it would be like ! et vous
découvrirez ce que ce serait
Aucun type minus 271 degrees, colder than ! moins 271 degrés, [ce qui]
est plus froid
ANNOTATION
• Accord inter-annotateurs (Kappa de Cohen entre deux annotateurs)
– EN-FR : 0,672, EN-ZH : 0,610
• Annotation à trois passes afin de garantir une bonne qualité
ANALYSE CONTRASTIVE
anglais français %EN tokens anglais chinois %EN tokens
Littérale 2 796 2 896 68,63% 2 141 3 414 52,55%
Équivalence 247 310 6,06% 326 478 8,00%
Modulation 343 357 8,42% 386 549 9,47%
Transposition 106 150 2,60% 112 171 2,75%
Mod+Trans 128 126 3,14% 29 47 0,71%
Généralisation 58 37 1,42% 158 154 3,88%
Particularisation 132 180 3,24% 210 505 5,15%
Idiome 0 0 0,00% 0 0 0,00%
Métaphore 10 15 0,25% 6 10 0,15%
Simplification 74 - 1,82% 178 - 4,37%
Explicitation - 46 - - 459 -
Incertain 35 31 0,86% 128 238 3,14%
Tous les types 3 929 4 148 96,44% 3 674 6 025 90,18%
Aucun Type 145 171 3,56% 400 214 9,82%
Nb tokens total 4 074 4 319 4 074 6 239
TRAVAUX EN COURS ET FUTURS
• Finaliser l’annotation (2 436 lignes de phrases parallèles trilingues)
• Annoter plus finement des grands blocs pour apprendre des patrons
• Détecter automatiquement les relations de traduction et intégrer ces
informations pour améliorer la recherche de paraphrases strictes ou
de paires de relation d’implication
MATRICE DE CONFUSION (CORPUS DE CONTRÔLE ANGLAIS-FRANÇAIS, NOMBRE D’INSTANCES)
Équivalence Littérale Modulation Transposit. Mod+Trans Généralisat. Particulari. Explicitation Simplificat. Idiome Métaphore Incertain
Équivalence 21 4 0 5 0 0 1 0 1 0 0 0
Littérale 27 1857 26 6 0 0 10 0 0 0 0 7
Modulation 4 8 37 7 1 1 3 0 2 0 0 0
Transposition 6 7 10 30 0 1 0 0 0 0 0 0
Mod+Trans 0 1 6 2 2 2 0 0 0 0 0 0
Généralisation 0 1 0 0 0 17 0 0 0 0 0 1
Particularisation 4 13 6 2 0 1 29 0 0 0 0 2
Explicitation 0 0 0 0 0 0 0 10 0 0 0 0
Simplification 0 0 0 0 0 0 0 0 40 0 0 0
Idiome 0 0 0 0 0 0 0 0 0 0 0 0
Métaphore 1 0 0 0 0 1 1 0 0 0 1 0
Incertain 1 8 2 2 0 4 0 0 1 0 0 4
REMERCIEMENT
Merci à Yaqiu Liu pour son annotation du corpus de contrôle anglais-chinois et pour son aide à l’analyse du corpus.

Contenu connexe

En vedette

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Construction d'un corpus multilingue annoté en relations de traduction

  • 1. Construction d’un corpus multilingue annoté en relations de traduction Yuming Zhai LIMSI/CNRS, Univ. Paris-Sud, Université Paris-Saclay, Orsay, France yuming.zhai@limsi.fr RÉSUMÉ • Catégoriser les relations de traduction (littérale vs non littérale) • Annotation manuelle dans un corpus parallèle trilingue (anglais, français, chinois) de présentations orales (TED Talks) HIÉRARCHIE DES RELATIONS • Fondée sur les théories explicitées dans (Chuquet & Paillard, 1989) et sur les phénomènes rencontrés pendant notre étude de corpus. • Les relations sur fond bleu sont celles qui ont été annotées. RELATIONS ET EXEMPLES Littérale What time is it? ! Quelle heure est-il ? Équivalence Birds of a feather flock together. ! Qui se ressemble s’assemble. magic trick ! tour de magie Modulation this is a completely unsustainable pattern ! il est absolument impossible de continuer sur cette tendance Particularisation the director [said] ! le directeur [déclara] language loss ! l’extinction du langage Généralisation look carefully at ! regardez trial and error ! procéder par tâtonnements Transposition astonishingly inquisitive ! dotée d’une curiosité stupéfiante Mod. + Trans. this is a people [who cognitively do not distinguish] ! c’est un peuple [dont l’état des connaissances ne permet pas de faire la distinction] Idiome at any given moment ! à un instant “t” Métaphore the Sun begins to [bathe] the slopes of the landscape ! le soleil qui [inonde] les flancs de ce paysage Non aligné Explicitation feel their past in the wind ! ressentent leur passé [souffler] dans le vent Simplification and you’ll [suddenly] discover what it would be like ! et vous découvrirez ce que ce serait Aucun type minus 271 degrees, colder than ! moins 271 degrés, [ce qui] est plus froid ANNOTATION • Accord inter-annotateurs (Kappa de Cohen entre deux annotateurs) – EN-FR : 0,672, EN-ZH : 0,610 • Annotation à trois passes afin de garantir une bonne qualité ANALYSE CONTRASTIVE anglais français %EN tokens anglais chinois %EN tokens Littérale 2 796 2 896 68,63% 2 141 3 414 52,55% Équivalence 247 310 6,06% 326 478 8,00% Modulation 343 357 8,42% 386 549 9,47% Transposition 106 150 2,60% 112 171 2,75% Mod+Trans 128 126 3,14% 29 47 0,71% Généralisation 58 37 1,42% 158 154 3,88% Particularisation 132 180 3,24% 210 505 5,15% Idiome 0 0 0,00% 0 0 0,00% Métaphore 10 15 0,25% 6 10 0,15% Simplification 74 - 1,82% 178 - 4,37% Explicitation - 46 - - 459 - Incertain 35 31 0,86% 128 238 3,14% Tous les types 3 929 4 148 96,44% 3 674 6 025 90,18% Aucun Type 145 171 3,56% 400 214 9,82% Nb tokens total 4 074 4 319 4 074 6 239 TRAVAUX EN COURS ET FUTURS • Finaliser l’annotation (2 436 lignes de phrases parallèles trilingues) • Annoter plus finement des grands blocs pour apprendre des patrons • Détecter automatiquement les relations de traduction et intégrer ces informations pour améliorer la recherche de paraphrases strictes ou de paires de relation d’implication MATRICE DE CONFUSION (CORPUS DE CONTRÔLE ANGLAIS-FRANÇAIS, NOMBRE D’INSTANCES) Équivalence Littérale Modulation Transposit. Mod+Trans Généralisat. Particulari. Explicitation Simplificat. Idiome Métaphore Incertain Équivalence 21 4 0 5 0 0 1 0 1 0 0 0 Littérale 27 1857 26 6 0 0 10 0 0 0 0 7 Modulation 4 8 37 7 1 1 3 0 2 0 0 0 Transposition 6 7 10 30 0 1 0 0 0 0 0 0 Mod+Trans 0 1 6 2 2 2 0 0 0 0 0 0 Généralisation 0 1 0 0 0 17 0 0 0 0 0 1 Particularisation 4 13 6 2 0 1 29 0 0 0 0 2 Explicitation 0 0 0 0 0 0 0 10 0 0 0 0 Simplification 0 0 0 0 0 0 0 0 40 0 0 0 Idiome 0 0 0 0 0 0 0 0 0 0 0 0 Métaphore 1 0 0 0 0 1 1 0 0 0 1 0 Incertain 1 8 2 2 0 4 0 0 1 0 0 4 REMERCIEMENT Merci à Yaqiu Liu pour son annotation du corpus de contrôle anglais-chinois et pour son aide à l’analyse du corpus.