SlideShare une entreprise Scribd logo
1  sur  133
Télécharger pour lire hors ligne
Traduction assist´ee par ordinateur et corpus
comparables
Conf´erence invit´ee : Prix de th`ese ATALA 2014
Estelle Delpech
Responsable scientifique, Nomao
www.nomao.com/labs
Travaux de th`ese effectu´es au LINA sous la direction de B. Daille et E. Morin
TALN’14 – 2 juillet 2014 – Marseille, France
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Contexte
Lingua et Machina logiciels de Traduction Assist´ee par Ordinateur
et Traduction Automatique
[Brown de Colstoun et al., 2011]
ANR Metricc exploitation des corpus comparables pour:
recherche d’information interlingue
cat´egorisation multilingue
traduction assist´ee par ordinateur
2 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
La Traduction Assist´ee par Ordinateur (TAO)
TAO Technologies permettant aux humains de mieux
traduire
pr´e-traduction
logiciels de gestion terminologique
m´emoires de traduction
= TA Traduction sans intervention humaine
3 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Mat´eriau de base : historique de traductions (corpus
parall`ele)
4 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Limite des corpus parall`eles
Disponibilit´e
nouveaux domaines ?
langues peu dot´ees ?
Risque qualitatif
Partie Cible : variante de la langue cible appel´ee translecte
(“translationese”)
[Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007]
5 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR cancer du sein Texte EN cancer du sein
Ipsen is participating in studies
conducted under the auspices of the
IBCSG for the treatment of
premenopausal breast cancer. These
studies compare conventional
treatment methods with hormone
therapy combining Decapeptyl R
with estrogen suppressor agents.
Their findings could lead to a
revision of treatment guidelines for
breast cancer in pre-menopausal
women expressing hormonal
receptors.
Hormonoth´erapie
Dans environ deux tiers des cancers
du sein, les cellules canc´ereuses
pr´esentent des r´ecepteurs
hormonaux en exc`es. La tumeur est
alors dite hormonosensible car les
œstrog`enes stimulent la prolif´eration
canc´ereuse par l’interm´ediaire des
r´ecepteurs. Les traitements agiront
soit en diminuant le taux
d’œstrog`enes dans le sang, soit en
bloquant les r´ecepteurs hormonaux
6 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR cancer du sein Texte EN cancer du sein
Ipsen is participating in studies
conducted under the auspices of the
IBCSG for the treatment of
premenopausal breast cancer.
These studies compare conventional
treatment methods with hormone
therapy combining Decapeptyl R
with estrogen suppressor agents.
Their findings could lead to a
revision of treatment guidelines for
breast cancer in pre-menopausal
women expressing hormonal
receptors.
Hormonoth´erapie
Dans environ deux tiers des cancers
du sein, les cellules canc´ereuses
pr´esentent des r´ecepteurs
hormonaux en exc`es. La tumeur est
alors dite hormonosensible car les
œstrog`enes stimulent la
prolif´eration canc´ereuse par
l’interm´ediaire des r´ecepteurs. Les
traitements agiront soit en
diminuant le taux d’œstrog`enes dans
le sang, soit en bloquant les
r´ecepteurs hormonaux
6 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
7 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
7 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilis´e par le
syst`eme de RI : +0.016 MAP [Li et al., 2011]
7 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilis´e par le
syst`eme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assist´ee am´eliorations qualitatives
[Zanettin, 1998, Friedbichler and Friedbichler, 1997,
Mc Enery and Xiao, 2007]
7 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilis´e par le
syst`eme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assist´ee am´eliorations qualitatives
[Zanettin, 1998, Friedbichler and Friedbichler, 1997,
Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Objectifs de la th`ese
1. ´Evaluer l’int´erˆet des corpus comparables pour la TAO
2. Am´eliorer/Proposer des modalit´es d’exploitation pour la TAO
8 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
9 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
10 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
M´ethode d’extraction classique
11 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
12 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
12 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...}
12 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
{instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...}
biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...}
12 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
{instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...}
calcul similarit´e : 0.34
biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...}
12 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
13 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
13 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20
13 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20
Difficult´e (vs. corpus parall`eles) :
espace de recherche tr`es vaste
traduction peut ˆetre absente
13 / 41
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20
Difficult´e (vs. corpus parall`eles) :
espace de recherche tr`es vaste
traduction peut ˆetre absente
´Evaluation par r´ef´erence :
capacit´e `a reproduire un lexique construit a priori
quid de l’apport en contexte d’utilisation r´eel ?
13 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
14 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Lexique ´evalu´e
Extrait d’un corpus comparable cancer du sein EN-FR
Interface riche [Delpech and Daille, 2010]: acc`es aux
contextes, recherche en corpus, variantes orthographiques,
termes proches, fr´equence, etc.
15 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
M´ethodologie d’´evaluation
[Delpech, 2011a, Delpech, 2011b]
16 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
M´ethodologie d’´evaluation
Objet ´evalu´e : expressions probl´ematiques
Mesure : % de traductions exactes, acceptables, fausses
17 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
R´esultats
18 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
19 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
Trop de termes sources non couverts
⇒ collecte du corpus
19 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
Trop de termes sources non couverts
⇒ collecte du corpus
Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
19 / 41
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
Trop de termes sources non couverts
⇒ collecte du corpus
Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
Pas assez pr´ecis, trop de traductions candidates
⇒ diminuer le nombre de traductions
⇒ approche compositionnelle [Morin and Daille, 2010]
19 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
20 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
21 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
21 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
21 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
21 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
Recomposition {AB, BA} {bleu colorant, colorant bleu}
21 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
Recomposition {AB, BA} {bleu colorant, colorant bleu}
S´election “BA” “colorant bleu”
21 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
22 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
Peu/pas d´ependant de la fr´equence des termes
22 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
Peu/pas d´ependant de la fr´equence des termes
Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20
[Morin and Daille, 2010]
22 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
Peu/pas d´ependant de la fr´equence des termes
Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20
[Morin and Daille, 2010]
Concerne de nombreux cas :
60% des nouveaux termes sont complexes
[Namer and Baud, 2007]
48,7% des compos´es Nom Nom ont une traduction
compositionnelle [?]
75,1% des unit´es polylexicales ont une traduction
compositionnelle [Robitaille et al., 2006]
22 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
compos´es nominaux allemands ¡ SN [Weller et al., 2011]
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
compos´es nominaux allemands ¡ SN [Weller et al., 2011]
[ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri}
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
compos´es nominaux allemands ¡ SN [Weller et al., 2011]
[ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri}
⇒ Am´eliorer le traitement de la fertilit´e dans l’approche
compositionnelle
23 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
24 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
D´ecoupage en morph`emes
antioxydant ¡ anti+oxydant
mouthwash ¡ mouth+wash
24 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
D´ecoupage en morph`emes
antioxydant ¡ anti+oxydant
mouthwash ¡ mouth+wash
´Equivalence morph`eme li´e → morph`eme libre
tumorectomy ¡ ablation (de la) tumeur
randomly ¡ (de) mani`ere randomis´ee
postm´enopause ¡ apr`es (la) m´enopause
24 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
D´ecoupage en morph`emes
antioxydant ¡ anti+oxydant
mouthwash ¡ mouth+wash
´Equivalence morph`eme li´e → morph`eme libre
tumorectomy ¡ ablation (de la) tumeur
randomly ¡ (de) mani`ere randomis´ee
postm´enopause ¡ apr`es (la) m´enopause
Ne pas n´ecessairement conserver la fronti`ere de morph`eme :
mouth+wash ¡ bain (de) bouche
24 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e
Limite : fertilit´e “de surface” (bijection entre morph`emes sources
et cibles)
25 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e
Limite : fertilit´e “de surface” (bijection entre morph`emes sources
et cibles)
trait´e non trait´e
25 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
pr´efix´e ¡ pr´efix´e [Cartoni, 2009]
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
pr´efix´e ¡ pr´efix´e [Cartoni, 2009]
compos´e nominal ¡ compos´e nominal ou SN
[Weller et al., 2011]
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
pr´efix´e ¡ pr´efix´e [Cartoni, 2009]
compos´e nominal ¡ compos´e nominal ou SN
[Weller et al., 2011]
⇒ Am´eliorer la g´en´ericit´e
26 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Am´elioration de la g´en´ericit´e
27 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Am´elioration de la g´en´ericit´e
Pas d’a priori sur les structures : pas de patrons de traductions
27 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Am´elioration de la g´en´ericit´e
Pas d’a priori sur les structures : pas de patrons de traductions
Approche par “force brute”:
g´en´eration de toutes les traductions possibles
filtrage sur le corpus cible + ranking
27 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
29 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
↓
toxique (prep|det|num|conj){0,3} cellule
29 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
“...substance est toxique pour les cellules de cancer...”
“...m´edicaments toxiques pour la cellule canc´ereuse...”
29 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
“...substance est toxique pour les cellules de cancer...”
“...m´edicaments toxiques pour la cellule canc´ereuse...”
⇒toxique/Adj pour/Prep le/Det cellule/Nom
29 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Ranking multi-crit`eres [Delpech et al., 2012a]
C similarit´e des Contextes source et cible
F Fr´equence traduction
P probabilit´e traduction Parties du discours
M fiabilit´e Modes de traduction
Combinaison : C + F + P + M apr`es standardisation
30 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
Traduction EN¡ FR et EN ¡ DE
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
Traduction EN¡ FR et EN ¡ DE
Unit´es monolexicales morphologiquement complexes
compos´es n´eoclassiques : tumorectomy
compos´es populaires : docetaxel-induced
pr´efix´es : anti-oestrogen
suffix´es : colourless
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
Traduction EN¡ FR et EN ¡ DE
Unit´es monolexicales morphologiquement complexes
compos´es n´eoclassiques : tumorectomy
compos´es populaires : docetaxel-induced
pr´efix´es : anti-oestrogen
suffix´es : colourless
S´election :
non traduites par le dictionnaire bilingue
traduction non pr´esente dans le corpus cible
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori vs. a posteriori [Ozdowska, 2006]
32 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori utilisation d’un lexique de r´ef´erence
id´eal pour comparaison
´evaluation du rappel
⇒ vision biais´ee des performances en situation
d’utilisation : traduction se trouve dans la
partie cible
32 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori utilisation d’un lexique de r´ef´erence
id´eal pour comparaison
´evaluation du rappel
⇒ vision biais´ee des performances en situation
d’utilisation : traduction se trouve dans la
partie cible
A posteriori annotation des sorties par des juges
plus subjectif
seuls couverture et pr´ecision ´evaluables
⇒ plus fid`ele `a la performances en situation
d’utilisation
32 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori
R´esultats
UMLS
R Pmax P@1 al´ea P@1 rank F1 @1 rank
EN-FR .52 .80 .65 .75 .61
EN-DE .51 .70 .53 .58 .54
33 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori
R´esultats
UMLS
R Pmax P@1 al´ea P@1 rank F1 @1 rank
EN-FR .52 .80 .65 .75 .61
EN-DE .51 .70 .53 .58 .54
UMLS + annotations juges, ex. : bioavailable ¡ biodisponibilit´e
R Pmax P@1 al´ea P@1 rank F1 @1 rank
EN-FR .63 .95 .92 .95 .76
EN-DE .66 .89 .81 .87 .75
33 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori
Travaux similaires
Compositionnelle P R F1
[Robitaille et al., 2006] SN .81 .82 .81
[Baldwin and Tanaka, 2004] N N .51 .47 .49
+ trad. acceptables .78 .72 .75
[Cartoni, 2009] pr´efix´es .42-.94
[Morin and Daille, 2010] N ADJ .88 .13 .23
[Harastani, 2014] n´eoclassique .95-1 .2-.12 .5-.22
ML P R F1
[Claveau and Kijak, 2011] n´eoclassique .63 .45 .53
+ autres ressources .89 .64 .74
34 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
Utilisabilit´e % termes sources avec au moins 1 traduction
correcte (C× P)
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
Utilisabilit´e % termes sources avec au moins 1 traduction
correcte (C× P)
R´esultats :
C P U
EN-FR .40 .59 .24
EN-DE .36 .48 .18
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
Utilisabilit´e % termes sources avec au moins 1 traduction
correcte (C× P)
R´esultats :
C P U
EN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
36 / 41
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Peut-on utiliser les corpus comparables pour extraire des
lexiques bilingues utiles pour les traducteurs ?
Approche par similarit´e contextuelle :
forte couverture mais lexiques trop ambigus
Approche compositionnelle :
r´eduit le nombre de traductions mais cantonn´ee aux ´el´ements
avec traduction compositionnelle
20% `a 28% avec une traduction correcte
37 / 41
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Tr`es ambitieux en l’´etat actuel
Lexique obtenu tr`es r´eduit ou trop ambigu
Difficile d’augmenter le corpus
th´ematique fine, forte comparabilit´e
peu de textes sp´ecialis´es
Difficult´e inh´erente aux corpus comparables :
seulement une partie du vocabulaire en commun
38 / 41
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Perspectives I
Peu utile pour la phase de traduction proprement dite
Utile pour :
phase d’exploration / familiarisation avec le domaine
[Durieux, 2010]
assistance `a la consistution de ressources lexicales
sp´ecialis´ees/terminologiques
39 / 41
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Perspectives II
Conclusion : aider `a l’exploration de corpus comparables
extraction, alignement de contextes pertinents
outils de recherche avanc´es, concordanciers
travailler avec les traducteurs/terminologues : automatiser les
techniques
Projet ANR CRISTAL : extraction de contextes riches
en connaissance dans les corpus comparables (LINA,
Lingua et Machina, CLLE-ERSS, FTI)
40 / 41
Merci pour votre attention
Slides compl´ementaires
Traduction assist´ee par ordinateur et corpus comparables
Taille donn´ees
Donn´ees ´evaluation
S termes sources
R r´ef´erence a priori
P r´ef´erence a
posteriori
R ∩ P = ∅
T donn´ees
apprentissage
rankking
T = P  R
E donn´ees
´evaluation du
mod ranking
E = P ∩ R
43 / 41
Traduction assist´ee par ordinateur et corpus comparables
Taille donn´ees
Lexiques ´evaluation
EN-FR EN-DE
1839 1824
Table: Termes sources `a traduire
EN-FR EN-DE
126 ¡ 163 90 ¡ 104
Table: Lexique ´evaluation a priori
EN-FR EN-DE
730 ¡ 2129 654 ¡ 2016
Table: Lexique ´evaluation a posteriori
44 / 41
Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : m´ethodes test´ees
Pr´efixation : pretreatment ¡ pr´e-traitement
Composition savante : hypercalcaemia ¡ hypercalc´emie
Composition populaire : acute-phase ¡ Akutphase, akuten
Phase
Cognat : t-test ¡ t-Test
45 / 41
Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : r´esultats
Composition savante, pr´efixation : m´ethodes tr`es pr´ecises
(>0.92) mais petite couverture (<0.03)
Composition populaire : petite couverture, moyennement
pr´ecise (0.62 `a 0.65)
Cognats : meilleure couverture (0.10 `a 0.13), pr´ecision
moyenne `a bonne (0.66 `a 0.81)
Notre m´ethode :
large couverture : 0.36 `a 0.40
pr´ecision moyenne : 0.68 `a 0.56
utilisabilit´e meilleure : 0.20 `a 0.28 vs. cognats 0.07 `a 0.10
46 / 41
G´en´ericit´e I
C PE UE PEA UEA
Composition savante (18%) ,03 ,95 ,03 1 ,03
Cognat ,13 ,66 ,08 ,81 ,10
Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03
Pr´efixation (31%) ,02 ,90 ,02 ,97 ,02
Notre m´ethode ,40 ,59 ,24 ,69 ,28
Table: anglais ¡ fran¸cais
G´en´ericit´e II
C PE UE PEA UEA
Composition savante (18%) ,03 ,96 ,02 ,98 ,02
Cognat ,10 ,58 ,06 ,66 ,07
Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03
Pr´efixation (32%) ,03 ,86 ,02 ,92 ,03
Notre m´ethode ,36 ,48 ,17 ,56 ,20
Table: anglais ¡ allemand
Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : discussion
Variation morphologique : pretreatment ¡ pr´etraiter,
cardiotoxicity¡ cardiotoxique, time-consuming
¡ consommateur de temps
Fertilit´e : pretreatment ¡ avant le traitement,
hypercalcaemia ¡ zu viel calcium in das blut
Cognats : aromatase-inhibiting ¡ hemmung der
aromatase‘inhibition de l’aromatase’
Suffixes : colorless ¡ sans colorant, randomly ¡ (de)
mani`ere randomis´ee
Strat´egie de repli : ribosome ¡ ribosomique
49 / 41
Traduction assist´ee par ordinateur et corpus comparables
Apport ressources linguistiques
Apport des ressources linguistiques
Syst`eme de base : dictionnaire g´en´eraliste et table de traduction
des morph`emes
Synonymes : pas adapt´es (bloodstream ¡ courant sanguin
¡ circulation sanguine)
Familles morphologiques : +0.09 `a 0.11 de couverture ; +0.04
`a 0.06 d’utilisabilit´e
Cognats : + 0.12 de couverture ; +0.06 `a 0.09 d’utilisabilit´e
Combinaison : + 0.17 `a 0.24 couverture ; +0.10 `a 0.16
utilisabilit´e
50 / 41
Ressources linguistiques I
C PE UE PEA UEA
Base ,16 ,73 ,12 ,77 ,12
Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21
Base + familles morphologiques ,27 ,56 ,15 ,66 ,18
Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13
Toutes les ressources ,40 ,59 ,24 ,69 ,28
Table: anglais ¡ fran¸cais
Ressources linguistiques II
C PE UE PEA UEA
Base ,15 ,60 ,09 ,63 ,10
Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16
Base + familles morphologiques ,24 ,48 ,12 ,57 ,14
Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10
Toutes les ressources ,36 ,48 ,17 ,56 ,20
Table: anglais ¡ allemand
Traduction assist´ee par ordinateur et corpus comparables
Apport traductions fertiles
Apport des traductions fertiles
Traductions fertiles nettement moins pr´ecises (-0.20 `a -0.39)
Combinaison aux traductions non fertiles int´eressante (+6 `a 10
points utilisabilit´e)
53 / 41
Traductions fertiles I
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,75 ,18
Traductions fertiles ,24 ,52 ,12 ,55 ,13
Traductions non fertiles ,24 ,58 ,14 ,75 ,18
Toutes les traductions ,40 ,59 , 24 ,69 ,28
Table: anglais ¡ fran¸cais
Traductions fertiles II
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,69 ,16
Traductions fertiles ,20 ,26 ,05 ,30 ,06
Traductions non fertiles ,24 ,58 ,14 ,69 ,16
Toutes les traductions ,36 ,48 ,17 ,56 ,20
Table: anglais ¡ allemand
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
Nombre de traductions candidates
56 / 41
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
Donn´ees exp´erimentales
57 / 41
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats
Comparaison des crit`eres :
Contextes : moins bon crit`ere (0.80 `a 0.88 Top1)
Fiabilit´e des modes de traduction : meilleur crit`ere (0.82 `a
0.93 Top1)
Meilleures m´ethodes (0.85 `a 0.93, +5 `a 9 points vs. al´eatoire,
Top1) :
Combinaison non pond´er´ee
Combinaison pond´er´ee
Coordinate Ascent, AdaRank
58 / 41
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats anglais ¡ fran¸cais
Top1 Top2 Top3 RPM
Meilleure pr´ecision possible ,94 ,94 ,94 1
Combinaison non pond´er´ee ,928 ,94 ,94 2
Combinaison pond´er´ee ,928 ,94 ,94 2
Coordinate Ascent ,928 ,94 ,94 2
Lambda MART ,928 ,94 ,94 2
M ,928 ,94 ,94 2
F ,916 ,928 ,94 3
AdaRank ,892 ,904 ,928 4
P ,892 ,904 ,928 4
C ,88 ,904 ,928 4
Al´eatoire ,836 ,898 ,928 13
59 / 41
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats anglais ¡ allemand
Top1 Top2 Top3 RPM
Meilleure pr´ecision possible ,879 ,879 ,879 1
Combinaison pond´er´ee ,848 ,879 ,879 2
Lambda MART ,848 ,864 ,864 5
Combinaison non pond´er´ee ,833 ,864 ,879 3
Coordinate Ascent ,833 ,864 ,879 3
F ,833 ,848 ,879 3
AdaRank ,833 ,848 ,848 17
P ,833 ,848 ,848 17
M ,818 ,864 ,879 3
C ,803 ,864 ,864 28
Al´eatoire ,77 ,832 ,846 28
60 / 41
Traduction assist´ee par ordinateur et corpus comparables
R´ef´erences
Principales publications
Th`ese
FR Delpech (2013) : “Traduction assist´ee par ordinateur et corpus comparables”,
Th`ese de doctorat en Informatique, Universit´e de Nantes, France, 265 pages.
EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE
Wiley, London, 287 pages.
´Evaluation applicative
FR, long Delpech (2011) : “Un protocole d’´evaluation applicative des terminologies bilingues
destin´ees `a la traduction sp´ecialis´ee”, Revue des Nouvelles Technologies de
l’Information (RNTI), vol. RNTI-E-22, pp. 23–48.
EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora:
an Application Perspective”, Proc. of the 18th Nordic Conference of Computational
Linguistics (NODALIDA), pp. 66–73, Riga, Lettonie.
G´en´eration de lexiques bilingues
EN, Fertilit´e Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable
Corpora”, 10th biennial Conference of the Association for Machine Translation in
the Americas (AMTA’12), 10 pages, San Diego, CA.
EN,G´en´eration+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon from
comparable corpora: compositional translation and ranking”, Proc. of the 24th
International Conference on Computational Linguistics, Long papers (COLING’12),
pp. 745–762, Mumbia, India.
61 / 41
R´ef´erences I
Baker, M. (1996).
Corpus-based translation studies: The challenges that lie ahead.
In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour of
Juan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, ´Etats-Unis d’Am´erique.
Baldwin, T. and Tanaka, T. (2004).
Translation by machine of complex nominals.
In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31,
Barcelona, Spain.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.
In Lafourcade, M. and Prince, V., editors, Actes de la 18`eme conf´erences sur le traitement automatique des
langues naturelles, volume 2, page 319, Montpellier, France.
Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,
J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).
Domain adaptation in machine translation: Final report.
In 2012 Johns Hopkins Summer Workshop Final Report.
derni`ere consultation le 01/02/2013.
Cartoni, B. (2009).
Lexical morphology in machine translation: A feasibility study.
In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Ath`enes, Gr`ece.
Claveau, V. and Kijak, E. (2011).
Morphological analysis of biomedical terminology with Analogy-Based alignment.
In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,
pages 347–354, Hissar, Bulgaria.
R´ef´erences II
Delpech, E. (2011a).
Evaluation of terminologies acquired from comparable corpora : an application perspective.
In Pedersen B.S., Ne˘spore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational
Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2011b).
Un protocole d’´evaluation applicative des terminologies bilingues destin´ees `a la traduction sp´ecialis´ee.
Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ero sp´ecial : Evaluation des m´ethodes
d’Extraction de Connaissances dans les Donn´ees (Eval’ECD).
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.
In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages
211–223, Dublin, Ireland.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and
ranking.
In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,
Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.
In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,
San Diego, California.
Durieux, C. (2010).
Fondement didactique de la traduction technique.
La maison du dictionnaire, Paris, France.
R´ef´erences III
Friedbichler, I. and Friedbichler, M. (1997).
The potential of domain-specific target-language corpora for the translator’s workbench.
In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie.
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.
In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Harastani, R. (2014).
Alignement lexical en corpus comparables : le cas des compos´es savants et des adjectifs relationnels.
Th`ese de doctorat en informatique, Universit´e de Nantes, Nantes, France.
L´eon, S. (2008).
Acquisition automatique de traductions d’unit´es lexicales complexes `a partir du Web.
Th`ese en sciences du langage - traitement automatique des langues, Universit´e de Provence - Aix-Marseille
I, Marseille, France.
Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).
Degr´e de comparabilit´e, extraction lexicale et recherche d’information interlingue.
In Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles, pages 283–293,
Montpellier, France.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora: What is happening?
In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating
Europe, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.
In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation
(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
R´ef´erences IV
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.
International Journal of Medical Informatics, 76(2-3):226–33.
Ozdowska, S. (2006).
ALIBI, un syst`eme d’ALIgnement BIlingue `a base de r`egles de propapagation syntaxique.
Th`ese de doctorat en sciences du langage, Universit´e Toulouse II Le Mirail, Toulouse, France.
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.
In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),
pages 519–526, College Park, MD, USA.
Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006).
Compiling French-Japanese terminologies from the web.
In Proceedings of the 11th Conference of the European Chapter of the Association for Computational
Linguistics, pages 225–232, Trento, Italy.
ˇS. Vintar (2010).
Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation.
Terminology, 16(2):141–158.
Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011).
Simple methods for dealing with term variation and term alignment.
In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93,
Paris, France.
Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.
Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.

Contenu connexe

En vedette

Metadata for Terminology / KOS Resources
Metadata for Terminology / KOS ResourcesMetadata for Terminology / KOS Resources
Metadata for Terminology / KOS ResourcesMarcia Zeng
 
Terminology overview
Terminology overviewTerminology overview
Terminology overviewKStockwell
 
Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...TERMCAT
 
Introduction aux webdocs interactifs
Introduction aux webdocs interactifsIntroduction aux webdocs interactifs
Introduction aux webdocs interactifsGaëlle Engelberts
 
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...Brigitte Pierrat
 
Open Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équationOpen Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équationSophie TOUZÉ
 
Lexique des-medias-sociaux
Lexique des-medias-sociauxLexique des-medias-sociaux
Lexique des-medias-sociauxMurielle Bruneau
 
Introduction to medical terminology
Introduction to medical terminology   Introduction to medical terminology
Introduction to medical terminology heartstartskills
 
1393 Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...
1393   Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...1393   Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...
1393 Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...Marianne Zipf
 
Traduction Formation Emploi Hammamet
Traduction Formation Emploi HammametTraduction Formation Emploi Hammamet
Traduction Formation Emploi HammametJean-Marie Le Ray
 
En attendant le Poisson de Babel
En attendant le Poisson de BabelEn attendant le Poisson de Babel
En attendant le Poisson de Babelsbooth
 
Révisions. Formation à la recherche d'information en seconde
Révisions. Formation à la recherche d'information en secondeRévisions. Formation à la recherche d'information en seconde
Révisions. Formation à la recherche d'information en secondecdevevey
 
Master MA ETSII UPM
Master MA ETSII UPMMaster MA ETSII UPM
Master MA ETSII UPMAna Rízquez
 

En vedette (17)

Metadata for Terminology / KOS Resources
Metadata for Terminology / KOS ResourcesMetadata for Terminology / KOS Resources
Metadata for Terminology / KOS Resources
 
Terminology overview
Terminology overviewTerminology overview
Terminology overview
 
Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...
 
Introduction aux webdocs interactifs
Introduction aux webdocs interactifsIntroduction aux webdocs interactifs
Introduction aux webdocs interactifs
 
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
 
Open Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équationOpen Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équation
 
Lexique des-medias-sociaux
Lexique des-medias-sociauxLexique des-medias-sociaux
Lexique des-medias-sociaux
 
Introduction to medical terminology
Introduction to medical terminology   Introduction to medical terminology
Introduction to medical terminology
 
1393 Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...
1393   Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...1393   Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...
1393 Mangelndes Gottvertrauen .... Glaubensschwäche .... Vertrauen zu Gott ...
 
Fdi
FdiFdi
Fdi
 
Traduction Formation Emploi Hammamet
Traduction Formation Emploi HammametTraduction Formation Emploi Hammamet
Traduction Formation Emploi Hammamet
 
En attendant le Poisson de Babel
En attendant le Poisson de BabelEn attendant le Poisson de Babel
En attendant le Poisson de Babel
 
Révisions. Formation à la recherche d'information en seconde
Révisions. Formation à la recherche d'information en secondeRévisions. Formation à la recherche d'information en seconde
Révisions. Formation à la recherche d'information en seconde
 
Ley 1266 de 2008
Ley 1266 de 2008Ley 1266 de 2008
Ley 1266 de 2008
 
Master MA ETSII UPM
Master MA ETSII UPMMaster MA ETSII UPM
Master MA ETSII UPM
 
Pps ste cecile
Pps ste cecilePps ste cecile
Pps ste cecile
 
Procesos de Soldadura
Procesos de SoldaduraProcesos de Soldadura
Procesos de Soldadura
 

Plus de Estelle Delpech

Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texteEstelle Delpech
 
Identification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxIdentification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxEstelle Delpech
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesEstelle Delpech
 
Identification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieuxIdentification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieuxEstelle Delpech
 
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Estelle Delpech
 
Nomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchNomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchEstelle Delpech
 
Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Estelle Delpech
 
Nomao: local search and recommendation engine
Nomao: local search and recommendation engineNomao: local search and recommendation engine
Nomao: local search and recommendation engineEstelle Delpech
 
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Estelle Delpech
 
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Estelle Delpech
 
Applicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesApplicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesEstelle Delpech
 
Évaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeÉvaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeEstelle Delpech
 
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeDealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeEstelle Delpech
 
Bilingual terminology mining
Bilingual terminology miningBilingual terminology mining
Bilingual terminology miningEstelle Delpech
 
Robust rule-based parsing
Robust rule-based parsingRobust rule-based parsing
Robust rule-based parsingEstelle Delpech
 
Experimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmExperimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmEstelle Delpech
 
Text Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringText Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringEstelle Delpech
 

Plus de Estelle Delpech (18)

Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
 
Identification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxIdentification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieux
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des Langues
 
Identification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieuxIdentification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieux
 
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...
 
Nomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchNomao: data analysis for personalized local search
Nomao: data analysis for personalized local search
 
Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)
 
Nomao: local search and recommendation engine
Nomao: local search and recommendation engineNomao: local search and recommendation engine
Nomao: local search and recommendation engine
 
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
 
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
 
Applicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesApplicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologies
 
Évaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeÉvaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialisée
 
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeDealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
 
R&D Lingua et Machina
R&D Lingua et MachinaR&D Lingua et Machina
R&D Lingua et Machina
 
Bilingual terminology mining
Bilingual terminology miningBilingual terminology mining
Bilingual terminology mining
 
Robust rule-based parsing
Robust rule-based parsingRobust rule-based parsing
Robust rule-based parsing
 
Experimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmExperimenting the TextTiling Algorithm
Experimenting the TextTiling Algorithm
 
Text Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringText Processing for Procedural Question Answering
Text Processing for Procedural Question Answering
 

Invited speaker, ATALA 2014 Ph. D. Thesis award

  • 1. Traduction assist´ee par ordinateur et corpus comparables Conf´erence invit´ee : Prix de th`ese ATALA 2014 Estelle Delpech Responsable scientifique, Nomao www.nomao.com/labs Travaux de th`ese effectu´es au LINA sous la direction de B. Daille et E. Morin TALN’14 – 2 juillet 2014 – Marseille, France
  • 2. Traduction assist´ee par ordinateur et corpus comparables Introduction Contexte Lingua et Machina logiciels de Traduction Assist´ee par Ordinateur et Traduction Automatique [Brown de Colstoun et al., 2011] ANR Metricc exploitation des corpus comparables pour: recherche d’information interlingue cat´egorisation multilingue traduction assist´ee par ordinateur 2 / 41
  • 3. Traduction assist´ee par ordinateur et corpus comparables Introduction La Traduction Assist´ee par Ordinateur (TAO) TAO Technologies permettant aux humains de mieux traduire pr´e-traduction logiciels de gestion terminologique m´emoires de traduction = TA Traduction sans intervention humaine 3 / 41
  • 4. Traduction assist´ee par ordinateur et corpus comparables Introduction Mat´eriau de base : historique de traductions (corpus parall`ele) 4 / 41
  • 5. Traduction assist´ee par ordinateur et corpus comparables Introduction Limite des corpus parall`eles Disponibilit´e nouveaux domaines ? langues peu dot´ees ? Risque qualitatif Partie Cible : variante de la langue cible appel´ee translecte (“translationese”) [Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007] 5 / 41
  • 6. Traduction assist´ee par ordinateur et corpus comparables Introduction Solution possible : corpus comparables Texte FR cancer du sein Texte EN cancer du sein Ipsen is participating in studies conducted under the auspices of the IBCSG for the treatment of premenopausal breast cancer. These studies compare conventional treatment methods with hormone therapy combining Decapeptyl R with estrogen suppressor agents. Their findings could lead to a revision of treatment guidelines for breast cancer in pre-menopausal women expressing hormonal receptors. Hormonoth´erapie Dans environ deux tiers des cancers du sein, les cellules canc´ereuses pr´esentent des r´ecepteurs hormonaux en exc`es. La tumeur est alors dite hormonosensible car les œstrog`enes stimulent la prolif´eration canc´ereuse par l’interm´ediaire des r´ecepteurs. Les traitements agiront soit en diminuant le taux d’œstrog`enes dans le sang, soit en bloquant les r´ecepteurs hormonaux 6 / 41
  • 7. Traduction assist´ee par ordinateur et corpus comparables Introduction Solution possible : corpus comparables Texte FR cancer du sein Texte EN cancer du sein Ipsen is participating in studies conducted under the auspices of the IBCSG for the treatment of premenopausal breast cancer. These studies compare conventional treatment methods with hormone therapy combining Decapeptyl R with estrogen suppressor agents. Their findings could lead to a revision of treatment guidelines for breast cancer in pre-menopausal women expressing hormonal receptors. Hormonoth´erapie Dans environ deux tiers des cancers du sein, les cellules canc´ereuses pr´esentent des r´ecepteurs hormonaux en exc`es. La tumeur est alors dite hormonosensible car les œstrog`enes stimulent la prolif´eration canc´ereuse par l’interm´ediaire des r´ecepteurs. Les traitements agiront soit en diminuant le taux d’œstrog`enes dans le sang, soit en bloquant les r´ecepteurs hormonaux 6 / 41
  • 8. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables 7 / 41
  • 9. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] 7 / 41
  • 10. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] CLIR augmentation du lexique bilingue utilis´e par le syst`eme de RI : +0.016 MAP [Li et al., 2011] 7 / 41
  • 11. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] CLIR augmentation du lexique bilingue utilis´e par le syst`eme de RI : +0.016 MAP [Li et al., 2011] Traduction non assist´ee am´eliorations qualitatives [Zanettin, 1998, Friedbichler and Friedbichler, 1997, Mc Enery and Xiao, 2007] 7 / 41
  • 12. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] CLIR augmentation du lexique bilingue utilis´e par le syst`eme de RI : +0.016 MAP [Li et al., 2011] Traduction non assist´ee am´eliorations qualitatives [Zanettin, 1998, Friedbichler and Friedbichler, 1997, Mc Enery and Xiao, 2007] TAO ? 7 / 41
  • 13. Traduction assist´ee par ordinateur et corpus comparables Introduction Objectifs de la th`ese 1. ´Evaluer l’int´erˆet des corpus comparables pour la TAO 2. Am´eliorer/Proposer des modalit´es d’exploitation pour la TAO 8 / 41
  • 14. Traduction assist´ee par ordinateur et corpus comparables Introduction Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 9 / 41
  • 15. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 10 / 41
  • 16. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables M´ethode d’extraction classique 11 / 41
  • 17. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires 12 / 41
  • 18. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} 12 / 41
  • 19. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...} 12 / 41
  • 20. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} {instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...} biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...} 12 / 41
  • 21. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} {instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...} calcul similarit´e : 0.34 biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...} 12 / 41
  • 22. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances 13 / 41
  • 23. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates 13 / 41
  • 24. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20 13 / 41
  • 25. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20 Difficult´e (vs. corpus parall`eles) : espace de recherche tr`es vaste traduction peut ˆetre absente 13 / 41
  • 26. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20 Difficult´e (vs. corpus parall`eles) : espace de recherche tr`es vaste traduction peut ˆetre absente ´Evaluation par r´ef´erence : capacit´e `a reproduire un lexique construit a priori quid de l’apport en contexte d’utilisation r´eel ? 13 / 41
  • 27. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 14 / 41
  • 28. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Lexique ´evalu´e Extrait d’un corpus comparable cancer du sein EN-FR Interface riche [Delpech and Daille, 2010]: acc`es aux contextes, recherche en corpus, variantes orthographiques, termes proches, fr´equence, etc. 15 / 41
  • 29. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine M´ethodologie d’´evaluation [Delpech, 2011a, Delpech, 2011b] 16 / 41
  • 30. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine M´ethodologie d’´evaluation Objet ´evalu´e : expressions probl´ematiques Mesure : % de traductions exactes, acceptables, fausses 17 / 41
  • 31. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine R´esultats 18 / 41
  • 32. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances 19 / 41
  • 33. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances Trop de termes sources non couverts ⇒ collecte du corpus 19 / 41
  • 34. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions 19 / 41
  • 35. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions Pas assez pr´ecis, trop de traductions candidates ⇒ diminuer le nombre de traductions ⇒ approche compositionnelle [Morin and Daille, 2010] 19 / 41
  • 36. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 20 / 41
  • 37. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe 21 / 41
  • 38. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” 21 / 41
  • 39. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} 21 / 41
  • 40. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} Traduction {A, B} {bleu, colorant} 21 / 41
  • 41. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} Traduction {A, B} {bleu, colorant} Recomposition {AB, BA} {bleu colorant, colorant bleu} 21 / 41
  • 42. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} Traduction {A, B} {bleu, colorant} Recomposition {AB, BA} {bleu colorant, colorant bleu} S´election “BA” “colorant bleu” 21 / 41
  • 43. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables 22 / 41
  • 44. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables Peu/pas d´ependant de la fr´equence des termes 22 / 41
  • 45. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables Peu/pas d´ependant de la fr´equence des termes Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20 [Morin and Daille, 2010] 22 / 41
  • 46. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables Peu/pas d´ependant de la fr´equence des termes Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20 [Morin and Daille, 2010] Concerne de nombreux cas : 60% des nouveaux termes sont complexes [Namer and Baud, 2007] 48,7% des compos´es Nom Nom ont une traduction compositionnelle [?] 75,1% des unit´es polylexicales ont une traduction compositionnelle [Robitaille et al., 2006] 22 / 41
  • 47. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation 23 / 41
  • 48. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique 23 / 41
  • 49. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique 23 / 41
  • 50. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : 23 / 41
  • 51. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : compos´es nominaux allemands ¡ SN [Weller et al., 2011] 23 / 41
  • 52. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : compos´es nominaux allemands ¡ SN [Weller et al., 2011] [ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] : alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri} 23 / 41
  • 53. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : compos´es nominaux allemands ¡ SN [Weller et al., 2011] [ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] : alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri} ⇒ Am´eliorer le traitement de la fertilit´e dans l’approche compositionnelle 23 / 41
  • 54. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions 24 / 41
  • 55. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions D´ecoupage en morph`emes antioxydant ¡ anti+oxydant mouthwash ¡ mouth+wash 24 / 41
  • 56. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions D´ecoupage en morph`emes antioxydant ¡ anti+oxydant mouthwash ¡ mouth+wash ´Equivalence morph`eme li´e → morph`eme libre tumorectomy ¡ ablation (de la) tumeur randomly ¡ (de) mani`ere randomis´ee postm´enopause ¡ apr`es (la) m´enopause 24 / 41
  • 57. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions D´ecoupage en morph`emes antioxydant ¡ anti+oxydant mouthwash ¡ mouth+wash ´Equivalence morph`eme li´e → morph`eme libre tumorectomy ¡ ablation (de la) tumeur randomly ¡ (de) mani`ere randomis´ee postm´enopause ¡ apr`es (la) m´enopause Ne pas n´ecessairement conserver la fronti`ere de morph`eme : mouth+wash ¡ bain (de) bouche 24 / 41
  • 58. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e Limite : fertilit´e “de surface” (bijection entre morph`emes sources et cibles) 25 / 41
  • 59. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e Limite : fertilit´e “de surface” (bijection entre morph`emes sources et cibles) trait´e non trait´e 25 / 41
  • 60. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees 26 / 41
  • 61. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] 26 / 41
  • 62. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] 26 / 41
  • 63. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] 26 / 41
  • 64. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] 26 / 41
  • 65. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] pr´efix´e ¡ pr´efix´e [Cartoni, 2009] 26 / 41
  • 66. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] pr´efix´e ¡ pr´efix´e [Cartoni, 2009] compos´e nominal ¡ compos´e nominal ou SN [Weller et al., 2011] 26 / 41
  • 67. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] pr´efix´e ¡ pr´efix´e [Cartoni, 2009] compos´e nominal ¡ compos´e nominal ou SN [Weller et al., 2011] ⇒ Am´eliorer la g´en´ericit´e 26 / 41
  • 68. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Am´elioration de la g´en´ericit´e 27 / 41
  • 69. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Am´elioration de la g´en´ericit´e Pas d’a priori sur les structures : pas de patrons de traductions 27 / 41
  • 70. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Am´elioration de la g´en´ericit´e Pas d’a priori sur les structures : pas de patrons de traductions Approche par “force brute”: g´en´eration de toutes les traductions possibles filtrage sur le corpus cible + ranking 27 / 41
  • 71. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 72. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 73. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 74. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 75. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 76. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 77. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 78. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 79. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 80. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  • 81. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule 29 / 41
  • 82. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule ↓ toxique (prep|det|num|conj){0,3} cellule 29 / 41
  • 83. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule ↓ toxique (prep|det|num|conj){0,3} cellule Projection corpus : “...substance est toxique pour les cellules de cancer...” “...m´edicaments toxiques pour la cellule canc´ereuse...” 29 / 41
  • 84. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule ↓ toxique (prep|det|num|conj){0,3} cellule Projection corpus : “...substance est toxique pour les cellules de cancer...” “...m´edicaments toxiques pour la cellule canc´ereuse...” ⇒toxique/Adj pour/Prep le/Det cellule/Nom 29 / 41
  • 85. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Ranking multi-crit`eres [Delpech et al., 2012a] C similarit´e des Contextes source et cible F Fr´equence traduction P probabilit´e traduction Parties du discours M fiabilit´e Modes de traduction Combinaison : C + F + P + M apr`es standardisation 30 / 41
  • 86. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  • 87. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  • 88. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue Traduction EN¡ FR et EN ¡ DE 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  • 89. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue Traduction EN¡ FR et EN ¡ DE Unit´es monolexicales morphologiquement complexes compos´es n´eoclassiques : tumorectomy compos´es populaires : docetaxel-induced pr´efix´es : anti-oestrogen suffix´es : colourless 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  • 90. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue Traduction EN¡ FR et EN ¡ DE Unit´es monolexicales morphologiquement complexes compos´es n´eoclassiques : tumorectomy compos´es populaires : docetaxel-induced pr´efix´es : anti-oestrogen suffix´es : colourless S´election : non traduites par le dictionnaire bilingue traduction non pr´esente dans le corpus cible 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  • 91. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori vs. a posteriori [Ozdowska, 2006] 32 / 41
  • 92. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori vs. a posteriori [Ozdowska, 2006] A priori utilisation d’un lexique de r´ef´erence id´eal pour comparaison ´evaluation du rappel ⇒ vision biais´ee des performances en situation d’utilisation : traduction se trouve dans la partie cible 32 / 41
  • 93. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori vs. a posteriori [Ozdowska, 2006] A priori utilisation d’un lexique de r´ef´erence id´eal pour comparaison ´evaluation du rappel ⇒ vision biais´ee des performances en situation d’utilisation : traduction se trouve dans la partie cible A posteriori annotation des sorties par des juges plus subjectif seuls couverture et pr´ecision ´evaluables ⇒ plus fid`ele `a la performances en situation d’utilisation 32 / 41
  • 94. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori R´esultats UMLS R Pmax P@1 al´ea P@1 rank F1 @1 rank EN-FR .52 .80 .65 .75 .61 EN-DE .51 .70 .53 .58 .54 33 / 41
  • 95. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori R´esultats UMLS R Pmax P@1 al´ea P@1 rank F1 @1 rank EN-FR .52 .80 .65 .75 .61 EN-DE .51 .70 .53 .58 .54 UMLS + annotations juges, ex. : bioavailable ¡ biodisponibilit´e R Pmax P@1 al´ea P@1 rank F1 @1 rank EN-FR .63 .95 .92 .95 .76 EN-DE .66 .89 .81 .87 .75 33 / 41
  • 96. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori Travaux similaires Compositionnelle P R F1 [Robitaille et al., 2006] SN .81 .82 .81 [Baldwin and Tanaka, 2004] N N .51 .47 .49 + trad. acceptables .78 .72 .75 [Cartoni, 2009] pr´efix´es .42-.94 [Morin and Daille, 2010] N ADJ .88 .13 .23 [Harastani, 2014] n´eoclassique .95-1 .2-.12 .5-.22 ML P R F1 [Claveau and Kijak, 2011] n´eoclassique .63 .45 .53 + autres ressources .89 .64 .74 34 / 41
  • 97. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori 35 / 41
  • 98. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : 35 / 41
  • 99. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision 35 / 41
  • 100. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) 35 / 41
  • 101. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) Utilisabilit´e % termes sources avec au moins 1 traduction correcte (C× P) 35 / 41
  • 102. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) Utilisabilit´e % termes sources avec au moins 1 traduction correcte (C× P) R´esultats : C P U EN-FR .40 .59 .24 EN-DE .36 .48 .18 35 / 41
  • 103. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) Utilisabilit´e % termes sources avec au moins 1 traduction correcte (C× P) R´esultats : C P U EN-FR .40 .59 .24 EN-DE .36 .48 .18 PA UA .69 .28 .56 .20 35 / 41
  • 104. Traduction assist´ee par ordinateur et corpus comparables Conclusion Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 36 / 41
  • 105. Traduction assist´ee par ordinateur et corpus comparables Conclusion Peut-on utiliser les corpus comparables pour extraire des lexiques bilingues utiles pour les traducteurs ? Approche par similarit´e contextuelle : forte couverture mais lexiques trop ambigus Approche compositionnelle : r´eduit le nombre de traductions mais cantonn´ee aux ´el´ements avec traduction compositionnelle 20% `a 28% avec une traduction correcte 37 / 41
  • 106. Traduction assist´ee par ordinateur et corpus comparables Conclusion Tr`es ambitieux en l’´etat actuel Lexique obtenu tr`es r´eduit ou trop ambigu Difficile d’augmenter le corpus th´ematique fine, forte comparabilit´e peu de textes sp´ecialis´es Difficult´e inh´erente aux corpus comparables : seulement une partie du vocabulaire en commun 38 / 41
  • 107. Traduction assist´ee par ordinateur et corpus comparables Conclusion Perspectives I Peu utile pour la phase de traduction proprement dite Utile pour : phase d’exploration / familiarisation avec le domaine [Durieux, 2010] assistance `a la consistution de ressources lexicales sp´ecialis´ees/terminologiques 39 / 41
  • 108. Traduction assist´ee par ordinateur et corpus comparables Conclusion Perspectives II Conclusion : aider `a l’exploration de corpus comparables extraction, alignement de contextes pertinents outils de recherche avanc´es, concordanciers travailler avec les traducteurs/terminologues : automatiser les techniques Projet ANR CRISTAL : extraction de contextes riches en connaissance dans les corpus comparables (LINA, Lingua et Machina, CLLE-ERSS, FTI) 40 / 41
  • 109. Merci pour votre attention
  • 111. Traduction assist´ee par ordinateur et corpus comparables Taille donn´ees Donn´ees ´evaluation S termes sources R r´ef´erence a priori P r´ef´erence a posteriori R ∩ P = ∅ T donn´ees apprentissage rankking T = P R E donn´ees ´evaluation du mod ranking E = P ∩ R 43 / 41
  • 112. Traduction assist´ee par ordinateur et corpus comparables Taille donn´ees Lexiques ´evaluation EN-FR EN-DE 1839 1824 Table: Termes sources `a traduire EN-FR EN-DE 126 ¡ 163 90 ¡ 104 Table: Lexique ´evaluation a priori EN-FR EN-DE 730 ¡ 2129 654 ¡ 2016 Table: Lexique ´evaluation a posteriori 44 / 41
  • 113. Traduction assist´ee par ordinateur et corpus comparables Apport mod`ele g´en´erique G´en´ericit´e du mod`ele : m´ethodes test´ees Pr´efixation : pretreatment ¡ pr´e-traitement Composition savante : hypercalcaemia ¡ hypercalc´emie Composition populaire : acute-phase ¡ Akutphase, akuten Phase Cognat : t-test ¡ t-Test 45 / 41
  • 114. Traduction assist´ee par ordinateur et corpus comparables Apport mod`ele g´en´erique G´en´ericit´e du mod`ele : r´esultats Composition savante, pr´efixation : m´ethodes tr`es pr´ecises (>0.92) mais petite couverture (<0.03) Composition populaire : petite couverture, moyennement pr´ecise (0.62 `a 0.65) Cognats : meilleure couverture (0.10 `a 0.13), pr´ecision moyenne `a bonne (0.66 `a 0.81) Notre m´ethode : large couverture : 0.36 `a 0.40 pr´ecision moyenne : 0.68 `a 0.56 utilisabilit´e meilleure : 0.20 `a 0.28 vs. cognats 0.07 `a 0.10 46 / 41
  • 115. G´en´ericit´e I C PE UE PEA UEA Composition savante (18%) ,03 ,95 ,03 1 ,03 Cognat ,13 ,66 ,08 ,81 ,10 Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03 Pr´efixation (31%) ,02 ,90 ,02 ,97 ,02 Notre m´ethode ,40 ,59 ,24 ,69 ,28 Table: anglais ¡ fran¸cais
  • 116. G´en´ericit´e II C PE UE PEA UEA Composition savante (18%) ,03 ,96 ,02 ,98 ,02 Cognat ,10 ,58 ,06 ,66 ,07 Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03 Pr´efixation (32%) ,03 ,86 ,02 ,92 ,03 Notre m´ethode ,36 ,48 ,17 ,56 ,20 Table: anglais ¡ allemand
  • 117. Traduction assist´ee par ordinateur et corpus comparables Apport mod`ele g´en´erique G´en´ericit´e du mod`ele : discussion Variation morphologique : pretreatment ¡ pr´etraiter, cardiotoxicity¡ cardiotoxique, time-consuming ¡ consommateur de temps Fertilit´e : pretreatment ¡ avant le traitement, hypercalcaemia ¡ zu viel calcium in das blut Cognats : aromatase-inhibiting ¡ hemmung der aromatase‘inhibition de l’aromatase’ Suffixes : colorless ¡ sans colorant, randomly ¡ (de) mani`ere randomis´ee Strat´egie de repli : ribosome ¡ ribosomique 49 / 41
  • 118. Traduction assist´ee par ordinateur et corpus comparables Apport ressources linguistiques Apport des ressources linguistiques Syst`eme de base : dictionnaire g´en´eraliste et table de traduction des morph`emes Synonymes : pas adapt´es (bloodstream ¡ courant sanguin ¡ circulation sanguine) Familles morphologiques : +0.09 `a 0.11 de couverture ; +0.04 `a 0.06 d’utilisabilit´e Cognats : + 0.12 de couverture ; +0.06 `a 0.09 d’utilisabilit´e Combinaison : + 0.17 `a 0.24 couverture ; +0.10 `a 0.16 utilisabilit´e 50 / 41
  • 119. Ressources linguistiques I C PE UE PEA UEA Base ,16 ,73 ,12 ,77 ,12 Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21 Base + familles morphologiques ,27 ,56 ,15 ,66 ,18 Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13 Toutes les ressources ,40 ,59 ,24 ,69 ,28 Table: anglais ¡ fran¸cais
  • 120. Ressources linguistiques II C PE UE PEA UEA Base ,15 ,60 ,09 ,63 ,10 Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16 Base + familles morphologiques ,24 ,48 ,12 ,57 ,14 Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10 Toutes les ressources ,36 ,48 ,17 ,56 ,20 Table: anglais ¡ allemand
  • 121. Traduction assist´ee par ordinateur et corpus comparables Apport traductions fertiles Apport des traductions fertiles Traductions fertiles nettement moins pr´ecises (-0.20 `a -0.39) Combinaison aux traductions non fertiles int´eressante (+6 `a 10 points utilisabilit´e) 53 / 41
  • 122. Traductions fertiles I C PE UE PEA UEA Traductions non fertiles ,24 ,58 ,14 ,75 ,18 Traductions fertiles ,24 ,52 ,12 ,55 ,13 Traductions non fertiles ,24 ,58 ,14 ,75 ,18 Toutes les traductions ,40 ,59 , 24 ,69 ,28 Table: anglais ¡ fran¸cais
  • 123. Traductions fertiles II C PE UE PEA UEA Traductions non fertiles ,24 ,58 ,14 ,69 ,16 Traductions fertiles ,20 ,26 ,05 ,30 ,06 Traductions non fertiles ,24 ,58 ,14 ,69 ,16 Toutes les traductions ,36 ,48 ,17 ,56 ,20 Table: anglais ¡ allemand
  • 124. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking Nombre de traductions candidates 56 / 41
  • 125. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking Donn´ees exp´erimentales 57 / 41
  • 126. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking R´esultats Comparaison des crit`eres : Contextes : moins bon crit`ere (0.80 `a 0.88 Top1) Fiabilit´e des modes de traduction : meilleur crit`ere (0.82 `a 0.93 Top1) Meilleures m´ethodes (0.85 `a 0.93, +5 `a 9 points vs. al´eatoire, Top1) : Combinaison non pond´er´ee Combinaison pond´er´ee Coordinate Ascent, AdaRank 58 / 41
  • 127. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking R´esultats anglais ¡ fran¸cais Top1 Top2 Top3 RPM Meilleure pr´ecision possible ,94 ,94 ,94 1 Combinaison non pond´er´ee ,928 ,94 ,94 2 Combinaison pond´er´ee ,928 ,94 ,94 2 Coordinate Ascent ,928 ,94 ,94 2 Lambda MART ,928 ,94 ,94 2 M ,928 ,94 ,94 2 F ,916 ,928 ,94 3 AdaRank ,892 ,904 ,928 4 P ,892 ,904 ,928 4 C ,88 ,904 ,928 4 Al´eatoire ,836 ,898 ,928 13 59 / 41
  • 128. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking R´esultats anglais ¡ allemand Top1 Top2 Top3 RPM Meilleure pr´ecision possible ,879 ,879 ,879 1 Combinaison pond´er´ee ,848 ,879 ,879 2 Lambda MART ,848 ,864 ,864 5 Combinaison non pond´er´ee ,833 ,864 ,879 3 Coordinate Ascent ,833 ,864 ,879 3 F ,833 ,848 ,879 3 AdaRank ,833 ,848 ,848 17 P ,833 ,848 ,848 17 M ,818 ,864 ,879 3 C ,803 ,864 ,864 28 Al´eatoire ,77 ,832 ,846 28 60 / 41
  • 129. Traduction assist´ee par ordinateur et corpus comparables R´ef´erences Principales publications Th`ese FR Delpech (2013) : “Traduction assist´ee par ordinateur et corpus comparables”, Th`ese de doctorat en Informatique, Universit´e de Nantes, France, 265 pages. EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE Wiley, London, 287 pages. ´Evaluation applicative FR, long Delpech (2011) : “Un protocole d’´evaluation applicative des terminologies bilingues destin´ees `a la traduction sp´ecialis´ee”, Revue des Nouvelles Technologies de l’Information (RNTI), vol. RNTI-E-22, pp. 23–48. EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora: an Application Perspective”, Proc. of the 18th Nordic Conference of Computational Linguistics (NODALIDA), pp. 66–73, Riga, Lettonie. G´en´eration de lexiques bilingues EN, Fertilit´e Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable Corpora”, 10th biennial Conference of the Association for Machine Translation in the Americas (AMTA’12), 10 pages, San Diego, CA. EN,G´en´eration+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon from comparable corpora: compositional translation and ranking”, Proc. of the 24th International Conference on Computational Linguistics, Long papers (COLING’12), pp. 745–762, Mumbia, India. 61 / 41
  • 130. R´ef´erences I Baker, M. (1996). Corpus-based translation studies: The challenges that lie ahead. In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour of Juan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, ´Etats-Unis d’Am´erique. Baldwin, T. and Tanaka, T. (2004). Translation by machine of complex nominals. In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31, Barcelona, Spain. Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011). Libellex : une plateforme multiservices pour la gestion des contenus multilingues. In Lafourcade, M. and Prince, V., editors, Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles, volume 2, page 319, Montpellier, France. Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan, J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012). Domain adaptation in machine translation: Final report. In 2012 Johns Hopkins Summer Workshop Final Report. derni`ere consultation le 01/02/2013. Cartoni, B. (2009). Lexical morphology in machine translation: A feasibility study. In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Ath`enes, Gr`ece. Claveau, V. and Kijak, E. (2011). Morphological analysis of biomedical terminology with Analogy-Based alignment. In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011, pages 347–354, Hissar, Bulgaria.
  • 131. R´ef´erences II Delpech, E. (2011a). Evaluation of terminologies acquired from comparable corpora : an application perspective. In Pedersen B.S., Ne˘spore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia. Delpech, E. (2011b). Un protocole d’´evaluation applicative des terminologies bilingues destin´ees `a la traduction sp´ecialis´ee. Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ero sp´ecial : Evaluation des m´ethodes d’Extraction de Connaissances dans les Donn´ees (Eval’ECD). Delpech, E. and Daille, B. (2010). Dealing with lexicon acquired from comparable corpora : validation and exchange. In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages 211–223, Dublin, Ireland. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a). Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and ranking. In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai, Inde. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b). Identification of fertile translations in medical comparable corpora: a morpho-compositional approach. In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas, San Diego, California. Durieux, C. (2010). Fondement didactique de la traduction technique. La maison du dictionnaire, Paris, France.
  • 132. R´ef´erences III Friedbichler, I. and Friedbichler, M. (1997). The potential of domain-specific target-language corpora for the translator’s workbench. In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie. Fung, P. (1997). Finding terminology translations from non-parallel corpora. In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong. Harastani, R. (2014). Alignement lexical en corpus comparables : le cas des compos´es savants et des adjectifs relationnels. Th`ese de doctorat en informatique, Universit´e de Nantes, Nantes, France. L´eon, S. (2008). Acquisition automatique de traductions d’unit´es lexicales complexes `a partir du Web. Th`ese en sciences du langage - traitement automatique des langues, Universit´e de Provence - Aix-Marseille I, Marseille, France. Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011). Degr´e de comparabilit´e, extraction lexicale et recherche d’information interlingue. In Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles, pages 283–293, Montpellier, France. Mc Enery, A. M. and Xiao, R. Z. (2007). Parallel and comparable corpora: What is happening? In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating Europe, pages 18–31. Multilingual Matters, Clevedon, UK. Morin, E. and Daille, B. (2010). Compositionality and lexical alignment of multi-word terms. In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation (LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
  • 133. R´ef´erences IV Namer, F. and Baud, R. (2007). Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system. International Journal of Medical Informatics, 76(2-3):226–33. Ozdowska, S. (2006). ALIBI, un syst`eme d’ALIgnement BIlingue `a base de r`egles de propapagation syntaxique. Th`ese de doctorat en sciences du langage, Universit´e Toulouse II Le Mirail, Toulouse, France. Rapp, R. (1999). Automatic Identification of Word Translations from Unrelated English and German Corpora. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), pages 519–526, College Park, MD, USA. Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006). Compiling French-Japanese terminologies from the web. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, pages 225–232, Trento, Italy. ˇS. Vintar (2010). Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation. Terminology, 16(2):141–158. Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011). Simple methods for dealing with term variation and term alignment. In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93, Paris, France. Zanettin, F. (1998). Bilingual comparable corpora and the training of translators. Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.