1. Traduction assist´ee par ordinateur et corpus
comparables
Conf´erence invit´ee : Prix de th`ese ATALA 2014
Estelle Delpech
Responsable scientifique, Nomao
www.nomao.com/labs
Travaux de th`ese effectu´es au LINA sous la direction de B. Daille et E. Morin
TALN’14 – 2 juillet 2014 – Marseille, France
2. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Contexte
Lingua et Machina logiciels de Traduction Assist´ee par Ordinateur
et Traduction Automatique
[Brown de Colstoun et al., 2011]
ANR Metricc exploitation des corpus comparables pour:
recherche d’information interlingue
cat´egorisation multilingue
traduction assist´ee par ordinateur
2 / 41
3. Traduction assist´ee par ordinateur et corpus comparables
Introduction
La Traduction Assist´ee par Ordinateur (TAO)
TAO Technologies permettant aux humains de mieux
traduire
pr´e-traduction
logiciels de gestion terminologique
m´emoires de traduction
= TA Traduction sans intervention humaine
3 / 41
4. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Mat´eriau de base : historique de traductions (corpus
parall`ele)
4 / 41
5. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Limite des corpus parall`eles
Disponibilit´e
nouveaux domaines ?
langues peu dot´ees ?
Risque qualitatif
Partie Cible : variante de la langue cible appel´ee translecte
(“translationese”)
[Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007]
5 / 41
6. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR cancer du sein Texte EN cancer du sein
Ipsen is participating in studies
conducted under the auspices of the
IBCSG for the treatment of
premenopausal breast cancer. These
studies compare conventional
treatment methods with hormone
therapy combining Decapeptyl R
with estrogen suppressor agents.
Their findings could lead to a
revision of treatment guidelines for
breast cancer in pre-menopausal
women expressing hormonal
receptors.
Hormonoth´erapie
Dans environ deux tiers des cancers
du sein, les cellules canc´ereuses
pr´esentent des r´ecepteurs
hormonaux en exc`es. La tumeur est
alors dite hormonosensible car les
œstrog`enes stimulent la prolif´eration
canc´ereuse par l’interm´ediaire des
r´ecepteurs. Les traitements agiront
soit en diminuant le taux
d’œstrog`enes dans le sang, soit en
bloquant les r´ecepteurs hormonaux
6 / 41
7. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR cancer du sein Texte EN cancer du sein
Ipsen is participating in studies
conducted under the auspices of the
IBCSG for the treatment of
premenopausal breast cancer.
These studies compare conventional
treatment methods with hormone
therapy combining Decapeptyl R
with estrogen suppressor agents.
Their findings could lead to a
revision of treatment guidelines for
breast cancer in pre-menopausal
women expressing hormonal
receptors.
Hormonoth´erapie
Dans environ deux tiers des cancers
du sein, les cellules canc´ereuses
pr´esentent des r´ecepteurs
hormonaux en exc`es. La tumeur est
alors dite hormonosensible car les
œstrog`enes stimulent la
prolif´eration canc´ereuse par
l’interm´ediaire des r´ecepteurs. Les
traitements agiront soit en
diminuant le taux d’œstrog`enes dans
le sang, soit en bloquant les
r´ecepteurs hormonaux
6 / 41
8. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
7 / 41
9. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
7 / 41
10. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilis´e par le
syst`eme de RI : +0.016 MAP [Li et al., 2011]
7 / 41
11. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilis´e par le
syst`eme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assist´ee am´eliorations qualitatives
[Zanettin, 1998, Friedbichler and Friedbichler, 1997,
Mc Enery and Xiao, 2007]
7 / 41
12. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :
+0.02 `a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilis´e par le
syst`eme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assist´ee am´eliorations qualitatives
[Zanettin, 1998, Friedbichler and Friedbichler, 1997,
Mc Enery and Xiao, 2007]
TAO ?
7 / 41
13. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Objectifs de la th`ese
1. ´Evaluer l’int´erˆet des corpus comparables pour la TAO
2. Am´eliorer/Proposer des modalit´es d’exploitation pour la TAO
8 / 41
14. Traduction assist´ee par ordinateur et corpus comparables
Introduction
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
9 / 41
15. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
10 / 41
16. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
M´ethode d’extraction classique
11 / 41
17. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
12 / 41
18. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
12 / 41
19. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...}
12 / 41
20. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
{instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...}
biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...}
12 / 41
21. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
Alignement par similarit´e contextuelle
Premiers travaux : [Rapp, 1999, Fung, 1997]
Hypoth`ese distributionnelle : deux mots de sens proche
tendent `a apparaˆıtre dans des contextes similaires
biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
{instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...}
calcul similarit´e : 0.34
biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...}
12 / 41
22. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
13 / 41
23. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
13 / 41
24. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20
13 / 41
25. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20
Difficult´e (vs. corpus parall`eles) :
espace de recherche tr`es vaste
traduction peut ˆetre absente
13 / 41
26. Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables
´Evaluation et performances
Pr´ecision sur le TopN : % de termes avec un traduction
correcte parmi les N premi`eres traductions candidates
Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20
Difficult´e (vs. corpus parall`eles) :
espace de recherche tr`es vaste
traduction peut ˆetre absente
´Evaluation par r´ef´erence :
capacit´e `a reproduire un lexique construit a priori
quid de l’apport en contexte d’utilisation r´eel ?
13 / 41
27. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
14 / 41
28. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Lexique ´evalu´e
Extrait d’un corpus comparable cancer du sein EN-FR
Interface riche [Delpech and Daille, 2010]: acc`es aux
contextes, recherche en corpus, variantes orthographiques,
termes proches, fr´equence, etc.
15 / 41
29. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
M´ethodologie d’´evaluation
[Delpech, 2011a, Delpech, 2011b]
16 / 41
30. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
M´ethodologie d’´evaluation
Objet ´evalu´e : expressions probl´ematiques
Mesure : % de traductions exactes, acceptables, fausses
17 / 41
31. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
R´esultats
18 / 41
32. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
19 / 41
33. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
Trop de termes sources non couverts
⇒ collecte du corpus
19 / 41
34. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
Trop de termes sources non couverts
⇒ collecte du corpus
Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
19 / 41
35. Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine
Difficult´es d’usage et r´esistances
Trop de termes sources non couverts
⇒ collecte du corpus
Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
Pas assez pr´ecis, trop de traductions candidates
⇒ diminuer le nombre de traductions
⇒ approche compositionnelle [Morin and Daille, 2010]
19 / 41
36. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
20 / 41
37. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
21 / 41
38. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
21 / 41
39. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
21 / 41
40. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
21 / 41
41. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
Recomposition {AB, BA} {bleu colorant, colorant bleu}
21 / 41
42. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
D´ecomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
Recomposition {AB, BA} {bleu colorant, colorant bleu}
S´election “BA” “colorant bleu”
21 / 41
43. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
22 / 41
44. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
Peu/pas d´ependant de la fr´equence des termes
22 / 41
45. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
Peu/pas d´ependant de la fr´equence des termes
Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20
[Morin and Daille, 2010]
22 / 41
46. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Int´erˆet pour les corpus comparables
Peu/pas d´ependant de la fr´equence des termes
Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20
[Morin and Daille, 2010]
Concerne de nombreux cas :
60% des nouveaux termes sont complexes
[Namer and Baud, 2007]
48,7% des compos´es Nom Nom ont une traduction
compositionnelle [?]
75,1% des unit´es polylexicales ont une traduction
compositionnelle [Robitaille et al., 2006]
22 / 41
47. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
23 / 41
48. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
23 / 41
49. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
23 / 41
50. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
23 / 41
51. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
compos´es nominaux allemands ¡ SN [Weller et al., 2011]
23 / 41
52. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
compos´es nominaux allemands ¡ SN [Weller et al., 2011]
[ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri}
23 / 41
53. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Gestion de la variation
Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]
gene therapy ¡ th´erapie g´enique
Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010]
machine translation ¡ traduction automatique
Fertilit´e :
compos´es nominaux allemands ¡ SN [Weller et al., 2011]
[ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri}
⇒ Am´eliorer le traitement de la fertilit´e dans l’approche
compositionnelle
23 / 41
54. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
24 / 41
55. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
D´ecoupage en morph`emes
antioxydant ¡ anti+oxydant
mouthwash ¡ mouth+wash
24 / 41
56. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
D´ecoupage en morph`emes
antioxydant ¡ anti+oxydant
mouthwash ¡ mouth+wash
´Equivalence morph`eme li´e → morph`eme libre
tumorectomy ¡ ablation (de la) tumeur
randomly ¡ (de) mani`ere randomis´ee
postm´enopause ¡ apr`es (la) m´enopause
24 / 41
57. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e [Delpech et al., 2012b]
Propositions
D´ecoupage en morph`emes
antioxydant ¡ anti+oxydant
mouthwash ¡ mouth+wash
´Equivalence morph`eme li´e → morph`eme libre
tumorectomy ¡ ablation (de la) tumeur
randomly ¡ (de) mani`ere randomis´ee
postm´enopause ¡ apr`es (la) m´enopause
Ne pas n´ecessairement conserver la fronti`ere de morph`eme :
mouth+wash ¡ bain (de) bouche
24 / 41
58. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e
Limite : fertilit´e “de surface” (bijection entre morph`emes sources
et cibles)
25 / 41
59. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilit´e
Limite : fertilit´e “de surface” (bijection entre morph`emes sources
et cibles)
trait´e non trait´e
25 / 41
60. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
26 / 41
61. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
26 / 41
62. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
26 / 41
63. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
26 / 41
64. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
26 / 41
65. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
pr´efix´e ¡ pr´efix´e [Cartoni, 2009]
26 / 41
66. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
pr´efix´e ¡ pr´efix´e [Cartoni, 2009]
compos´e nominal ¡ compos´e nominal ou SN
[Weller et al., 2011]
26 / 41
67. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existants
Structures trait´ees
SN ¡ SN [Robitaille et al., 2006, L´eon, 2008]
N N ¡ N N [Baldwin and Tanaka, 2004]
N Adj ¡ N Adj ou N N [Morin and Daille, 2010]
compos´e n´eoclassique ¡ compos´e n´eoclassique
[Harastani, 2014]
pr´efix´e ¡ pr´efix´e [Cartoni, 2009]
compos´e nominal ¡ compos´e nominal ou SN
[Weller et al., 2011]
⇒ Am´eliorer la g´en´ericit´e
26 / 41
68. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Am´elioration de la g´en´ericit´e
27 / 41
69. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Am´elioration de la g´en´ericit´e
Pas d’a priori sur les structures : pas de patrons de traductions
27 / 41
70. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Am´elioration de la g´en´ericit´e
Pas d’a priori sur les structures : pas de patrons de traductions
Approche par “force brute”:
g´en´eration de toutes les traductions possibles
filtrage sur le corpus cible + ranking
27 / 41
71. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
72. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
73. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
74. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
75. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
76. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
77. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
78. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
79. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
80. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
G´en´eration [Delpech et al., 2012a]
28 / 41
81. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
29 / 41
82. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
↓
toxique (prep|det|num|conj){0,3} cellule
29 / 41
83. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
“...substance est toxique pour les cellules de cancer...”
“...m´edicaments toxiques pour la cellule canc´ereuse...”
29 / 41
84. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic
↓
toxique cellule
↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
“...substance est toxique pour les cellules de cancer...”
“...m´edicaments toxiques pour la cellule canc´ereuse...”
⇒toxique/Adj pour/Prep le/Det cellule/Nom
29 / 41
85. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Ranking multi-crit`eres [Delpech et al., 2012a]
C similarit´e des Contextes source et cible
F Fr´equence traduction
P probabilit´e traduction Parties du discours
M fiabilit´e Modes de traduction
Combinaison : C + F + P + M apr`es standardisation
30 / 41
86. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
87. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
88. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
Traduction EN¡ FR et EN ¡ DE
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
89. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
Traduction EN¡ FR et EN ¡ DE
Unit´es monolexicales morphologiquement complexes
compos´es n´eoclassiques : tumorectomy
compos´es populaires : docetaxel-induced
pr´efix´es : anti-oestrogen
suffix´es : colourless
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
90. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Exp´erimentation
Corpus cancer du sein EN FR DE1, 400k mots par langue
Traduction EN¡ FR et EN ¡ DE
Unit´es monolexicales morphologiquement complexes
compos´es n´eoclassiques : tumorectomy
compos´es populaires : docetaxel-induced
pr´efix´es : anti-oestrogen
suffix´es : colourless
S´election :
non traduites par le dictionnaire bilingue
traduction non pr´esente dans le corpus cible
1
en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble
31 / 41
91. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori vs. a posteriori [Ozdowska, 2006]
32 / 41
92. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori utilisation d’un lexique de r´ef´erence
id´eal pour comparaison
´evaluation du rappel
⇒ vision biais´ee des performances en situation
d’utilisation : traduction se trouve dans la
partie cible
32 / 41
93. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori utilisation d’un lexique de r´ef´erence
id´eal pour comparaison
´evaluation du rappel
⇒ vision biais´ee des performances en situation
d’utilisation : traduction se trouve dans la
partie cible
A posteriori annotation des sorties par des juges
plus subjectif
seuls couverture et pr´ecision ´evaluables
⇒ plus fid`ele `a la performances en situation
d’utilisation
32 / 41
94. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori
R´esultats
UMLS
R Pmax P@1 al´ea P@1 rank F1 @1 rank
EN-FR .52 .80 .65 .75 .61
EN-DE .51 .70 .53 .58 .54
33 / 41
95. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori
R´esultats
UMLS
R Pmax P@1 al´ea P@1 rank F1 @1 rank
EN-FR .52 .80 .65 .75 .61
EN-DE .51 .70 .53 .58 .54
UMLS + annotations juges, ex. : bioavailable ¡ biodisponibilit´e
R Pmax P@1 al´ea P@1 rank F1 @1 rank
EN-FR .63 .95 .92 .95 .76
EN-DE .66 .89 .81 .87 .75
33 / 41
96. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a priori
Travaux similaires
Compositionnelle P R F1
[Robitaille et al., 2006] SN .81 .82 .81
[Baldwin and Tanaka, 2004] N N .51 .47 .49
+ trad. acceptables .78 .72 .75
[Cartoni, 2009] pr´efix´es .42-.94
[Morin and Daille, 2010] N ADJ .88 .13 .23
[Harastani, 2014] n´eoclassique .95-1 .2-.12 .5-.22
ML P R F1
[Claveau and Kijak, 2011] n´eoclassique .63 .45 .53
+ autres ressources .89 .64 .74
34 / 41
97. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
35 / 41
98. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
35 / 41
99. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
35 / 41
100. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
35 / 41
101. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
Utilisabilit´e % termes sources avec au moins 1 traduction
correcte (C× P)
35 / 41
102. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
Utilisabilit´e % termes sources avec au moins 1 traduction
correcte (C× P)
R´esultats :
C P U
EN-FR .40 .59 .24
EN-DE .36 .48 .18
35 / 41
103. Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
´Evaluation a posteriori
Mesures :
Pr´ecision
Couverture % termes sources avec au moins 1 traduction
(qq soit sa qualit´e)
Utilisabilit´e % termes sources avec au moins 1 traduction
correcte (C× P)
R´esultats :
C P U
EN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
104. Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Plan
1. M´ethode classique d’extraction de lexiques bilingues `a partir de
corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a la
traduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
36 / 41
105. Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Peut-on utiliser les corpus comparables pour extraire des
lexiques bilingues utiles pour les traducteurs ?
Approche par similarit´e contextuelle :
forte couverture mais lexiques trop ambigus
Approche compositionnelle :
r´eduit le nombre de traductions mais cantonn´ee aux ´el´ements
avec traduction compositionnelle
20% `a 28% avec une traduction correcte
37 / 41
106. Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Tr`es ambitieux en l’´etat actuel
Lexique obtenu tr`es r´eduit ou trop ambigu
Difficile d’augmenter le corpus
th´ematique fine, forte comparabilit´e
peu de textes sp´ecialis´es
Difficult´e inh´erente aux corpus comparables :
seulement une partie du vocabulaire en commun
38 / 41
107. Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Perspectives I
Peu utile pour la phase de traduction proprement dite
Utile pour :
phase d’exploration / familiarisation avec le domaine
[Durieux, 2010]
assistance `a la consistution de ressources lexicales
sp´ecialis´ees/terminologiques
39 / 41
108. Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Perspectives II
Conclusion : aider `a l’exploration de corpus comparables
extraction, alignement de contextes pertinents
outils de recherche avanc´es, concordanciers
travailler avec les traducteurs/terminologues : automatiser les
techniques
Projet ANR CRISTAL : extraction de contextes riches
en connaissance dans les corpus comparables (LINA,
Lingua et Machina, CLLE-ERSS, FTI)
40 / 41
111. Traduction assist´ee par ordinateur et corpus comparables
Taille donn´ees
Donn´ees ´evaluation
S termes sources
R r´ef´erence a priori
P r´ef´erence a
posteriori
R ∩ P = ∅
T donn´ees
apprentissage
rankking
T = P R
E donn´ees
´evaluation du
mod ranking
E = P ∩ R
43 / 41
112. Traduction assist´ee par ordinateur et corpus comparables
Taille donn´ees
Lexiques ´evaluation
EN-FR EN-DE
1839 1824
Table: Termes sources `a traduire
EN-FR EN-DE
126 ¡ 163 90 ¡ 104
Table: Lexique ´evaluation a priori
EN-FR EN-DE
730 ¡ 2129 654 ¡ 2016
Table: Lexique ´evaluation a posteriori
44 / 41
117. Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : discussion
Variation morphologique : pretreatment ¡ pr´etraiter,
cardiotoxicity¡ cardiotoxique, time-consuming
¡ consommateur de temps
Fertilit´e : pretreatment ¡ avant le traitement,
hypercalcaemia ¡ zu viel calcium in das blut
Cognats : aromatase-inhibiting ¡ hemmung der
aromatase‘inhibition de l’aromatase’
Suffixes : colorless ¡ sans colorant, randomly ¡ (de)
mani`ere randomis´ee
Strat´egie de repli : ribosome ¡ ribosomique
49 / 41
118. Traduction assist´ee par ordinateur et corpus comparables
Apport ressources linguistiques
Apport des ressources linguistiques
Syst`eme de base : dictionnaire g´en´eraliste et table de traduction
des morph`emes
Synonymes : pas adapt´es (bloodstream ¡ courant sanguin
¡ circulation sanguine)
Familles morphologiques : +0.09 `a 0.11 de couverture ; +0.04
`a 0.06 d’utilisabilit´e
Cognats : + 0.12 de couverture ; +0.06 `a 0.09 d’utilisabilit´e
Combinaison : + 0.17 `a 0.24 couverture ; +0.10 `a 0.16
utilisabilit´e
50 / 41
119. Ressources linguistiques I
C PE UE PEA UEA
Base ,16 ,73 ,12 ,77 ,12
Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21
Base + familles morphologiques ,27 ,56 ,15 ,66 ,18
Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13
Toutes les ressources ,40 ,59 ,24 ,69 ,28
Table: anglais ¡ fran¸cais
120. Ressources linguistiques II
C PE UE PEA UEA
Base ,15 ,60 ,09 ,63 ,10
Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16
Base + familles morphologiques ,24 ,48 ,12 ,57 ,14
Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10
Toutes les ressources ,36 ,48 ,17 ,56 ,20
Table: anglais ¡ allemand
121. Traduction assist´ee par ordinateur et corpus comparables
Apport traductions fertiles
Apport des traductions fertiles
Traductions fertiles nettement moins pr´ecises (-0.20 `a -0.39)
Combinaison aux traductions non fertiles int´eressante (+6 `a 10
points utilisabilit´e)
53 / 41
122. Traductions fertiles I
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,75 ,18
Traductions fertiles ,24 ,52 ,12 ,55 ,13
Traductions non fertiles ,24 ,58 ,14 ,75 ,18
Toutes les traductions ,40 ,59 , 24 ,69 ,28
Table: anglais ¡ fran¸cais
123. Traductions fertiles II
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,69 ,16
Traductions fertiles ,20 ,26 ,05 ,30 ,06
Traductions non fertiles ,24 ,58 ,14 ,69 ,16
Toutes les traductions ,36 ,48 ,17 ,56 ,20
Table: anglais ¡ allemand
124. Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
Nombre de traductions candidates
56 / 41
125. Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
Donn´ees exp´erimentales
57 / 41
126. Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats
Comparaison des crit`eres :
Contextes : moins bon crit`ere (0.80 `a 0.88 Top1)
Fiabilit´e des modes de traduction : meilleur crit`ere (0.82 `a
0.93 Top1)
Meilleures m´ethodes (0.85 `a 0.93, +5 `a 9 points vs. al´eatoire,
Top1) :
Combinaison non pond´er´ee
Combinaison pond´er´ee
Coordinate Ascent, AdaRank
58 / 41
127. Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats anglais ¡ fran¸cais
Top1 Top2 Top3 RPM
Meilleure pr´ecision possible ,94 ,94 ,94 1
Combinaison non pond´er´ee ,928 ,94 ,94 2
Combinaison pond´er´ee ,928 ,94 ,94 2
Coordinate Ascent ,928 ,94 ,94 2
Lambda MART ,928 ,94 ,94 2
M ,928 ,94 ,94 2
F ,916 ,928 ,94 3
AdaRank ,892 ,904 ,928 4
P ,892 ,904 ,928 4
C ,88 ,904 ,928 4
Al´eatoire ,836 ,898 ,928 13
59 / 41
128. Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats anglais ¡ allemand
Top1 Top2 Top3 RPM
Meilleure pr´ecision possible ,879 ,879 ,879 1
Combinaison pond´er´ee ,848 ,879 ,879 2
Lambda MART ,848 ,864 ,864 5
Combinaison non pond´er´ee ,833 ,864 ,879 3
Coordinate Ascent ,833 ,864 ,879 3
F ,833 ,848 ,879 3
AdaRank ,833 ,848 ,848 17
P ,833 ,848 ,848 17
M ,818 ,864 ,879 3
C ,803 ,864 ,864 28
Al´eatoire ,77 ,832 ,846 28
60 / 41
129. Traduction assist´ee par ordinateur et corpus comparables
R´ef´erences
Principales publications
Th`ese
FR Delpech (2013) : “Traduction assist´ee par ordinateur et corpus comparables”,
Th`ese de doctorat en Informatique, Universit´e de Nantes, France, 265 pages.
EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE
Wiley, London, 287 pages.
´Evaluation applicative
FR, long Delpech (2011) : “Un protocole d’´evaluation applicative des terminologies bilingues
destin´ees `a la traduction sp´ecialis´ee”, Revue des Nouvelles Technologies de
l’Information (RNTI), vol. RNTI-E-22, pp. 23–48.
EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora:
an Application Perspective”, Proc. of the 18th Nordic Conference of Computational
Linguistics (NODALIDA), pp. 66–73, Riga, Lettonie.
G´en´eration de lexiques bilingues
EN, Fertilit´e Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable
Corpora”, 10th biennial Conference of the Association for Machine Translation in
the Americas (AMTA’12), 10 pages, San Diego, CA.
EN,G´en´eration+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon from
comparable corpora: compositional translation and ranking”, Proc. of the 24th
International Conference on Computational Linguistics, Long papers (COLING’12),
pp. 745–762, Mumbia, India.
61 / 41
130. R´ef´erences I
Baker, M. (1996).
Corpus-based translation studies: The challenges that lie ahead.
In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour of
Juan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, ´Etats-Unis d’Am´erique.
Baldwin, T. and Tanaka, T. (2004).
Translation by machine of complex nominals.
In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31,
Barcelona, Spain.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.
In Lafourcade, M. and Prince, V., editors, Actes de la 18`eme conf´erences sur le traitement automatique des
langues naturelles, volume 2, page 319, Montpellier, France.
Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,
J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).
Domain adaptation in machine translation: Final report.
In 2012 Johns Hopkins Summer Workshop Final Report.
derni`ere consultation le 01/02/2013.
Cartoni, B. (2009).
Lexical morphology in machine translation: A feasibility study.
In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Ath`enes, Gr`ece.
Claveau, V. and Kijak, E. (2011).
Morphological analysis of biomedical terminology with Analogy-Based alignment.
In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,
pages 347–354, Hissar, Bulgaria.
131. R´ef´erences II
Delpech, E. (2011a).
Evaluation of terminologies acquired from comparable corpora : an application perspective.
In Pedersen B.S., Ne˘spore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational
Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2011b).
Un protocole d’´evaluation applicative des terminologies bilingues destin´ees `a la traduction sp´ecialis´ee.
Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ero sp´ecial : Evaluation des m´ethodes
d’Extraction de Connaissances dans les Donn´ees (Eval’ECD).
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.
In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages
211–223, Dublin, Ireland.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and
ranking.
In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,
Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.
In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,
San Diego, California.
Durieux, C. (2010).
Fondement didactique de la traduction technique.
La maison du dictionnaire, Paris, France.
132. R´ef´erences III
Friedbichler, I. and Friedbichler, M. (1997).
The potential of domain-specific target-language corpora for the translator’s workbench.
In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie.
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.
In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Harastani, R. (2014).
Alignement lexical en corpus comparables : le cas des compos´es savants et des adjectifs relationnels.
Th`ese de doctorat en informatique, Universit´e de Nantes, Nantes, France.
L´eon, S. (2008).
Acquisition automatique de traductions d’unit´es lexicales complexes `a partir du Web.
Th`ese en sciences du langage - traitement automatique des langues, Universit´e de Provence - Aix-Marseille
I, Marseille, France.
Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).
Degr´e de comparabilit´e, extraction lexicale et recherche d’information interlingue.
In Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles, pages 283–293,
Montpellier, France.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora: What is happening?
In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating
Europe, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.
In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation
(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
133. R´ef´erences IV
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.
International Journal of Medical Informatics, 76(2-3):226–33.
Ozdowska, S. (2006).
ALIBI, un syst`eme d’ALIgnement BIlingue `a base de r`egles de propapagation syntaxique.
Th`ese de doctorat en sciences du langage, Universit´e Toulouse II Le Mirail, Toulouse, France.
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.
In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),
pages 519–526, College Park, MD, USA.
Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006).
Compiling French-Japanese terminologies from the web.
In Proceedings of the 11th Conference of the European Chapter of the Association for Computational
Linguistics, pages 225–232, Trento, Italy.
ˇS. Vintar (2010).
Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation.
Terminology, 16(2):141–158.
Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011).
Simple methods for dealing with term variation and term alignment.
In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93,
Paris, France.
Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.
Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.