Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle

Traduction assist´e par ordinateur et corpus
e
comparables
Contributions ` la traduction compositionnelle
a

Estelle Delpech
Laboratoire d’Informatique de Nantes Atlantique
´quipe TALN
e
Directrice : Prof. B´atrice Daille
e
Co-encadrant : Prof. Emmanuel Morin

Soutenance de th`se
e
2 juillet 2013

Contexte : projet Metricc

Corpus comparables et :
recherche d’information interlingue
cat´gorisation multilingue
e
aide ` la traduction (Lingua et Machina, LINA)
a

Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e

Traduction assisté par ordinateur et corpus comparables
e
e

Difficult´s de la traduction technique
e
[Darbelnet, 1979, Durieux, 2010]
Terminologie Notions du domaine, termes associ´s
e
chemotherapy ¡ chimioth´rapie
e
neoangiogenesis ¡ nóangiogń`se
e
e e
“Mise en discours”
constructions syntaxiques, sous-cat´gorisation
e
spćifiques
e
usages stylistiques
vocabulaire de soutien :
patient-centred¡ centr´ sur le patient
e
randomly ¡ de mani`re randomisé
e
e

variation
5 / 55

e
e

Perspective de travail : acquisition de lexiques sp´cialis´s
e
e
bilingues

Aspects non consid´r´s : syntaxe, style
ee
Recherche d’´quivalences traductionnelles :
e
Unit´s ` traduire : toute une unit´ lexicale dont la traduction
e a
e
n’existe pas dans le dictionnaire g´n´raliste
e e
Perspective d’enrichissement
Prise en compte de la variation

6 / 55

e
e

Des corpus parall`les aux corpus comparables
e

Historiquement : lexiques extraits de traductions pass´es
e
(corpus parall`les)
e
Limite : nouveaux domaines

Corpus comparables sp´cialis´s
e
e
Ensemble de textes en langue L1 et L2 qui traitent
d’une mˆme th´matique relative ` un domaine de
e
e
a
connaissance sans ˆtre en relation de traduction
e

7 / 55

e
e

Usage des corpus comparables en traduction technique

Qualit´ reconnue par les experts de la traduction
e
[Zanettin, 1998, Mc Enery and Xiao, 2007] :
Usage “artisanal” et p´dagogique
e
Outils spćifiques existants
e
quelques prototypes universitaires
[Bennison and Bowker, 2000, Sharoff et al., 2006]
pas d’outil commercial

8 / 55

e
II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables
a

Architecture de l’extracteur

10 / 55

e
a

Extraction des unit´s ` aligner
e a

Unit´s polylexicales : groupes nominaux et verbaux extraits
e
par l’extracteur “terminologique” de Lingua et Machina
Unit´s monolexicales (adjectif, verbe, nom, adverbe)
e

11 / 55

e
a
M´thode d’alignement
e

e

Approche distributionnelle [Rapp, 1999, Fung, 1997] : deux
mots de sens proche tendent ` apparaˆ dans des contextes
a
ıtre
similaires

12 / 55

e
a
e

Implantation
Diverses am´liorations et variantes propos´es
e
e
[D´jean and Gaussier, 2002, Sadat et al., 2003,
e
Morin et al., 2004, Prochasson, 2010,
Hazem and Morin, 2012]
Implantation basique avec adaptation aux unit´s polylexicales
e
[Morin et al., 2004] et ﬁltre sur les cat´gories grammaticales
e
[Sadat et al., 2003]
R´sultats : 60% des unit´s ` traduire avec une traduction
e
e a
correcte parmi les 20 premiers candidats

13 / 55

e
M´thodologie et conditions exp´rimentales
e
e

M´thodologie d’´valuation
e
e

But : d´terminer dans quelle mesure le lexique bilingue
e
permet d’aider les traducteurs
M´thode : comparaison de la qualit´ des traductions
e
e
produites avec / sans les corpus comparables

15 / 55

e
e
e

e
e

16 / 55

e
e
e

e
e

Objet ´valu´ : expressions probl´matiques
e
e
e
Mesure : % de traductions exactes, acceptables, fausses

17 / 55

e
Exp´rimentation
e

Conditions exp´rimentales
e

Premi`re exp´rimentation visant ` ´prouver la m´thode
e
e
ae
e
3 traducteurs dont deux ´tudiant-e-s M2
e
2 th´matiques : cancer du sein, sciences de l’eau
e
Th´matique sciences de l’eau trop vaste ⇒pas
e
exploitable
´
Evaluation ﬁnale [Planas, 2011]
20 ´tudiants-traducteurs de M1
e
Donn´es cancer du sein
e

18 / 55

e
R´sultats
e

R´sultats
e

19 / 55

e
R´sultats
e

Diﬃcult´s d’usage
e
R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ collecte du corpus

Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions

Trop de traductions candidates
⇒ diminuer le nombre de traductions
⇒ approche compositionnelle [Morin and Daille, 2010]

20 / 55

e
Principe

Principe de la traduction compositionnelle

Principe de compositionalit´ : “Le sens du tout est fonction du
e
sens de ses constituants” [Keenan and Faltz, 1985,
pp. 24-25].
Adaptation ` la traduction : La traduction du tout est fontion de
a
la traduction de ses constituants.

22 / 55

e
Principe

Exemples de traductions possibles

23 / 55

e
D´ﬁs
e

Diﬃcult´s
e
Divergence morpho-syntaxique :
anti-cancer → anti-canc´reux
e
Divergence lexicale :
traduction automatique → machine translation
Fertilit´ :
e
hysterectomy →ablation de l’ut´rus
e
Variation terminologique :
mixed departmentalization → d´partementalisation
e
mixte, structuration mixte

24 / 55

e
D´fis
e

Aspects pas ou peu trait´s
e

Fertilit´
e
Termes monolexicaux : approches spćifiques ` un type de
e
a
construction morphologique
prefixe1 +base2 ¡ pr´fixe1 +base2
e

Ordonnancement / s´lection des traductions : filtres simples
e
ou pas adapt´s
e

25 / 55

e
D´fis
e

Propositions

Termes monolexicaux : ˆtre moins spćifique sur les structures
e
e
morphologiques
Traiter la fertilit´ par l’alternance morph`me libre / morph`me
e
e
e
li´
e
cyto1 toxic2 ¡ toxique2 (pour les) cellules1

Explorer l’apport des crit`res d’ordonnancement et leur
e
combinaison

26 / 55

e
G´n´ration de traductions candidates :: Principe
e e

Fonctionnement de base

Traduire(“ab”) :
= S(R(T (D(“ab”))))
= S(R(T ({a, b})))
= S(R({T (a) × T (b)}))
= S(R({a, b}))
= S({a, b}, {b, a})
= “ba”

29 / 55

e
Gń´ration de traductions candidates :: Spćificit´s de la m´thode proposé
e e
e
e
e
e

Dćomposition
e

Peu de r`gles :
e
appariemment entrés ressources, contraintes longueur
e

Tous les dćoupages possibles
e
non-cytotoxic ¡ {non, cyto, toxic}, {noncyto, toxic}, {non,
cytotoxic}, {noncytotoxic}

30 / 55

e
e e
e
e
e
e

Traduction
´
Equivalences traductionnelles entre morph`mes libres et li´s
e
e
cyto ¡ cellule : cytotoxique ¡ toxique pour les cellules

Nombreuses ressources : familles morphologiques, synonymes,
cognats
available ¡ disponible ¡ disponibilit´ : bioavailable
e
¡ biodisponibilit´
e
anastrozole-associated ¡ associ´ a de l’anastrozole
e`

Strat´gie de repli
e
confusingly ¡ confusing ¡ confondre

31 / 55

e
e e
e
e
e
e

Recomposition

Permutation :
pathophysiological ¡ physiopathologique

Tous les concat´nations possibles :
e
{non, toxique, cellule}: {non, toxique, cellule}, {nontoxique,
cellule}, {non, toxiquecellule}, {nontoxiquecellule}

32 / 55

e
e e
e
e
e
e

S´lection
e

Projection de patrons
toxique .* cellule ¡ toxique pour les cellules

33 / 55

e
Gń´ration de traductions candidates :: Cadre exp´rimental
e e
e

Donnés exp´rimentales
e
e

Domaine cancer du sein, EN ¡ FR, EN ¡ DE
1800 unit´s monolexicales morphologiquement construites
e
aucune n’est traduisible avec le dictionnaire gń´raliste
e e

Ressources existantes : dictionnaire gń´raliste et synonymes
e e
Ressources manuelles : traductions morph`mes
e
Ressources automatiques : familles morphologiques
[Porter, 1980], cognats [Hauer and Kondrak, 2011]

34 / 55

e
e e
e

e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favorable, orient´ terminologie
e
Evaluation a posteriori : qualit´ des r´sultats obtenus en
e
e
situation d’usage, orient´ aide ` la traduction
e
a
Annotation manuelle des sorties du syst`me ;
e
exact, acceptable, proche, faux

35 / 55

e
e e
e

Mesures d’´valuation r´f´rence a priori
e
ee

Couverture : capacit´ ` gń´rer une traduction candidate
ea e e
Prćision : capacit´ ` proposer une traduction correcte parmi les
e
ea
traductions gń´ré
e ee
Utilisabilit´ : capacit´ ` gń´rer une traduction candidate et
e
ea e e
correcte

36 / 55

e
´
G´n´ration de traductions candidates :: Evaluation
e e

Aspects ´valu´s
e
e

G´n´ricit´ du mod`le
e e
e
e
Ressources linguistiques
Fertilit´
e

37 / 55

e
´
e e

Gń´ricit´ du mod`le : m´thodes testés
e e
e
e
e
e

Pr´fixation : pretreatment ¡ pr´-traitement
e
e
Composition savante : hypercalcaemia ¡ hypercalc´mie
e
Composition populaire : acute-phase ¡ Akutphase, akuten
Phase
Cognat : t-test ¡ t-Test

38 / 55

e
´
e e

Gń´ricit´ du mod`le : r´sultats
e e
e
e
e
Composition savante, pr´fixation : m´thodes tr`s prćises
e
e
e
e
(>0.92) mais petite couverture (<0.03)
Composition populaire : petite couverture, moyennement
prćise (0.62 ` 0.65)
e
a
Cognats : meilleure couverture (0.10 ` 0.13), prćision
a
e
moyenne ` bonne (0.66 ` 0.81)
a
a
Notre m´thode :
e
large couverture : 0.36 ` 0.40
a
prćision moyenne : 0.68 ` 0.56
e
a
utilisabilit´ meilleure : 0.20 ` 0.28 vs. cognats 0.07 ` 0.10
e
a
a

39 / 55

e
´
e e

Apport des traductions fertiles

Traductions fertiles nettement moins pr´cises (-0.20 ` -0.39)
e
a
Combinaison aux traductions non fertiles int´ressante (+6 ` 10
e
a
points utilisabilit´)
e

40 / 55

e
Gń´ration de traductions candidates :: Bilan
e e

Bilan

Fort gain en couverture, baisse limité de la prćison
e
e
⇒ utilisabilit´ meilleure
e
Limites :
fertilit´ s´mantique : snorkeling ¡ plongé avec tuba
e e
e

Perspectives :
compression : apr`s la mńopause ¡ post-menopause
e
e
termes polylexicaux : cytogenetic instability ¡ instabilit´
e
gń´tique des cellules
e e

41 / 55

e
Gń´ration de traductions candidates :: Bilan
e e

Bilan

M´thode bien adapté aux corpus comparables spćialis´s ...
e
e
e
e
peu d’a priori sur la structure du terme cible
variantes morphologiques
usage des cognats

... mais bruité ⇒ nćessite un filtrage
e
e

42 / 55

e


Partie exploratoire
Apports :
nouveaux crit`res
e
comparaison
combinaison (learning-to-rank)

44 / 55

e

Crit`res
e

F : fr´quence traduction candidate
e
C : similarit´ des contextes
e
P : probabilit´ de traduction des partie du discours
e
M : ﬁabilit´ des modes de traductions
e

45 / 55

e
Ordonnancement de traductions candidates :: Exp´rimentations
e

Exp´riences
e

Chaque crit`re pris isol´ment
e
e
´ ´
Combinaison non ponderee : F + C + P+ M
´ ´
Combinaison ponderee : αF + βC + γP + δM
Apprentissage mod`les d’ordonnancement, famille list-wise :
e
AdaRank, Lambda MART : boosting
Coordinate Ascent : mod`le lin´aire
e
e

46 / 55

e
e

Donn´es exp´rimentales
e
e

47 / 55

e
e

M´thode d’´valuation
e
e

Pr´cision sur le TopN : parmi les termes sources avec au
e
moins 1 traduction candidate, % de ceux avec une traduction
correcte parmi les N premi`res traductions
e
Classement fonction de la pr´cision sur le Top1 puis 2 puis 3
e

48 / 55

e
Ordonnancement de traductions candidates :: R´sultats
e

R´sultats
e

Comparaison des crit`res :
e
Contextes : moins bon crit`re (0.80 ` 0.88 Top1)
e
a
Fiabilit´ des modes de traduction : meilleur crit`re (0.82 `
e
e
a
0.93 Top1)

Meilleures m´thodes (0.85 ` 0.93, +5 ` 9 points vs. al´atoire,
e
a
a
e
Top1) :
´ ´
Combinaison non ponderee
´ree
´
Combinaison ponde
Coordinate Ascent, AdaRank

49 / 55

e
Ordonnancement de traductions candidates :: Bilan

Bilan et perspectives

Nćessit´ de montrer la significativit´ des r´sultats
e
e
e
e
Globalement : combinaison int´ressante, pas d’apport marqu´
e
e
des mod`les de learning-to-rank (peu de crit`res)
e
e
Autres crit`res : diff´rence de fr´quence, mod`le de langue...
e
e
e
e
Comment int´grer des donnés parall`les gń´ralistes, d’autres
e
e
e
e e
domaines, d’autres langues ?
apprentissage ` partir des traductions du dictionnaire
a
gń´raliste et des cognats
e e
poids valables pour tous les couples de langues...

50 / 55

e
e e

Bilan
D´veloppement d’un prototype d’extracteur de lexiques
e
bilingues sp´cialis´s ` partir de corpus comparables
e
e a
[Delpech and Daille, 2010]
Exp´rimentation de l’approche “classique” dans le cadre
e
applicatif de la TAO [Delpech, 2011, Delpech, 2012] :
Contributions ` la traduction compositionnelle
a
[Delpech et al., 2012b, Delpech et al., 2012a]:
Communications et d´monstrations logicielles
e
[Delpech, 2010a, Delpech, 2010b,
Brown de Colstoun et al., 2011]

52 / 55

e
e e

Peut-on extraire des lexiques bilingues r´ellement
e
utilisables par les traducteurs ` partir de corpus
a
comparables ?
Approche compositionnelle :
r´duit le nombre de traductions mais cantonn´e aux ´l´ments
e
e
ee
au sens compositionnel (60% d’apr`s [Namer and Baud, 2007])
e
20% ` 28% avec une traduction correcte
a

Approche distributionnelle :
forte couverture mais lexiques trop ambigus (60% sur le
Top20, ´valuation a priori)
e

53 / 55

e
e e

Tr`s ambitieux en l’´tat actuel
e
e
Lexique obtenu :
une petite partie avec une traduction correcte sur le Top1 ou
Top2
une partie avec traduction correcte sur Top 20
majeure partie sans traduction

Difficile d’augmenter le corpus
th´matique fine, forte comparabilit´
e
e
peu de textes spćialis´s
e
e

Difficult´ inh´rente au corpus :
e
e
seulement une partie du vocabulaire en commun

54 / 55

e
e e

Perspectives

Ne pas exag´rement focaliser sur l’extraction d’alignements
e
Aider ` l’exploration de corpus comparables par de multiples
a
mani`res :
e
extraction, alignement de contextes pertinents
outils de recherche avanc´s
e
travailler avec les traducteurs : automatiser les techniques

⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS,
Facult´ de Traduction et d’Interpr´tation
e
e

55 / 55

e

e
1. Collecte des contextes (vecteurs)
−− − − −
− − − −→
cytogń´tique ={instabilit´, traitement, tamoxif`ne...}
e e
e
e
−− − −→
−−−−
cytogenetics :{instability, treatment, tamoxifene...}
2. Traduction ` l’aide d’un dictionnaire gń´raliste
a
e e
−− − − −
− − − −→
cytogń´tique :{instability, treatment, ?...}
e e
3. Comparaison des contextes
−− − − − −− − −→
− − − −→ − − − −
similarit´(cytogń´tique, cytogenetics) = 0.75
e
e e
4. S´lection des candidats
e
cytogń´tique ¡ cytogenetics (0.75), genetics (0.70)...
e e
58 / 55

e

Interface de consultation

59 / 55

Fertilit´
e

Traduction fertile Soit deux ensembles disjoints S et C o` S est un
u
ensemble de termes sources et C est un ensemble de termes cibles. Soit
la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le
nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles
F est d´fini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}.
e

Exemples :
post-menopause ¡ apr`s (la) mńopause
e
e
option express ¡ option voie rapide
snorkeling ¡ plongé (avec) tuba
e

Fertilit´ de surface et fertilit´ s´mantique
e
e e

Surface

S´mantique
e

G´n´ricit´ I
e e
e

Composition savante (18%)
Cognat
Composition populaire (48 %)
Pr´ﬁxation (31%)
e
Notre m´thode
e

C
,03
,13
,05
,02
,40

PE
,95
,66
,63
,90
,59

Table: anglais ¡ fran¸ais
c

UE
,03
,08
,03
,02
,24

PEA
1
,81
,65
,97
,69

UEA
,03
,10
,03
,02
,28

G´n´ricit´ II
e e
e

Composition savante (18%)
Cognat
Composition populaire (49 %)
Pr´ﬁxation (32%)
e
Notre m´thode
e

C
,03
,10
,04
,03
,36

PE
,96
,58
,55
,86
,48

Table: anglais ¡ allemand

UE
,02
,06
,02
,02
,17

PEA
,98
,66
,62
,92
,56

UEA
,02
,07
,03
,03
,20

Gń´ricit´ du mod`le : discussion
e e
e
e

Variation morphologique : pretreatment ¡ pr´traiter,
e
cardiotoxicity¡ cardiotoxique, time-consuming
¡ consommateur de temps
Fertilit´ : pretreatment ¡ avant le traitement,
e
hypercalcaemia ¡ zu viel calcium in das blut
Cognats : aromatase-inhibiting ¡ hemmung der
aromatase‘inhibition de l’aromatase’
Suffixes : colorless ¡ sans colorant, randomly ¡ (de)
mani`re randomisé
e
e
Strat´gie de repli : ribosome ¡ ribosomique
e

Ressources linguistiques : comparaisons effectués
e

Base : dictionnaire gń´raliste et table de traduction des
e e
morph`mes
e
Base + familles morphologiques
Base + synonymes
Base + cognats
Toutes les ressources

Apport des ressources linguistiques

Syst`me de base : dictionnaire g´n´raliste et table de traduction
e
e e
des morph`mes
e
Synonymes : pas adapt´s (bloodstream ¡ courant sanguin
e
¡ circulation sanguine)
Familles morphologiques : +0.09 ` 0.11 de couverture ; +0.04
a
` 0.06 d’utilisabilit´
a
e
Cognats : + 0.12 de couverture ; +0.06 ` 0.09 d’utilisabilit´
a
e
Combinaison : + 0.17 ` 0.24 couverture ; +0.10 ` 0.16
a
a
utilisabilit´
e

Ressources linguistiques I

Base
Base + dictionnaire de cognats
Base + dictionnaire synonymes

C
,16
,28
,27
,17
,40

PE
,73
,71
,56
,69
,59

c

UE
,12
,19
,15
,12
,24

PEA
,77
,77
,66
,72
,69

UEA
,12
,21
,18
,13
,28

Ressources linguistiques II

Base
Base + dictionnaire de cognats
Base + dictionnaire synonymes

C
,15
,27
,24
,17
,36

PE
,60
,56
,48
,55
,48


UE
,09
,15
,12
,09
,17

PEA
,63
,61
,57
,60
,56

UEA
,10
,16
,14
,10
,20

Traductions fertiles I

Traductions non fertiles
Traductions fertiles

C
,24
,24

PE
,58
,52

UE
,14
,12

PEA
,75
,55

UEA
,18
,13

Toutes les traductions

,24
,40

,58
,59

,14
, 24

,75
,69

,18
,28

c

Traductions fertiles II

Traductions fertiles

C
,24
,20

PE
,58
,26

UE
,14
,05

PEA
,69
,30

UEA
,16
,06

Toutes les traductions

,24
,36

,58
,48

,14
,17

,69
,56

,16
,20


R´sultats anglais ¡ fran¸ais
e
c

´
Meilleure precision possible
Combinaison non pond´r´e
ee
Combinaison pond´r´e
ee
Coordinate Ascent
Lambda MART
M
F
AdaRank
P
C
´
Aleatoire

Top1
,94
,928
,928
,928
,928
,928
,916
,892
,892
,88
,836

Top2
,94
,94
,94
,94
,94
,94
,928
,904
,904
,904
,898

Top3
,94
,94
,94
,94
,94
,94
,94
,928
,928
,928
,928

RPM
1
2
2
2
2
2
3
4
4
4
13

R´sultats anglais ¡ allemand
e

´
Meilleure precision possible
Combinaison pond´r´e
ee
Lambda MART
´ ´
Combinaison non ponderee
Coordinate Ascent
F
AdaRank
P
M
C
´
Aleatoire

Top1
,879
,848
,848
,833
,833
,833
,833
,833
,818
,803
,77

Top2
,879
,879
,864
,864
,864
,848
,848
,848
,864
,864
,832

Top3
,879
,879
,864
,879
,879
,879
,848
,848
,879
,864
,846

RPM
1
2
5
3
3
3
17
17
3
28
28

Comparaison avec [Claveau and Kijak, 2011]

Delpech EN-FR
Delpech EN-DE
Claveau FR-JA

PE
,93
,85
,89

RE
,61
,62
,64

F1E
,74
,72
,74

# exemples
1 970
1 829
6 400

table morph`mes
e
242 ¡ 1001
250 ¡ 1081
0

R´f´rences I
ee
Bennison, P. and Bowker, L. (2000).
Designing a tool for exploiting bilingual comparable corpora.
In Proceedings of LREC 2000, Athens, Greece.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.
In Lafourcade, M. and Prince, V., editors, Actes de la 18`me conf´rences sur le traitement automatique des
e
e
langues naturelles, volume 2, page 319, Montpellier, France.
Claveau, V. and Kijak, E. (2011).
Morphological analysis of biomedical terminology with Analogy-Based alignment.
In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,
pages 347–354, Hissar, Bulgaria.
Darbelnet, J. (1979).
R´flexions sur le discours juridique.
e
Meta : journal des traducteurs / Meta: Translator’s Journal, 24(1):26–34.
D´jean, E. and Gaussier, E. (2002).
e
Une nouvelle approche ` l’extraction de lexiques bilingues ` partir de corpus comparables.
a
a
Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22.
Delpech, E. (2010a).
Bilingual terminology mining.
In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing
(Franco-Thai Workshop 2010), Bangkok, Tha¨
ılande.
Delpech, E. (2010b).
Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communaut´s fermés.
e
e
In Terminologie & Ontologie : Thóries et applications (TOTh), Annecy, France.
e

R´f´rences II
ee
Delpech, E. (2011).
Evaluation of terminologies acquired from comparable corpora : an application perspective.
In Pedersen B.S., Ne˘pore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational
s
Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2012).
Un protocole d’´valuation applicative des terminologies bilingues destinés ` la traduction spćialisé.
e
e a
e
e
Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ro spćial : Evaluation des m´thodes
e
e
e
d’Extraction de Connaissances dans les Donnés (Eval’ECD).
e
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.
In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages
211–223, Dublin, Ireland.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and
ranking.
In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,
Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.
In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,
San Diego, California.
Durieux, C. (2010).
Fondement didactique de la traduction technique.
La maison du dictionnaire, Paris, France.

R´f´rences III
ee
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.
In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Hauer, B. and Kondrak, G. (2011).
Clustering semantically equivalent words into cognate sets in multilingual lists.
In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873,
Chiang Mai, Thailand.
Hazem, A. and Morin, E. (2012).
ICA for bilingual lexicon extraction from comparable corpora.
In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey.
Keenan, E. L. and Faltz, L. M. (1985).
Boolean semantics for natural language.
Dordrecht, Holland.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora: What is happening?
In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating
Europe, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.
In Rayson, P., Piao, S., Sharoﬀ, S., Evert, S., and B., V., editors, Language Resources and Evaluation
(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
Morin, E., Dufour-Kowalski, S., and Daille, B. (2004).
Extraction de terminologies bilingues ` partir de corpus comparables.
a
In Actes de la 11`me Conf´rence annuelle sur le Traitement Automatique des Langues Naturelles (TALN),
e
e
pages 309–318, F`s, Maroc.
e

R´f´rences IV
ee
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.
International Journal of Medical Informatics, 76(2-3):226–33.
Planas, E. (2011).
Metricc : Rapport final sur l’´valuation de l’apport des lexiques bilingues pour la traduction.
e
D´livrable ANR no 28 lot 4.3, Universit´ de Nantes, Nantes.
e
e
Porter, M. F. (1980).
An algorithm for suffix stripping.
Program, 14(3):130–137.
Prochasson, E. (2010).
Alignement multilingue en corpus comparables spćialis´s : Caract´risation terminologique multilingue.
e
e
e
Th`se en informatique, Universit´ de Nantes, Nantes.
e
e
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.
In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),
pages 519–526, College Park, MD, USA.
Sadat, F., Yoshikawa, M., and Uemura, S. (2003).
Learning bilingual translations from comparable corpora to Cross-Language information retrieval: Hybrid
statistics-based and linguistics-based approach.
volume 11, pages 57–64, Sappro, Japan.
Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006).
ASSIST: automated semantic assistance for translators.
In Proceedings to the 11th Conference of the European Chapter of the Association for Computational
Linguistics, pages 139–142, Trento, Italie.

R´f´rences V
ee

Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.
Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.

Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (17)

Similaire à Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle

Similaire à Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle (20)

Plus de Estelle Delpech

Plus de Estelle Delpech (16)

Dernier

Dernier (6)

Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle