SlideShare une entreprise Scribd logo
Traduction assist´e par ordinateur et corpus
e
comparables
Contributions ` la traduction compositionnelle
a

Estelle Delpech
Laboratoire d’Informatique de Nantes Atlantique
´quipe TALN
e
Directrice : Prof. B´atrice Daille
e
Co-encadrant : Prof. Emmanuel Morin

Soutenance de th`se
e
2 juillet 2013
Contexte : projet Metricc

Corpus comparables et :
recherche d’information interlingue
cat´gorisation multilingue
e
aide ` la traduction (Lingua et Machina, LINA)
a
Contexte : projet Metricc

Corpus comparables et :
recherche d’information interlingue
cat´gorisation multilingue
e
aide ` la traduction (Lingua et Machina, LINA)
a
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
I. Probl´matique : TAO et corpus comparables
e

Difficult´s de la traduction technique
e
[Darbelnet, 1979, Durieux, 2010]
Terminologie Notions du domaine, termes associ´s
e
chemotherapy ¡ chimioth´rapie
e
neoangiogenesis ¡ n´oangiog´n`se
e
e e
“Mise en discours”
constructions syntaxiques, sous-cat´gorisation
e
sp´cifiques
e
usages stylistiques
vocabulaire de soutien :
patient-centred¡ centr´ sur le patient
e
randomly ¡ de mani`re randomis´e
e
e

variation
5 / 55
Traduction assist´e par ordinateur et corpus comparables
e
I. Probl´matique : TAO et corpus comparables
e

Perspective de travail : acquisition de lexiques sp´cialis´s
e
e
bilingues

Aspects non consid´r´s : syntaxe, style
ee
Recherche d’´quivalences traductionnelles :
e
Unit´s ` traduire : toute une unit´ lexicale dont la traduction
e a
e
n’existe pas dans le dictionnaire g´n´raliste
e e
Perspective d’enrichissement
Prise en compte de la variation

6 / 55
Traduction assist´e par ordinateur et corpus comparables
e
I. Probl´matique : TAO et corpus comparables
e

Des corpus parall`les aux corpus comparables
e

Historiquement : lexiques extraits de traductions pass´es
e
(corpus parall`les)
e
Limite : nouveaux domaines

Corpus comparables sp´cialis´s
e
e
Ensemble de textes en langue L1 et L2 qui traitent
d’une mˆme th´matique relative ` un domaine de
e
e
a
connaissance sans ˆtre en relation de traduction
e

7 / 55
Traduction assist´e par ordinateur et corpus comparables
e
I. Probl´matique : TAO et corpus comparables
e

Usage des corpus comparables en traduction technique

Qualit´ reconnue par les experts de la traduction
e
[Zanettin, 1998, Mc Enery and Xiao, 2007] :
Usage “artisanal” et p´dagogique
e
Outils sp´cifiques existants
e
quelques prototypes universitaires
[Bennison and Bowker, 2000, Sharoff et al., 2006]
pas d’outil commercial

8 / 55
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables
a

Architecture de l’extracteur

10 / 55
Traduction assist´e par ordinateur et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables
a

Extraction des unit´s ` aligner
e a

Unit´s polylexicales : groupes nominaux et verbaux extraits
e
par l’extracteur “terminologique” de Lingua et Machina
Unit´s monolexicales (adjectif, verbe, nom, adverbe)
e

11 / 55
Traduction assist´e par ordinateur et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables
a
M´thode d’alignement
e

M´thode d’alignement
e

Approche distributionnelle [Rapp, 1999, Fung, 1997] : deux
mots de sens proche tendent ` apparaˆ dans des contextes
a
ıtre
similaires

12 / 55
Traduction assist´e par ordinateur et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables
a
M´thode d’alignement
e

Implantation
Diverses am´liorations et variantes propos´es
e
e
[D´jean and Gaussier, 2002, Sadat et al., 2003,
e
Morin et al., 2004, Prochasson, 2010,
Hazem and Morin, 2012]
Implantation basique avec adaptation aux unit´s polylexicales
e
[Morin et al., 2004] et filtre sur les cat´gories grammaticales
e
[Sadat et al., 2003]
R´sultats : 60% des unit´s ` traduire avec une traduction
e
e a
correcte parmi les 20 premiers candidats

13 / 55
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
M´thodologie et conditions exp´rimentales
e
e

M´thodologie d’´valuation
e
e

But : d´terminer dans quelle mesure le lexique bilingue
e
permet d’aider les traducteurs
M´thode : comparaison de la qualit´ des traductions
e
e
produites avec / sans les corpus comparables

15 / 55
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
M´thodologie et conditions exp´rimentales
e
e

M´thodologie d’´valuation
e
e

16 / 55
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
M´thodologie et conditions exp´rimentales
e
e

M´thodologie d’´valuation
e
e

Objet ´valu´ : expressions probl´matiques
e
e
e
Mesure : % de traductions exactes, acceptables, fausses

17 / 55
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
Exp´rimentation
e

Conditions exp´rimentales
e

Premi`re exp´rimentation visant ` ´prouver la m´thode
e
e
ae
e
3 traducteurs dont deux ´tudiant-e-s M2
e
2 th´matiques : cancer du sein, sciences de l’eau
e
Th´matique sciences de l’eau trop vaste ⇒pas
e
exploitable
´
Evaluation finale [Planas, 2011]
20 ´tudiants-traducteurs de M1
e
Donn´es cancer du sein
e

18 / 55
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
R´sultats
e

R´sultats
e

19 / 55
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
R´sultats
e

Difficult´s d’usage
e
R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ collecte du corpus

Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions

Trop de traductions candidates
⇒ diminuer le nombre de traductions
⇒ approche compositionnelle [Morin and Daille, 2010]

20 / 55
Traduction assist´e par ordinateur et corpus comparables
e
III. Evaluation applicative
R´sultats
e

Difficult´s d’usage
e
R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ collecte du corpus

Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions

Trop de traductions candidates
⇒ diminuer le nombre de traductions
⇒ approche compositionnelle [Morin and Daille, 2010]

20 / 55
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
IV. Approches compositionnelles
Principe

Principe de la traduction compositionnelle

Principe de compositionalit´ : “Le sens du tout est fonction du
e
sens de ses constituants” [Keenan and Faltz, 1985,
pp. 24-25].
Adaptation ` la traduction : La traduction du tout est fontion de
a
la traduction de ses constituants.

22 / 55
Traduction assist´e par ordinateur et corpus comparables
e
IV. Approches compositionnelles
Principe

Exemples de traductions possibles

23 / 55
Traduction assist´e par ordinateur et corpus comparables
e
IV. Approches compositionnelles
D´fis
e

Difficult´s
e
Divergence morpho-syntaxique :
anti-cancer → anti-canc´reux
e
Divergence lexicale :
traduction automatique → machine translation
Fertilit´ :
e
hysterectomy →ablation de l’ut´rus
e
Variation terminologique :
mixed departmentalization → d´partementalisation
e
mixte, structuration mixte

24 / 55
Traduction assist´e par ordinateur et corpus comparables
e
IV. Approches compositionnelles
D´fis
e

Aspects pas ou peu trait´s
e

Fertilit´
e
Termes monolexicaux : approches sp´cifiques ` un type de
e
a
construction morphologique
prefixe1 +base2 ¡ pr´fixe1 +base2
e

Ordonnancement / s´lection des traductions : filtres simples
e
ou pas adapt´s
e

25 / 55
Traduction assist´e par ordinateur et corpus comparables
e
IV. Approches compositionnelles
D´fis
e

Propositions

Termes monolexicaux : ˆtre moins sp´cifique sur les structures
e
e
morphologiques
Traiter la fertilit´ par l’alternance morph`me libre / morph`me
e
e
e
li´
e
cyto1 toxic2 ¡ toxique2 (pour les) cellules1

Explorer l’apport des crit`res d’ordonnancement et leur
e
combinaison

26 / 55
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Principe
e e

Fonctionnement de base

Traduire(“ab”) :
= S(R(T (D(“ab”))))
= S(R(T ({a, b})))
= S(R({T (a) × T (b)}))
= S(R({a, b}))
= S({a, b}, {b, a})
= “ba”

29 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e
e e
e
e
e
e

D´composition
e

Peu de r`gles :
e
appariemment entr´es ressources, contraintes longueur
e

Tous les d´coupages possibles
e
non-cytotoxic ¡ {non, cyto, toxic}, {noncyto, toxic}, {non,
cytotoxic}, {noncytotoxic}

30 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e
e e
e
e
e
e

Traduction
´
Equivalences traductionnelles entre morph`mes libres et li´s
e
e
cyto ¡ cellule : cytotoxique ¡ toxique pour les cellules

Nombreuses ressources : familles morphologiques, synonymes,
cognats
available ¡ disponible ¡ disponibilit´ : bioavailable
e
¡ biodisponibilit´
e
anastrozole-associated ¡ associ´ a de l’anastrozole
e`

Strat´gie de repli
e
confusingly ¡ confusing ¡ confondre

31 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e
e e
e
e
e
e

Recomposition

Permutation :
pathophysiological ¡ physiopathologique

Tous les concat´nations possibles :
e
{non, toxique, cellule}: {non, toxique, cellule}, {nontoxique,
cellule}, {non, toxiquecellule}, {nontoxiquecellule}

32 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e
e e
e
e
e
e

S´lection
e

Projection de patrons
toxique .* cellule ¡ toxique pour les cellules

33 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Cadre exp´rimental
e e
e

Donn´es exp´rimentales
e
e

Domaine cancer du sein, EN ¡ FR, EN ¡ DE
1800 unit´s monolexicales morphologiquement construites
e
aucune n’est traduisible avec le dictionnaire g´n´raliste
e e

Ressources existantes : dictionnaire g´n´raliste et synonymes
e e
Ressources manuelles : traductions morph`mes
e
Ressources automatiques : familles morphologiques
[Porter, 1980], cognats [Hauer and Kondrak, 2011]

34 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Cadre exp´rimental
e e
e

M´thodologie d’´valuation
e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favorable, orient´ terminologie
e
Evaluation a posteriori : qualit´ des r´sultats obtenus en
e
e
situation d’usage, orient´ aide ` la traduction
e
a
Annotation manuelle des sorties du syst`me ;
e
exact, acceptable, proche, faux

35 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Cadre exp´rimental
e e
e

M´thodologie d’´valuation
e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favorable, orient´ terminologie
e
Evaluation a posteriori : qualit´ des r´sultats obtenus en
e
e
situation d’usage, orient´ aide ` la traduction
e
a
Annotation manuelle des sorties du syst`me ;
e
exact, acceptable, proche, faux

35 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Cadre exp´rimental
e e
e

M´thodologie d’´valuation
e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favorable, orient´ terminologie
e
Evaluation a posteriori : qualit´ des r´sultats obtenus en
e
e
situation d’usage, orient´ aide ` la traduction
e
a
Annotation manuelle des sorties du syst`me ;
e
exact, acceptable, proche, faux

35 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Cadre exp´rimental
e e
e

Mesures d’´valuation r´f´rence a priori
e
ee

Couverture : capacit´ ` g´n´rer une traduction candidate
ea e e
Pr´cision : capacit´ ` proposer une traduction correcte parmi les
e
ea
traductions g´n´r´e
e ee
Utilisabilit´ : capacit´ ` g´n´rer une traduction candidate et
e
ea e e
correcte

36 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
´
G´n´ration de traductions candidates :: Evaluation
e e

Aspects ´valu´s
e
e

G´n´ricit´ du mod`le
e e
e
e
Ressources linguistiques
Fertilit´
e

37 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
´
G´n´ration de traductions candidates :: Evaluation
e e

G´n´ricit´ du mod`le : m´thodes test´es
e e
e
e
e
e

Pr´fixation : pretreatment ¡ pr´-traitement
e
e
Composition savante : hypercalcaemia ¡ hypercalc´mie
e
Composition populaire : acute-phase ¡ Akutphase, akuten
Phase
Cognat : t-test ¡ t-Test

38 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
´
G´n´ration de traductions candidates :: Evaluation
e e

G´n´ricit´ du mod`le : r´sultats
e e
e
e
e
Composition savante, pr´fixation : m´thodes tr`s pr´cises
e
e
e
e
(>0.92) mais petite couverture (<0.03)
Composition populaire : petite couverture, moyennement
pr´cise (0.62 ` 0.65)
e
a
Cognats : meilleure couverture (0.10 ` 0.13), pr´cision
a
e
moyenne ` bonne (0.66 ` 0.81)
a
a
Notre m´thode :
e
large couverture : 0.36 ` 0.40
a
pr´cision moyenne : 0.68 ` 0.56
e
a
utilisabilit´ meilleure : 0.20 ` 0.28 vs. cognats 0.07 ` 0.10
e
a
a

39 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
´
G´n´ration de traductions candidates :: Evaluation
e e

Apport des traductions fertiles

Traductions fertiles nettement moins pr´cises (-0.20 ` -0.39)
e
a
Combinaison aux traductions non fertiles int´ressante (+6 ` 10
e
a
points utilisabilit´)
e

40 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Bilan
e e

Bilan

Fort gain en couverture, baisse limit´e de la pr´cison
e
e
⇒ utilisabilit´ meilleure
e
Limites :
fertilit´ s´mantique : snorkeling ¡ plong´e avec tuba
e e
e

Perspectives :
compression : apr`s la m´nopause ¡ post-menopause
e
e
termes polylexicaux : cytogenetic instability ¡ instabilit´
e
g´n´tique des cellules
e e

41 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates :: Bilan
e e

Bilan

M´thode bien adapt´e aux corpus comparables sp´cialis´s ...
e
e
e
e
peu d’a priori sur la structure du terme cible
variantes morphologiques
usage des cognats

... mais bruit´e ⇒ n´cessite un filtrage
e
e

42 / 55
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates

Ordonnancement de traductions candidates

Partie exploratoire
Apports :
nouveaux crit`res
e
comparaison
combinaison (learning-to-rank)

44 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates

Crit`res
e

F : fr´quence traduction candidate
e
C : similarit´ des contextes
e
P : probabilit´ de traduction des partie du discours
e
M : fiabilit´ des modes de traductions
e

45 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates :: Exp´rimentations
e

Exp´riences
e

Chaque crit`re pris isol´ment
e
e
´ ´
Combinaison non ponderee : F + C + P+ M
´ ´
Combinaison ponderee : αF + βC + γP + δM
Apprentissage mod`les d’ordonnancement, famille list-wise :
e
AdaRank, Lambda MART : boosting
Coordinate Ascent : mod`le lin´aire
e
e

46 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates :: Exp´rimentations
e

Donn´es exp´rimentales
e
e

47 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates :: Exp´rimentations
e

M´thode d’´valuation
e
e

Pr´cision sur le TopN : parmi les termes sources avec au
e
moins 1 traduction candidate, % de ceux avec une traduction
correcte parmi les N premi`res traductions
e
Classement fonction de la pr´cision sur le Top1 puis 2 puis 3
e

48 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates :: R´sultats
e

R´sultats
e

Comparaison des crit`res :
e
Contextes : moins bon crit`re (0.80 ` 0.88 Top1)
e
a
Fiabilit´ des modes de traduction : meilleur crit`re (0.82 `
e
e
a
0.93 Top1)

Meilleures m´thodes (0.85 ` 0.93, +5 ` 9 points vs. al´atoire,
e
a
a
e
Top1) :
´ ´
Combinaison non ponderee
´ree
´
Combinaison ponde
Coordinate Ascent, AdaRank

49 / 55
Traduction assist´e par ordinateur et corpus comparables
e
V. Traduction morpho-compositionnelle
Ordonnancement de traductions candidates :: Bilan

Bilan et perspectives

N´cessit´ de montrer la significativit´ des r´sultats
e
e
e
e
Globalement : combinaison int´ressante, pas d’apport marqu´
e
e
des mod`les de learning-to-rank (peu de crit`res)
e
e
Autres crit`res : diff´rence de fr´quence, mod`le de langue...
e
e
e
e
Comment int´grer des donn´es parall`les g´n´ralistes, d’autres
e
e
e
e e
domaines, d’autres langues ?
apprentissage ` partir des traductions du dictionnaire
a
g´n´raliste et des cognats
e e
poids valables pour tous les couples de langues...

50 / 55
Plan
I. Probl´matique : TAO et corpus comparables
e
II. Implantation d’un extracteur de lexiques bilingues ` partir de
a
corpus comparables
III. Evaluation applicative
IV. Approches compositionnelles
V. Traduction morpho-compositionnelle
G´n´ration de traductions candidates
e e
Ordonnancement de traductions candidates
VI. Conclusion g´n´rale
e e
Traduction assist´e par ordinateur et corpus comparables
e
VI. Conclusion g´n´rale
e e

Bilan
D´veloppement d’un prototype d’extracteur de lexiques
e
bilingues sp´cialis´s ` partir de corpus comparables
e
e a
[Delpech and Daille, 2010]
Exp´rimentation de l’approche “classique” dans le cadre
e
applicatif de la TAO [Delpech, 2011, Delpech, 2012] :
Contributions ` la traduction compositionnelle
a
[Delpech et al., 2012b, Delpech et al., 2012a]:
Communications et d´monstrations logicielles
e
[Delpech, 2010a, Delpech, 2010b,
Brown de Colstoun et al., 2011]

52 / 55
Traduction assist´e par ordinateur et corpus comparables
e
VI. Conclusion g´n´rale
e e

Peut-on extraire des lexiques bilingues r´ellement
e
utilisables par les traducteurs ` partir de corpus
a
comparables ?
Approche compositionnelle :
r´duit le nombre de traductions mais cantonn´e aux ´l´ments
e
e
ee
au sens compositionnel (60% d’apr`s [Namer and Baud, 2007])
e
20% ` 28% avec une traduction correcte
a

Approche distributionnelle :
forte couverture mais lexiques trop ambigus (60% sur le
Top20, ´valuation a priori)
e

53 / 55
Traduction assist´e par ordinateur et corpus comparables
e
VI. Conclusion g´n´rale
e e

Tr`s ambitieux en l’´tat actuel
e
e
Lexique obtenu :
une petite partie avec une traduction correcte sur le Top1 ou
Top2
une partie avec traduction correcte sur Top 20
majeure partie sans traduction

Difficile d’augmenter le corpus
th´matique fine, forte comparabilit´
e
e
peu de textes sp´cialis´s
e
e

Difficult´ inh´rente au corpus :
e
e
seulement une partie du vocabulaire en commun

54 / 55
Traduction assist´e par ordinateur et corpus comparables
e
VI. Conclusion g´n´rale
e e

Perspectives

Ne pas exag´rement focaliser sur l’extraction d’alignements
e
Aider ` l’exploration de corpus comparables par de multiples
a
mani`res :
e
extraction, alignement de contextes pertinents
outils de recherche avanc´s
e
travailler avec les traducteurs : automatiser les techniques

⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS,
Facult´ de Traduction et d’Interpr´tation
e
e

55 / 55
Merci pour votre attention
Libellex
Traduction assist´e par ordinateur et corpus comparables
e

M´thode d’alignement
e
1. Collecte des contextes (vecteurs)
−− − − −
− − − −→
cytog´n´tique ={instabilit´, traitement, tamoxif`ne...}
e e
e
e
−− − −→
−−−−
cytogenetics :{instability, treatment, tamoxifene...}
2. Traduction ` l’aide d’un dictionnaire g´n´raliste
a
e e
−− − − −
− − − −→
cytog´n´tique :{instability, treatment, ?...}
e e
3. Comparaison des contextes
−− − − − −− − −→
− − − −→ − − − −
similarit´(cytog´n´tique, cytogenetics) = 0.75
e
e e
4. S´lection des candidats
e
cytog´n´tique ¡ cytogenetics (0.75), genetics (0.70)...
e e
58 / 55
Traduction assist´e par ordinateur et corpus comparables
e

Interface de consultation

59 / 55
Fertilit´
e

Traduction fertile Soit deux ensembles disjoints S et C o` S est un
u
ensemble de termes sources et C est un ensemble de termes cibles. Soit
la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le
nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles
F est d´fini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}.
e

Exemples :
post-menopause ¡ apr`s (la) m´nopause
e
e
option express ¡ option voie rapide
snorkeling ¡ plong´e (avec) tuba
e
Fertilit´ de surface et fertilit´ s´mantique
e
e e

Surface

S´mantique
e
G´n´ricit´ I
e e
e

Composition savante (18%)
Cognat
Composition populaire (48 %)
Pr´fixation (31%)
e
Notre m´thode
e

C
,03
,13
,05
,02
,40

PE
,95
,66
,63
,90
,59

Table: anglais ¡ fran¸ais
c

UE
,03
,08
,03
,02
,24

PEA
1
,81
,65
,97
,69

UEA
,03
,10
,03
,02
,28
G´n´ricit´ II
e e
e

Composition savante (18%)
Cognat
Composition populaire (49 %)
Pr´fixation (32%)
e
Notre m´thode
e

C
,03
,10
,04
,03
,36

PE
,96
,58
,55
,86
,48

Table: anglais ¡ allemand

UE
,02
,06
,02
,02
,17

PEA
,98
,66
,62
,92
,56

UEA
,02
,07
,03
,03
,20
G´n´ricit´ du mod`le : discussion
e e
e
e

Variation morphologique : pretreatment ¡ pr´traiter,
e
cardiotoxicity¡ cardiotoxique, time-consuming
¡ consommateur de temps
Fertilit´ : pretreatment ¡ avant le traitement,
e
hypercalcaemia ¡ zu viel calcium in das blut
Cognats : aromatase-inhibiting ¡ hemmung der
aromatase‘inhibition de l’aromatase’
Suffixes : colorless ¡ sans colorant, randomly ¡ (de)
mani`re randomis´e
e
e
Strat´gie de repli : ribosome ¡ ribosomique
e
Ressources linguistiques : comparaisons effectu´es
e

Base : dictionnaire g´n´raliste et table de traduction des
e e
morph`mes
e
Base + familles morphologiques
Base + synonymes
Base + cognats
Toutes les ressources
Apport des ressources linguistiques

Syst`me de base : dictionnaire g´n´raliste et table de traduction
e
e e
des morph`mes
e
Synonymes : pas adapt´s (bloodstream ¡ courant sanguin
e
¡ circulation sanguine)
Familles morphologiques : +0.09 ` 0.11 de couverture ; +0.04
a
` 0.06 d’utilisabilit´
a
e
Cognats : + 0.12 de couverture ; +0.06 ` 0.09 d’utilisabilit´
a
e
Combinaison : + 0.17 ` 0.24 couverture ; +0.10 ` 0.16
a
a
utilisabilit´
e
Ressources linguistiques I

Base
Base + dictionnaire de cognats
Base + familles morphologiques
Base + dictionnaire synonymes
Toutes les ressources

C
,16
,28
,27
,17
,40

PE
,73
,71
,56
,69
,59

Table: anglais ¡ fran¸ais
c

UE
,12
,19
,15
,12
,24

PEA
,77
,77
,66
,72
,69

UEA
,12
,21
,18
,13
,28
Ressources linguistiques II

Base
Base + dictionnaire de cognats
Base + familles morphologiques
Base + dictionnaire synonymes
Toutes les ressources

C
,15
,27
,24
,17
,36

PE
,60
,56
,48
,55
,48

Table: anglais ¡ allemand

UE
,09
,15
,12
,09
,17

PEA
,63
,61
,57
,60
,56

UEA
,10
,16
,14
,10
,20
Traductions fertiles I

Traductions non fertiles
Traductions fertiles

C
,24
,24

PE
,58
,52

UE
,14
,12

PEA
,75
,55

UEA
,18
,13

Traductions non fertiles
Toutes les traductions

,24
,40

,58
,59

,14
, 24

,75
,69

,18
,28

Table: anglais ¡ fran¸ais
c
Traductions fertiles II

Traductions non fertiles
Traductions fertiles

C
,24
,20

PE
,58
,26

UE
,14
,05

PEA
,69
,30

UEA
,16
,06

Traductions non fertiles
Toutes les traductions

,24
,36

,58
,48

,14
,17

,69
,56

,16
,20

Table: anglais ¡ allemand
R´sultats anglais ¡ fran¸ais
e
c

´
Meilleure precision possible
Combinaison non pond´r´e
ee
Combinaison pond´r´e
ee
Coordinate Ascent
Lambda MART
M
F
AdaRank
P
C
´
Aleatoire

Top1
,94
,928
,928
,928
,928
,928
,916
,892
,892
,88
,836

Top2
,94
,94
,94
,94
,94
,94
,928
,904
,904
,904
,898

Top3
,94
,94
,94
,94
,94
,94
,94
,928
,928
,928
,928

RPM
1
2
2
2
2
2
3
4
4
4
13
R´sultats anglais ¡ allemand
e

´
Meilleure precision possible
Combinaison pond´r´e
ee
Lambda MART
´ ´
Combinaison non ponderee
Coordinate Ascent
F
AdaRank
P
M
C
´
Aleatoire

Top1
,879
,848
,848
,833
,833
,833
,833
,833
,818
,803
,77

Top2
,879
,879
,864
,864
,864
,848
,848
,848
,864
,864
,832

Top3
,879
,879
,864
,879
,879
,879
,848
,848
,879
,864
,846

RPM
1
2
5
3
3
3
17
17
3
28
28
Comparaison avec [Claveau and Kijak, 2011]

Delpech EN-FR
Delpech EN-DE
Claveau FR-JA

PE
,93
,85
,89

RE
,61
,62
,64

F1E
,74
,72
,74

# exemples
1 970
1 829
6 400

table morph`mes
e
242 ¡ 1001
250 ¡ 1081
0
R´f´rences I
ee
Bennison, P. and Bowker, L. (2000).
Designing a tool for exploiting bilingual comparable corpora.
In Proceedings of LREC 2000, Athens, Greece.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.
In Lafourcade, M. and Prince, V., editors, Actes de la 18`me conf´rences sur le traitement automatique des
e
e
langues naturelles, volume 2, page 319, Montpellier, France.
Claveau, V. and Kijak, E. (2011).
Morphological analysis of biomedical terminology with Analogy-Based alignment.
In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,
pages 347–354, Hissar, Bulgaria.
Darbelnet, J. (1979).
R´flexions sur le discours juridique.
e
Meta : journal des traducteurs / Meta: Translator’s Journal, 24(1):26–34.
D´jean, E. and Gaussier, E. (2002).
e
Une nouvelle approche ` l’extraction de lexiques bilingues ` partir de corpus comparables.
a
a
Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22.
Delpech, E. (2010a).
Bilingual terminology mining.
In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing
(Franco-Thai Workshop 2010), Bangkok, Tha¨
ılande.
Delpech, E. (2010b).
Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communaut´s ferm´es.
e
e
In Terminologie & Ontologie : Th´ories et applications (TOTh), Annecy, France.
e
R´f´rences II
ee
Delpech, E. (2011).
Evaluation of terminologies acquired from comparable corpora : an application perspective.
In Pedersen B.S., Ne˘pore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational
s
Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2012).
Un protocole d’´valuation applicative des terminologies bilingues destin´es ` la traduction sp´cialis´e.
e
e a
e
e
Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ro sp´cial : Evaluation des m´thodes
e
e
e
d’Extraction de Connaissances dans les Donn´es (Eval’ECD).
e
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.
In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages
211–223, Dublin, Ireland.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and
ranking.
In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,
Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.
In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,
San Diego, California.
Durieux, C. (2010).
Fondement didactique de la traduction technique.
La maison du dictionnaire, Paris, France.
R´f´rences III
ee
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.
In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Hauer, B. and Kondrak, G. (2011).
Clustering semantically equivalent words into cognate sets in multilingual lists.
In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873,
Chiang Mai, Thailand.
Hazem, A. and Morin, E. (2012).
ICA for bilingual lexicon extraction from comparable corpora.
In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey.
Keenan, E. L. and Faltz, L. M. (1985).
Boolean semantics for natural language.
Dordrecht, Holland.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora: What is happening?
In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating
Europe, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.
In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation
(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
Morin, E., Dufour-Kowalski, S., and Daille, B. (2004).
Extraction de terminologies bilingues ` partir de corpus comparables.
a
In Actes de la 11`me Conf´rence annuelle sur le Traitement Automatique des Langues Naturelles (TALN),
e
e
pages 309–318, F`s, Maroc.
e
R´f´rences IV
ee
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.
International Journal of Medical Informatics, 76(2-3):226–33.
Planas, E. (2011).
Metricc : Rapport final sur l’´valuation de l’apport des lexiques bilingues pour la traduction.
e
D´livrable ANR no 28 lot 4.3, Universit´ de Nantes, Nantes.
e
e
Porter, M. F. (1980).
An algorithm for suffix stripping.
Program, 14(3):130–137.
Prochasson, E. (2010).
Alignement multilingue en corpus comparables sp´cialis´s : Caract´risation terminologique multilingue.
e
e
e
Th`se en informatique, Universit´ de Nantes, Nantes.
e
e
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.
In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),
pages 519–526, College Park, MD, USA.
Sadat, F., Yoshikawa, M., and Uemura, S. (2003).
Learning bilingual translations from comparable corpora to Cross-Language information retrieval: Hybrid
statistics-based and linguistics-based approach.
volume 11, pages 57–64, Sappro, Japan.
Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006).
ASSIST: automated semantic assistance for translators.
In Proceedings to the 11th Conference of the European Chapter of the Association for Computational
Linguistics, pages 139–142, Trento, Italie.
R´f´rences V
ee

Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.
Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.

Contenu connexe

En vedette

Will interactive storytelling return to the spotlight?
Will interactive storytelling return to the spotlight?Will interactive storytelling return to the spotlight?
Will interactive storytelling return to the spotlight?
Gaëlle Engelberts
 
Terminology overview
Terminology overviewTerminology overview
Terminology overview
KStockwell
 
Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...
TERMCAT
 
Introduction aux webdocs interactifs
Introduction aux webdocs interactifsIntroduction aux webdocs interactifs
Introduction aux webdocs interactifs
Gaëlle Engelberts
 
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
Brigitte Pierrat
 
Open Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équationOpen Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équation
Sophie TOUZÉ
 
Lexique des-medias-sociaux
Lexique des-medias-sociauxLexique des-medias-sociaux
Lexique des-medias-sociaux
Murielle Bruneau
 
Introduction to medical terminology
Introduction to medical terminology   Introduction to medical terminology
Introduction to medical terminology
heartstartskills
 
SORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAU
SORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAUSORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAU
SORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAU
ciclesuperiorescolapalau
 
Informatica
InformaticaInformatica
Carnaval 2015 SEGON
Carnaval 2015 SEGONCarnaval 2015 SEGON
Carnaval 2015 SEGON
ciclesuperiorescolapalau
 
Programme du Sax | Saison 2014-2015
Programme du Sax | Saison 2014-2015Programme du Sax | Saison 2014-2015
Programme du Sax | Saison 2014-2015
Le Sax
 
Asignacion 3(aiza aponte)
Asignacion 3(aiza aponte)Asignacion 3(aiza aponte)
Asignacion 3(aiza aponte)
Aiza Hernández
 
Diario
DiarioDiario
Diario
susanabartz
 
Presentacion nitcs ludi
Presentacion nitcs ludiPresentacion nitcs ludi
Presentacion nitcs ludi
ludiviko
 
Colegio sudamericano
Colegio sudamericanoColegio sudamericano
Colegio sudamericano
sudamericanoXD
 
Integración de las tic
Integración de las ticIntegración de las tic
Integración de las tic
nilzuhu
 

En vedette (17)

Will interactive storytelling return to the spotlight?
Will interactive storytelling return to the spotlight?Will interactive storytelling return to the spotlight?
Will interactive storytelling return to the spotlight?
 
Terminology overview
Terminology overviewTerminology overview
Terminology overview
 
Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...Terminology Management and Social Media in the Terminology Coordination Unit ...
Terminology Management and Social Media in the Terminology Coordination Unit ...
 
Introduction aux webdocs interactifs
Introduction aux webdocs interactifsIntroduction aux webdocs interactifs
Introduction aux webdocs interactifs
 
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
4 concepts émergents en éducation : apprentissages nomades, mooc, biens commu...
 
Open Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équationOpen Education + MOOC = OPEN MOOC la juste équation
Open Education + MOOC = OPEN MOOC la juste équation
 
Lexique des-medias-sociaux
Lexique des-medias-sociauxLexique des-medias-sociaux
Lexique des-medias-sociaux
 
Introduction to medical terminology
Introduction to medical terminology   Introduction to medical terminology
Introduction to medical terminology
 
SORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAU
SORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAUSORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAU
SORTIDA A CAN CORTÉS - SEGON PRIMÀRIA - ESCOLA PALAU
 
Informatica
InformaticaInformatica
Informatica
 
Carnaval 2015 SEGON
Carnaval 2015 SEGONCarnaval 2015 SEGON
Carnaval 2015 SEGON
 
Programme du Sax | Saison 2014-2015
Programme du Sax | Saison 2014-2015Programme du Sax | Saison 2014-2015
Programme du Sax | Saison 2014-2015
 
Asignacion 3(aiza aponte)
Asignacion 3(aiza aponte)Asignacion 3(aiza aponte)
Asignacion 3(aiza aponte)
 
Diario
DiarioDiario
Diario
 
Presentacion nitcs ludi
Presentacion nitcs ludiPresentacion nitcs ludi
Presentacion nitcs ludi
 
Colegio sudamericano
Colegio sudamericanoColegio sudamericano
Colegio sudamericano
 
Integración de las tic
Integración de las ticIntegración de las tic
Integración de las tic
 

Similaire à Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle

Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Estelle Delpech
 
Présentation de thèse Haithem AFLI
Présentation de thèse Haithem AFLIPrésentation de thèse Haithem AFLI
Présentation de thèse Haithem AFLI
Haithem Afli
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-ML
babelmoi
 
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Patrick Tremblay
 
Recherche de citations
Recherche de citationsRecherche de citations
Recherche de citations
Banville Julien
 
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal DependenciesMultilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
Christophe Moor
 
Les technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEOLes technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEO
SEO Camp Association
 
Plasticitérecherche2015 2
Plasticitérecherche2015 2Plasticitérecherche2015 2
Plasticitérecherche2015 2
Atelier IHM Polytech Nice Sophia
 
Icar2 kelly sofia
Icar2 kelly sofiaIcar2 kelly sofia
Icar2 kelly sofiaKellyGoudin
 
2022_09_12_vertus pédagogiques de la transcription.pdf
2022_09_12_vertus pédagogiques de la transcription.pdf2022_09_12_vertus pédagogiques de la transcription.pdf
2022_09_12_vertus pédagogiques de la transcription.pdf
EveilleHN
 
Treacherous Translating Machines
Treacherous Translating MachinesTreacherous Translating Machines
Treacherous Translating Machines
Editions La Dondaine
 
- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN
- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN
- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN
PERE MARQUES
 
Diprobib aifbd
Diprobib aifbdDiprobib aifbd
Diprobib aifbdapajard
 
Tice ent ppt_journee-20080407-v1.2
Tice ent ppt_journee-20080407-v1.2Tice ent ppt_journee-20080407-v1.2
Tice ent ppt_journee-20080407-v1.2stage1doc
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
Donia Hammami
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
etudiantemaster2
 
JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...
JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...
JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...
ABES
 
Évaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeÉvaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialisée
Estelle Delpech
 
Le prototypage et l'apprentissage organisationnel dans la pratique.
Le prototypage et l'apprentissage organisationnel dans la pratique.Le prototypage et l'apprentissage organisationnel dans la pratique.
Le prototypage et l'apprentissage organisationnel dans la pratique.
Dario Gomez Tafur
 

Similaire à Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle (20)

Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...
 
Présentation de thèse Haithem AFLI
Présentation de thèse Haithem AFLIPrésentation de thèse Haithem AFLI
Présentation de thèse Haithem AFLI
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-ML
 
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
 
Recherche de citations
Recherche de citationsRecherche de citations
Recherche de citations
 
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal DependenciesMultilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
 
Les technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEOLes technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEO
 
Plasticitérecherche2015 2
Plasticitérecherche2015 2Plasticitérecherche2015 2
Plasticitérecherche2015 2
 
Icar2 kelly sofia
Icar2 kelly sofiaIcar2 kelly sofia
Icar2 kelly sofia
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
2022_09_12_vertus pédagogiques de la transcription.pdf
2022_09_12_vertus pédagogiques de la transcription.pdf2022_09_12_vertus pédagogiques de la transcription.pdf
2022_09_12_vertus pédagogiques de la transcription.pdf
 
Treacherous Translating Machines
Treacherous Translating MachinesTreacherous Translating Machines
Treacherous Translating Machines
 
- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN
- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN
- Tableau numérique. Recherches: DIM-UAB / PROMETHEAN
 
Diprobib aifbd
Diprobib aifbdDiprobib aifbd
Diprobib aifbd
 
Tice ent ppt_journee-20080407-v1.2
Tice ent ppt_journee-20080407-v1.2Tice ent ppt_journee-20080407-v1.2
Tice ent ppt_journee-20080407-v1.2
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...
JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...
JABES 2018 - Atelier : bien se préparer aux prochaines évolutions de consigne...
 
Évaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeÉvaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialisée
 
Le prototypage et l'apprentissage organisationnel dans la pratique.
Le prototypage et l'apprentissage organisationnel dans la pratique.Le prototypage et l'apprentissage organisationnel dans la pratique.
Le prototypage et l'apprentissage organisationnel dans la pratique.
 

Plus de Estelle Delpech

Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
Estelle Delpech
 
Identification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxIdentification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieux
Estelle Delpech
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des Langues
Estelle Delpech
 
Identification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieuxIdentification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieux
Estelle Delpech
 
Nomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchNomao: data analysis for personalized local search
Nomao: data analysis for personalized local search
Estelle Delpech
 
Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)
Estelle Delpech
 
Nomao: local search and recommendation engine
Nomao: local search and recommendation engineNomao: local search and recommendation engine
Nomao: local search and recommendation engine
Estelle Delpech
 
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Estelle Delpech
 
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Estelle Delpech
 
Applicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesApplicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologies
Estelle Delpech
 
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeDealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Estelle Delpech
 
R&D Lingua et Machina
R&D Lingua et MachinaR&D Lingua et Machina
R&D Lingua et Machina
Estelle Delpech
 
Bilingual terminology mining
Bilingual terminology miningBilingual terminology mining
Bilingual terminology mining
Estelle Delpech
 
Robust rule-based parsing
Robust rule-based parsingRobust rule-based parsing
Robust rule-based parsing
Estelle Delpech
 
Experimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmExperimenting the TextTiling Algorithm
Experimenting the TextTiling Algorithm
Estelle Delpech
 
Text Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringText Processing for Procedural Question Answering
Text Processing for Procedural Question Answering
Estelle Delpech
 

Plus de Estelle Delpech (16)

Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
 
Identification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxIdentification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieux
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des Langues
 
Identification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieuxIdentification de compatibilites sémantiques entre descripteurs de lieux
Identification de compatibilites sémantiques entre descripteurs de lieux
 
Nomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchNomao: data analysis for personalized local search
Nomao: data analysis for personalized local search
 
Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)
 
Nomao: local search and recommendation engine
Nomao: local search and recommendation engineNomao: local search and recommendation engine
Nomao: local search and recommendation engine
 
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
 
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
 
Applicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesApplicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologies
 
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeDealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
 
R&D Lingua et Machina
R&D Lingua et MachinaR&D Lingua et Machina
R&D Lingua et Machina
 
Bilingual terminology mining
Bilingual terminology miningBilingual terminology mining
Bilingual terminology mining
 
Robust rule-based parsing
Robust rule-based parsingRobust rule-based parsing
Robust rule-based parsing
 
Experimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmExperimenting the TextTiling Algorithm
Experimenting the TextTiling Algorithm
 
Text Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringText Processing for Procedural Question Answering
Text Processing for Procedural Question Answering
 

Dernier

De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
Université de Franche-Comté
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
UNITECBordeaux
 
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Laurent Speyser
 
Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
abderrahimbourimi
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
OCTO Technology
 
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
Horgix
 

Dernier (6)

De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
 
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
 
Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
 
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
 

Corpus comparables et traduction assistée par ordinateur, contributions à la traduction compositionnelle

  • 1. Traduction assist´e par ordinateur et corpus e comparables Contributions ` la traduction compositionnelle a Estelle Delpech Laboratoire d’Informatique de Nantes Atlantique ´quipe TALN e Directrice : Prof. B´atrice Daille e Co-encadrant : Prof. Emmanuel Morin Soutenance de th`se e 2 juillet 2013
  • 2. Contexte : projet Metricc Corpus comparables et : recherche d’information interlingue cat´gorisation multilingue e aide ` la traduction (Lingua et Machina, LINA) a
  • 3. Contexte : projet Metricc Corpus comparables et : recherche d’information interlingue cat´gorisation multilingue e aide ` la traduction (Lingua et Machina, LINA) a
  • 4. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 5. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 6. Traduction assist´e par ordinateur et corpus comparables e I. Probl´matique : TAO et corpus comparables e Difficult´s de la traduction technique e [Darbelnet, 1979, Durieux, 2010] Terminologie Notions du domaine, termes associ´s e chemotherapy ¡ chimioth´rapie e neoangiogenesis ¡ n´oangiog´n`se e e e “Mise en discours” constructions syntaxiques, sous-cat´gorisation e sp´cifiques e usages stylistiques vocabulaire de soutien : patient-centred¡ centr´ sur le patient e randomly ¡ de mani`re randomis´e e e variation 5 / 55
  • 7. Traduction assist´e par ordinateur et corpus comparables e I. Probl´matique : TAO et corpus comparables e Perspective de travail : acquisition de lexiques sp´cialis´s e e bilingues Aspects non consid´r´s : syntaxe, style ee Recherche d’´quivalences traductionnelles : e Unit´s ` traduire : toute une unit´ lexicale dont la traduction e a e n’existe pas dans le dictionnaire g´n´raliste e e Perspective d’enrichissement Prise en compte de la variation 6 / 55
  • 8. Traduction assist´e par ordinateur et corpus comparables e I. Probl´matique : TAO et corpus comparables e Des corpus parall`les aux corpus comparables e Historiquement : lexiques extraits de traductions pass´es e (corpus parall`les) e Limite : nouveaux domaines Corpus comparables sp´cialis´s e e Ensemble de textes en langue L1 et L2 qui traitent d’une mˆme th´matique relative ` un domaine de e e a connaissance sans ˆtre en relation de traduction e 7 / 55
  • 9. Traduction assist´e par ordinateur et corpus comparables e I. Probl´matique : TAO et corpus comparables e Usage des corpus comparables en traduction technique Qualit´ reconnue par les experts de la traduction e [Zanettin, 1998, Mc Enery and Xiao, 2007] : Usage “artisanal” et p´dagogique e Outils sp´cifiques existants e quelques prototypes universitaires [Bennison and Bowker, 2000, Sharoff et al., 2006] pas d’outil commercial 8 / 55
  • 10. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 11. Traduction assist´e par ordinateur et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables a Architecture de l’extracteur 10 / 55
  • 12. Traduction assist´e par ordinateur et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables a Extraction des unit´s ` aligner e a Unit´s polylexicales : groupes nominaux et verbaux extraits e par l’extracteur “terminologique” de Lingua et Machina Unit´s monolexicales (adjectif, verbe, nom, adverbe) e 11 / 55
  • 13. Traduction assist´e par ordinateur et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables a M´thode d’alignement e M´thode d’alignement e Approche distributionnelle [Rapp, 1999, Fung, 1997] : deux mots de sens proche tendent ` apparaˆ dans des contextes a ıtre similaires 12 / 55
  • 14. Traduction assist´e par ordinateur et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de corpus comparables a M´thode d’alignement e Implantation Diverses am´liorations et variantes propos´es e e [D´jean and Gaussier, 2002, Sadat et al., 2003, e Morin et al., 2004, Prochasson, 2010, Hazem and Morin, 2012] Implantation basique avec adaptation aux unit´s polylexicales e [Morin et al., 2004] et filtre sur les cat´gories grammaticales e [Sadat et al., 2003] R´sultats : 60% des unit´s ` traduire avec une traduction e e a correcte parmi les 20 premiers candidats 13 / 55
  • 15. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 16. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative M´thodologie et conditions exp´rimentales e e M´thodologie d’´valuation e e But : d´terminer dans quelle mesure le lexique bilingue e permet d’aider les traducteurs M´thode : comparaison de la qualit´ des traductions e e produites avec / sans les corpus comparables 15 / 55
  • 17. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative M´thodologie et conditions exp´rimentales e e M´thodologie d’´valuation e e 16 / 55
  • 18. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative M´thodologie et conditions exp´rimentales e e M´thodologie d’´valuation e e Objet ´valu´ : expressions probl´matiques e e e Mesure : % de traductions exactes, acceptables, fausses 17 / 55
  • 19. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative Exp´rimentation e Conditions exp´rimentales e Premi`re exp´rimentation visant ` ´prouver la m´thode e e ae e 3 traducteurs dont deux ´tudiant-e-s M2 e 2 th´matiques : cancer du sein, sciences de l’eau e Th´matique sciences de l’eau trop vaste ⇒pas e exploitable ´ Evaluation finale [Planas, 2011] 20 ´tudiants-traducteurs de M1 e Donn´es cancer du sein e 18 / 55
  • 20. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative R´sultats e R´sultats e 19 / 55
  • 21. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative R´sultats e Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions Trop de traductions candidates ⇒ diminuer le nombre de traductions ⇒ approche compositionnelle [Morin and Daille, 2010] 20 / 55
  • 22. Traduction assist´e par ordinateur et corpus comparables e III. Evaluation applicative R´sultats e Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions Trop de traductions candidates ⇒ diminuer le nombre de traductions ⇒ approche compositionnelle [Morin and Daille, 2010] 20 / 55
  • 23. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 24. Traduction assist´e par ordinateur et corpus comparables e IV. Approches compositionnelles Principe Principe de la traduction compositionnelle Principe de compositionalit´ : “Le sens du tout est fonction du e sens de ses constituants” [Keenan and Faltz, 1985, pp. 24-25]. Adaptation ` la traduction : La traduction du tout est fontion de a la traduction de ses constituants. 22 / 55
  • 25. Traduction assist´e par ordinateur et corpus comparables e IV. Approches compositionnelles Principe Exemples de traductions possibles 23 / 55
  • 26. Traduction assist´e par ordinateur et corpus comparables e IV. Approches compositionnelles D´fis e Difficult´s e Divergence morpho-syntaxique : anti-cancer → anti-canc´reux e Divergence lexicale : traduction automatique → machine translation Fertilit´ : e hysterectomy →ablation de l’ut´rus e Variation terminologique : mixed departmentalization → d´partementalisation e mixte, structuration mixte 24 / 55
  • 27. Traduction assist´e par ordinateur et corpus comparables e IV. Approches compositionnelles D´fis e Aspects pas ou peu trait´s e Fertilit´ e Termes monolexicaux : approches sp´cifiques ` un type de e a construction morphologique prefixe1 +base2 ¡ pr´fixe1 +base2 e Ordonnancement / s´lection des traductions : filtres simples e ou pas adapt´s e 25 / 55
  • 28. Traduction assist´e par ordinateur et corpus comparables e IV. Approches compositionnelles D´fis e Propositions Termes monolexicaux : ˆtre moins sp´cifique sur les structures e e morphologiques Traiter la fertilit´ par l’alternance morph`me libre / morph`me e e e li´ e cyto1 toxic2 ¡ toxique2 (pour les) cellules1 Explorer l’apport des crit`res d’ordonnancement et leur e combinaison 26 / 55
  • 29. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 30. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 31. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Principe e e Fonctionnement de base Traduire(“ab”) : = S(R(T (D(“ab”)))) = S(R(T ({a, b}))) = S(R({T (a) × T (b)})) = S(R({a, b})) = S({a, b}, {b, a}) = “ba” 29 / 55
  • 32. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e e e e e e e D´composition e Peu de r`gles : e appariemment entr´es ressources, contraintes longueur e Tous les d´coupages possibles e non-cytotoxic ¡ {non, cyto, toxic}, {noncyto, toxic}, {non, cytotoxic}, {noncytotoxic} 30 / 55
  • 33. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e e e e e e e Traduction ´ Equivalences traductionnelles entre morph`mes libres et li´s e e cyto ¡ cellule : cytotoxique ¡ toxique pour les cellules Nombreuses ressources : familles morphologiques, synonymes, cognats available ¡ disponible ¡ disponibilit´ : bioavailable e ¡ biodisponibilit´ e anastrozole-associated ¡ associ´ a de l’anastrozole e` Strat´gie de repli e confusingly ¡ confusing ¡ confondre 31 / 55
  • 34. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e e e e e e e Recomposition Permutation : pathophysiological ¡ physiopathologique Tous les concat´nations possibles : e {non, toxique, cellule}: {non, toxique, cellule}, {nontoxique, cellule}, {non, toxiquecellule}, {nontoxiquecellule} 32 / 55
  • 35. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Sp´cificit´s de la m´thode propos´e e e e e e e S´lection e Projection de patrons toxique .* cellule ¡ toxique pour les cellules 33 / 55
  • 36. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Cadre exp´rimental e e e Donn´es exp´rimentales e e Domaine cancer du sein, EN ¡ FR, EN ¡ DE 1800 unit´s monolexicales morphologiquement construites e aucune n’est traduisible avec le dictionnaire g´n´raliste e e Ressources existantes : dictionnaire g´n´raliste et synonymes e e Ressources manuelles : traductions morph`mes e Ressources automatiques : familles morphologiques [Porter, 1980], cognats [Hauer and Kondrak, 2011] 34 / 55
  • 37. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Cadre exp´rimental e e e M´thodologie d’´valuation e e Evaluation a priori : capacit´ de l’algorithme ` reproduire un e a lexique existant, favorable, orient´ terminologie e Evaluation a posteriori : qualit´ des r´sultats obtenus en e e situation d’usage, orient´ aide ` la traduction e a Annotation manuelle des sorties du syst`me ; e exact, acceptable, proche, faux 35 / 55
  • 38. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Cadre exp´rimental e e e M´thodologie d’´valuation e e Evaluation a priori : capacit´ de l’algorithme ` reproduire un e a lexique existant, favorable, orient´ terminologie e Evaluation a posteriori : qualit´ des r´sultats obtenus en e e situation d’usage, orient´ aide ` la traduction e a Annotation manuelle des sorties du syst`me ; e exact, acceptable, proche, faux 35 / 55
  • 39. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Cadre exp´rimental e e e M´thodologie d’´valuation e e Evaluation a priori : capacit´ de l’algorithme ` reproduire un e a lexique existant, favorable, orient´ terminologie e Evaluation a posteriori : qualit´ des r´sultats obtenus en e e situation d’usage, orient´ aide ` la traduction e a Annotation manuelle des sorties du syst`me ; e exact, acceptable, proche, faux 35 / 55
  • 40. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Cadre exp´rimental e e e Mesures d’´valuation r´f´rence a priori e ee Couverture : capacit´ ` g´n´rer une traduction candidate ea e e Pr´cision : capacit´ ` proposer une traduction correcte parmi les e ea traductions g´n´r´e e ee Utilisabilit´ : capacit´ ` g´n´rer une traduction candidate et e ea e e correcte 36 / 55
  • 41. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle ´ G´n´ration de traductions candidates :: Evaluation e e Aspects ´valu´s e e G´n´ricit´ du mod`le e e e e Ressources linguistiques Fertilit´ e 37 / 55
  • 42. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle ´ G´n´ration de traductions candidates :: Evaluation e e G´n´ricit´ du mod`le : m´thodes test´es e e e e e e Pr´fixation : pretreatment ¡ pr´-traitement e e Composition savante : hypercalcaemia ¡ hypercalc´mie e Composition populaire : acute-phase ¡ Akutphase, akuten Phase Cognat : t-test ¡ t-Test 38 / 55
  • 43. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle ´ G´n´ration de traductions candidates :: Evaluation e e G´n´ricit´ du mod`le : r´sultats e e e e e Composition savante, pr´fixation : m´thodes tr`s pr´cises e e e e (>0.92) mais petite couverture (<0.03) Composition populaire : petite couverture, moyennement pr´cise (0.62 ` 0.65) e a Cognats : meilleure couverture (0.10 ` 0.13), pr´cision a e moyenne ` bonne (0.66 ` 0.81) a a Notre m´thode : e large couverture : 0.36 ` 0.40 a pr´cision moyenne : 0.68 ` 0.56 e a utilisabilit´ meilleure : 0.20 ` 0.28 vs. cognats 0.07 ` 0.10 e a a 39 / 55
  • 44. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle ´ G´n´ration de traductions candidates :: Evaluation e e Apport des traductions fertiles Traductions fertiles nettement moins pr´cises (-0.20 ` -0.39) e a Combinaison aux traductions non fertiles int´ressante (+6 ` 10 e a points utilisabilit´) e 40 / 55
  • 45. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Bilan e e Bilan Fort gain en couverture, baisse limit´e de la pr´cison e e ⇒ utilisabilit´ meilleure e Limites : fertilit´ s´mantique : snorkeling ¡ plong´e avec tuba e e e Perspectives : compression : apr`s la m´nopause ¡ post-menopause e e termes polylexicaux : cytogenetic instability ¡ instabilit´ e g´n´tique des cellules e e 41 / 55
  • 46. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle G´n´ration de traductions candidates :: Bilan e e Bilan M´thode bien adapt´e aux corpus comparables sp´cialis´s ... e e e e peu d’a priori sur la structure du terme cible variantes morphologiques usage des cognats ... mais bruit´e ⇒ n´cessite un filtrage e e 42 / 55
  • 47. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 48. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates Ordonnancement de traductions candidates Partie exploratoire Apports : nouveaux crit`res e comparaison combinaison (learning-to-rank) 44 / 55
  • 49. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates Crit`res e F : fr´quence traduction candidate e C : similarit´ des contextes e P : probabilit´ de traduction des partie du discours e M : fiabilit´ des modes de traductions e 45 / 55
  • 50. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates :: Exp´rimentations e Exp´riences e Chaque crit`re pris isol´ment e e ´ ´ Combinaison non ponderee : F + C + P+ M ´ ´ Combinaison ponderee : αF + βC + γP + δM Apprentissage mod`les d’ordonnancement, famille list-wise : e AdaRank, Lambda MART : boosting Coordinate Ascent : mod`le lin´aire e e 46 / 55
  • 51. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates :: Exp´rimentations e Donn´es exp´rimentales e e 47 / 55
  • 52. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates :: Exp´rimentations e M´thode d’´valuation e e Pr´cision sur le TopN : parmi les termes sources avec au e moins 1 traduction candidate, % de ceux avec une traduction correcte parmi les N premi`res traductions e Classement fonction de la pr´cision sur le Top1 puis 2 puis 3 e 48 / 55
  • 53. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates :: R´sultats e R´sultats e Comparaison des crit`res : e Contextes : moins bon crit`re (0.80 ` 0.88 Top1) e a Fiabilit´ des modes de traduction : meilleur crit`re (0.82 ` e e a 0.93 Top1) Meilleures m´thodes (0.85 ` 0.93, +5 ` 9 points vs. al´atoire, e a a e Top1) : ´ ´ Combinaison non ponderee ´ree ´ Combinaison ponde Coordinate Ascent, AdaRank 49 / 55
  • 54. Traduction assist´e par ordinateur et corpus comparables e V. Traduction morpho-compositionnelle Ordonnancement de traductions candidates :: Bilan Bilan et perspectives N´cessit´ de montrer la significativit´ des r´sultats e e e e Globalement : combinaison int´ressante, pas d’apport marqu´ e e des mod`les de learning-to-rank (peu de crit`res) e e Autres crit`res : diff´rence de fr´quence, mod`le de langue... e e e e Comment int´grer des donn´es parall`les g´n´ralistes, d’autres e e e e e domaines, d’autres langues ? apprentissage ` partir des traductions du dictionnaire a g´n´raliste et des cognats e e poids valables pour tous les couples de langues... 50 / 55
  • 55. Plan I. Probl´matique : TAO et corpus comparables e II. Implantation d’un extracteur de lexiques bilingues ` partir de a corpus comparables III. Evaluation applicative IV. Approches compositionnelles V. Traduction morpho-compositionnelle G´n´ration de traductions candidates e e Ordonnancement de traductions candidates VI. Conclusion g´n´rale e e
  • 56. Traduction assist´e par ordinateur et corpus comparables e VI. Conclusion g´n´rale e e Bilan D´veloppement d’un prototype d’extracteur de lexiques e bilingues sp´cialis´s ` partir de corpus comparables e e a [Delpech and Daille, 2010] Exp´rimentation de l’approche “classique” dans le cadre e applicatif de la TAO [Delpech, 2011, Delpech, 2012] : Contributions ` la traduction compositionnelle a [Delpech et al., 2012b, Delpech et al., 2012a]: Communications et d´monstrations logicielles e [Delpech, 2010a, Delpech, 2010b, Brown de Colstoun et al., 2011] 52 / 55
  • 57. Traduction assist´e par ordinateur et corpus comparables e VI. Conclusion g´n´rale e e Peut-on extraire des lexiques bilingues r´ellement e utilisables par les traducteurs ` partir de corpus a comparables ? Approche compositionnelle : r´duit le nombre de traductions mais cantonn´e aux ´l´ments e e ee au sens compositionnel (60% d’apr`s [Namer and Baud, 2007]) e 20% ` 28% avec une traduction correcte a Approche distributionnelle : forte couverture mais lexiques trop ambigus (60% sur le Top20, ´valuation a priori) e 53 / 55
  • 58. Traduction assist´e par ordinateur et corpus comparables e VI. Conclusion g´n´rale e e Tr`s ambitieux en l’´tat actuel e e Lexique obtenu : une petite partie avec une traduction correcte sur le Top1 ou Top2 une partie avec traduction correcte sur Top 20 majeure partie sans traduction Difficile d’augmenter le corpus th´matique fine, forte comparabilit´ e e peu de textes sp´cialis´s e e Difficult´ inh´rente au corpus : e e seulement une partie du vocabulaire en commun 54 / 55
  • 59. Traduction assist´e par ordinateur et corpus comparables e VI. Conclusion g´n´rale e e Perspectives Ne pas exag´rement focaliser sur l’extraction d’alignements e Aider ` l’exploration de corpus comparables par de multiples a mani`res : e extraction, alignement de contextes pertinents outils de recherche avanc´s e travailler avec les traducteurs : automatiser les techniques ⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS, Facult´ de Traduction et d’Interpr´tation e e 55 / 55
  • 60. Merci pour votre attention
  • 62. Traduction assist´e par ordinateur et corpus comparables e M´thode d’alignement e 1. Collecte des contextes (vecteurs) −− − − − − − − −→ cytog´n´tique ={instabilit´, traitement, tamoxif`ne...} e e e e −− − −→ −−−− cytogenetics :{instability, treatment, tamoxifene...} 2. Traduction ` l’aide d’un dictionnaire g´n´raliste a e e −− − − − − − − −→ cytog´n´tique :{instability, treatment, ?...} e e 3. Comparaison des contextes −− − − − −− − −→ − − − −→ − − − − similarit´(cytog´n´tique, cytogenetics) = 0.75 e e e 4. S´lection des candidats e cytog´n´tique ¡ cytogenetics (0.75), genetics (0.70)... e e 58 / 55
  • 63. Traduction assist´e par ordinateur et corpus comparables e Interface de consultation 59 / 55
  • 64. Fertilit´ e Traduction fertile Soit deux ensembles disjoints S et C o` S est un u ensemble de termes sources et C est un ensemble de termes cibles. Soit la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles F est d´fini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}. e Exemples : post-menopause ¡ apr`s (la) m´nopause e e option express ¡ option voie rapide snorkeling ¡ plong´e (avec) tuba e
  • 65. Fertilit´ de surface et fertilit´ s´mantique e e e Surface S´mantique e
  • 66. G´n´ricit´ I e e e Composition savante (18%) Cognat Composition populaire (48 %) Pr´fixation (31%) e Notre m´thode e C ,03 ,13 ,05 ,02 ,40 PE ,95 ,66 ,63 ,90 ,59 Table: anglais ¡ fran¸ais c UE ,03 ,08 ,03 ,02 ,24 PEA 1 ,81 ,65 ,97 ,69 UEA ,03 ,10 ,03 ,02 ,28
  • 67. G´n´ricit´ II e e e Composition savante (18%) Cognat Composition populaire (49 %) Pr´fixation (32%) e Notre m´thode e C ,03 ,10 ,04 ,03 ,36 PE ,96 ,58 ,55 ,86 ,48 Table: anglais ¡ allemand UE ,02 ,06 ,02 ,02 ,17 PEA ,98 ,66 ,62 ,92 ,56 UEA ,02 ,07 ,03 ,03 ,20
  • 68. G´n´ricit´ du mod`le : discussion e e e e Variation morphologique : pretreatment ¡ pr´traiter, e cardiotoxicity¡ cardiotoxique, time-consuming ¡ consommateur de temps Fertilit´ : pretreatment ¡ avant le traitement, e hypercalcaemia ¡ zu viel calcium in das blut Cognats : aromatase-inhibiting ¡ hemmung der aromatase‘inhibition de l’aromatase’ Suffixes : colorless ¡ sans colorant, randomly ¡ (de) mani`re randomis´e e e Strat´gie de repli : ribosome ¡ ribosomique e
  • 69. Ressources linguistiques : comparaisons effectu´es e Base : dictionnaire g´n´raliste et table de traduction des e e morph`mes e Base + familles morphologiques Base + synonymes Base + cognats Toutes les ressources
  • 70. Apport des ressources linguistiques Syst`me de base : dictionnaire g´n´raliste et table de traduction e e e des morph`mes e Synonymes : pas adapt´s (bloodstream ¡ courant sanguin e ¡ circulation sanguine) Familles morphologiques : +0.09 ` 0.11 de couverture ; +0.04 a ` 0.06 d’utilisabilit´ a e Cognats : + 0.12 de couverture ; +0.06 ` 0.09 d’utilisabilit´ a e Combinaison : + 0.17 ` 0.24 couverture ; +0.10 ` 0.16 a a utilisabilit´ e
  • 71. Ressources linguistiques I Base Base + dictionnaire de cognats Base + familles morphologiques Base + dictionnaire synonymes Toutes les ressources C ,16 ,28 ,27 ,17 ,40 PE ,73 ,71 ,56 ,69 ,59 Table: anglais ¡ fran¸ais c UE ,12 ,19 ,15 ,12 ,24 PEA ,77 ,77 ,66 ,72 ,69 UEA ,12 ,21 ,18 ,13 ,28
  • 72. Ressources linguistiques II Base Base + dictionnaire de cognats Base + familles morphologiques Base + dictionnaire synonymes Toutes les ressources C ,15 ,27 ,24 ,17 ,36 PE ,60 ,56 ,48 ,55 ,48 Table: anglais ¡ allemand UE ,09 ,15 ,12 ,09 ,17 PEA ,63 ,61 ,57 ,60 ,56 UEA ,10 ,16 ,14 ,10 ,20
  • 73. Traductions fertiles I Traductions non fertiles Traductions fertiles C ,24 ,24 PE ,58 ,52 UE ,14 ,12 PEA ,75 ,55 UEA ,18 ,13 Traductions non fertiles Toutes les traductions ,24 ,40 ,58 ,59 ,14 , 24 ,75 ,69 ,18 ,28 Table: anglais ¡ fran¸ais c
  • 74. Traductions fertiles II Traductions non fertiles Traductions fertiles C ,24 ,20 PE ,58 ,26 UE ,14 ,05 PEA ,69 ,30 UEA ,16 ,06 Traductions non fertiles Toutes les traductions ,24 ,36 ,58 ,48 ,14 ,17 ,69 ,56 ,16 ,20 Table: anglais ¡ allemand
  • 75. R´sultats anglais ¡ fran¸ais e c ´ Meilleure precision possible Combinaison non pond´r´e ee Combinaison pond´r´e ee Coordinate Ascent Lambda MART M F AdaRank P C ´ Aleatoire Top1 ,94 ,928 ,928 ,928 ,928 ,928 ,916 ,892 ,892 ,88 ,836 Top2 ,94 ,94 ,94 ,94 ,94 ,94 ,928 ,904 ,904 ,904 ,898 Top3 ,94 ,94 ,94 ,94 ,94 ,94 ,94 ,928 ,928 ,928 ,928 RPM 1 2 2 2 2 2 3 4 4 4 13
  • 76. R´sultats anglais ¡ allemand e ´ Meilleure precision possible Combinaison pond´r´e ee Lambda MART ´ ´ Combinaison non ponderee Coordinate Ascent F AdaRank P M C ´ Aleatoire Top1 ,879 ,848 ,848 ,833 ,833 ,833 ,833 ,833 ,818 ,803 ,77 Top2 ,879 ,879 ,864 ,864 ,864 ,848 ,848 ,848 ,864 ,864 ,832 Top3 ,879 ,879 ,864 ,879 ,879 ,879 ,848 ,848 ,879 ,864 ,846 RPM 1 2 5 3 3 3 17 17 3 28 28
  • 77. Comparaison avec [Claveau and Kijak, 2011] Delpech EN-FR Delpech EN-DE Claveau FR-JA PE ,93 ,85 ,89 RE ,61 ,62 ,64 F1E ,74 ,72 ,74 # exemples 1 970 1 829 6 400 table morph`mes e 242 ¡ 1001 250 ¡ 1081 0
  • 78. R´f´rences I ee Bennison, P. and Bowker, L. (2000). Designing a tool for exploiting bilingual comparable corpora. In Proceedings of LREC 2000, Athens, Greece. Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011). Libellex : une plateforme multiservices pour la gestion des contenus multilingues. In Lafourcade, M. and Prince, V., editors, Actes de la 18`me conf´rences sur le traitement automatique des e e langues naturelles, volume 2, page 319, Montpellier, France. Claveau, V. and Kijak, E. (2011). Morphological analysis of biomedical terminology with Analogy-Based alignment. In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011, pages 347–354, Hissar, Bulgaria. Darbelnet, J. (1979). R´flexions sur le discours juridique. e Meta : journal des traducteurs / Meta: Translator’s Journal, 24(1):26–34. D´jean, E. and Gaussier, E. (2002). e Une nouvelle approche ` l’extraction de lexiques bilingues ` partir de corpus comparables. a a Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22. Delpech, E. (2010a). Bilingual terminology mining. In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing (Franco-Thai Workshop 2010), Bangkok, Tha¨ ılande. Delpech, E. (2010b). Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communaut´s ferm´es. e e In Terminologie & Ontologie : Th´ories et applications (TOTh), Annecy, France. e
  • 79. R´f´rences II ee Delpech, E. (2011). Evaluation of terminologies acquired from comparable corpora : an application perspective. In Pedersen B.S., Ne˘pore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational s Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia. Delpech, E. (2012). Un protocole d’´valuation applicative des terminologies bilingues destin´es ` la traduction sp´cialis´e. e e a e e Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ro sp´cial : Evaluation des m´thodes e e e d’Extraction de Connaissances dans les Donn´es (Eval’ECD). e Delpech, E. and Daille, B. (2010). Dealing with lexicon acquired from comparable corpora : validation and exchange. In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages 211–223, Dublin, Ireland. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a). Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and ranking. In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai, Inde. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b). Identification of fertile translations in medical comparable corpora: a morpho-compositional approach. In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas, San Diego, California. Durieux, C. (2010). Fondement didactique de la traduction technique. La maison du dictionnaire, Paris, France.
  • 80. R´f´rences III ee Fung, P. (1997). Finding terminology translations from non-parallel corpora. In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong. Hauer, B. and Kondrak, G. (2011). Clustering semantically equivalent words into cognate sets in multilingual lists. In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873, Chiang Mai, Thailand. Hazem, A. and Morin, E. (2012). ICA for bilingual lexicon extraction from comparable corpora. In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey. Keenan, E. L. and Faltz, L. M. (1985). Boolean semantics for natural language. Dordrecht, Holland. Mc Enery, A. M. and Xiao, R. Z. (2007). Parallel and comparable corpora: What is happening? In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating Europe, pages 18–31. Multilingual Matters, Clevedon, UK. Morin, E. and Daille, B. (2010). Compositionality and lexical alignment of multi-word terms. In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation (LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands. Morin, E., Dufour-Kowalski, S., and Daille, B. (2004). Extraction de terminologies bilingues ` partir de corpus comparables. a In Actes de la 11`me Conf´rence annuelle sur le Traitement Automatique des Langues Naturelles (TALN), e e pages 309–318, F`s, Maroc. e
  • 81. R´f´rences IV ee Namer, F. and Baud, R. (2007). Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system. International Journal of Medical Informatics, 76(2-3):226–33. Planas, E. (2011). Metricc : Rapport final sur l’´valuation de l’apport des lexiques bilingues pour la traduction. e D´livrable ANR no 28 lot 4.3, Universit´ de Nantes, Nantes. e e Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3):130–137. Prochasson, E. (2010). Alignement multilingue en corpus comparables sp´cialis´s : Caract´risation terminologique multilingue. e e e Th`se en informatique, Universit´ de Nantes, Nantes. e e Rapp, R. (1999). Automatic Identification of Word Translations from Unrelated English and German Corpora. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), pages 519–526, College Park, MD, USA. Sadat, F., Yoshikawa, M., and Uemura, S. (2003). Learning bilingual translations from comparable corpora to Cross-Language information retrieval: Hybrid statistics-based and linguistics-based approach. volume 11, pages 57–64, Sappro, Japan. Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006). ASSIST: automated semantic assistance for translators. In Proceedings to the 11th Conference of the European Chapter of the Association for Computational Linguistics, pages 139–142, Trento, Italie.
  • 82. R´f´rences V ee Zanettin, F. (1998). Bilingual comparable corpora and the training of translators. Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.