Usage du TAL dans des applications industrielles
gestion des contenus multilingues & recherche d’information
g´olocalis´e
...
Parcours universitaire
Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2
Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-20...
Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-20...
Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-20...
Parcours professionnel
Parcours professionnel

2004-2005 Assistante de langue, New College
Parcours professionnel

2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT
⇒extraction d’infor...
Parcours professionnel

2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT
⇒extraction d’infor...
Parcours professionnel

2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT
⇒extraction d’infor...
Parcours professionnel

2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT
⇒extraction d’infor...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Lingua et Machina
Lingua et Machina

Domaine Traduction assist´e par ordinateur
e
Lingua et Machina

Domaine Traduction assist´e par ordinateur
e
2002 Fondation par Dr. Planas sur la base de ses travaux
d...
Traduction assist´e par ordinateur
e
[Hutchins, 1996, Somers, 2005]
Traduction assist´e par ordinateur
e
[Hutchins, 1996, Somers, 2005]

1959-1966 Premi`res recherches en TA (US)
e
Traduction assist´e par ordinateur
e
[Hutchins, 1996, Somers, 2005]

1959-1966 Premi`res recherches en TA (US)
e
1966 Rapp...
Traduction assist´e par ordinateur
e
[Hutchins, 1996, Somers, 2005]

1959-1966 Premi`res recherches en TA (US)
e
1966 Rapp...
Traduction assist´e par ordinateur
e
[Hutchins, 1996, Somers, 2005]

1959-1966 Premi`res recherches en TA (US)
e
1966 Rapp...
Traduction assist´e par ordinateur
e
[Hutchins, 1996, Somers, 2005]

1959-1966 Premi`res recherches en TA (US)
e
1966 Rapp...
Gestion terminologie bilingue
Concordanciers bilingues I
Concordanciers bilingues II
Similis : M´moires de traduction
e
Libellex : Plateforme de travail multilingue I

Pour tous les employ´s de l’entreprise :
e
experts m´tiers
e
r´dacteurs
e
...
Libellex : Plateforme de travail multilingue II

Diverses technologies :
concordanciers bilingues
gestion de terminologie
...
Libellex : Plateforme de travail multilingue III
Mati`re premi`re : les traductions pass´es
e
e
e

Corpus parall`les [V´ronis, 2000]
e
e
“texts accompanied by their transl...
Limites des corpus parall`les
e

Nouveaux domaines, nouvelles langues
R´tro-ing´nierie
e
e
Traduction = texte spontan´
e
Solution envisag´es
e

Corpus comparables
Ensemble de textes en langue L1 et L2 qui traitent
d’une mˆme th´matique sans ˆt...
Usage des corpus comparables en traduction technique
Usage des corpus comparables en traduction technique

Qualit´ reconnue par les experts de la traduction
e
[Zanettin, 1998,...
Usage des corpus comparables en traduction technique

Qualit´ reconnue par les experts de la traduction
e
[Zanettin, 1998,...
Usage des corpus comparables en traduction technique

Qualit´ reconnue par les experts de la traduction
e
[Zanettin, 1998,...
Corpus comparables et traduction automatique
[Carpuat et al., 2012]

adaptation des syst`mes de TA ` un nouveau domaine
e
...
Corpus comparables et recherche d’information crosslingue
[Li et al., 2011]

ajout de nouvelles entr´es au lexique
e
+ 0.0...
Corpus comparables et traduction assist´e par ordinateur
e

nombreux travaux sur l’extraction de lexiques
pas d’´valuation...
Projet Metricc - www.metricc.com

Corpus comparables et :
recherche d’information interlingue
cat´gorisation multilingue
e...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Travaux effectu´s ` Lingua et Machina
e a
Travaux effectu´s ` Lingua et Machina
e a

Transfert technologique : extraction de lexiques bilingues `
a
partir de corpus ...
Travaux effectu´s ` Lingua et Machina
e a

Transfert technologique : extraction de lexiques bilingues `
a
partir de corpus ...
Travaux effectu´s ` Lingua et Machina
e a

Transfert technologique : extraction de lexiques bilingues `
a
partir de corpus ...
Transfert technologique
extraction de lexiques bilingues ` partir de corpus
a
comparables
Processus d’extraction

Collecte des corpus
Identification des unit´s ` aligner (termes, unit´s mono- et
e a
e
polylexicale...
M´thode d’alignement
e

Approche distributionnelle [Rapp, 1999, Fung, 1997]
deux mots de sens proche tendent ` apparaˆ dan...
Collecte et normalisation des vecteurs

[Prochasson, 2010]

−− − − −
− − − −→
cytog´n´tique ={instabilit´, traitement, tam...
Traduction des vecteurs

[Prochasson, 2010]

−− − − −
− − − −→
cytog´n´tique ={instabilit´, traitement, tamoxif`ne...}
e e...
Comparaison des vecteurs et s´lection candidat
e

[Prochasson, 2010]

−− − − − −− − −→
− − − −→ − − − −
e e
similarit´(cyt...
Variantes et am´liorations
e

Diverses am´liorations et variantes propos´es
e
e
[D´jean and Gaussier, 2002, Sadat et al., ...
Evaluation
Evaluation

Pr´cision sur le TopN : parmi les termes sources avec au
e
moins 1 traduction candidate, % de ceux avec une tr...
Evaluation

Pr´cision sur le TopN : parmi les termes sources avec au
e
moins 1 traduction candidate, % de ceux avec une tr...
Choix d’impl´mentation
e
Choix d’impl´mentation
e

M´thodes peu coˆteuses en temps et d´veloppement logiciel
e
u
e
Choix d’impl´mentation
e

M´thodes peu coˆteuses en temps et d´veloppement logiciel
e
u
e
Choix arbitraire des mesures de ...
Choix d’impl´mentation
e

M´thodes peu coˆteuses en temps et d´veloppement logiciel
e
u
e
Choix arbitraire des mesures de ...
Choix d’impl´mentation
e

M´thodes peu coˆteuses en temps et d´veloppement logiciel
e
u
e
Choix arbitraire des mesures de ...
Architecture de l’extracteur
Interface de consultation
http://80.82.238.151/Metricc/InterfaceValidation/
´
Evaluation applicative
M´thodologie d’´valuation
e
e

But : d´terminer dans quelle mesure le lexique bilingue permet
e
d’aider les traducteurs
M´...
M´thodologie d’´valuation
e
e
M´thodologie d’´valuation
e
e

Objet ´valu´ : expressions probl´matiques
e
e
e
Mesure : % de traductions exactes, acceptab...
Conditions exp´rimentales
e

Premi`re exp´rimentation visant ` ´prouver la m´thode
e
e
ae
e
3 traducteurs dont deux ´tudia...
R´sultats
e
Difficult´s d’usage
e
Difficult´s d’usage
e

R´sistance au changement
e
⇒ formation et recueil des besoins
Difficult´s d’usage
e

R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ ...
Difficult´s d’usage
e

R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ ...
Difficult´s d’usage
e

R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ ...
Difficult´s d’usage
e

R´sistance au changement
e
⇒ formation et recueil des besoins

Trop de termes sources non couverts
⇒ ...
Recherche d’am´liorations int´ressantes en contexte
e
e
industriel
Principe de la traduction compositionnelle

Principe de compositionalit´ : “Le sens du tout est fonction du
e
sens de ses ...
Exemples de traductions possibles
Difficult´s
e

Divergence morpho-syntaxique :
anti-cancer → anti-canc´reux
e
Divergence lexicale :
traduction automatique → ...
Aspects pas ou peu trait´s
e

Fertilit´
e
Termes monolexicaux : approches sp´cifiques ` un type de
e
a
construction morphol...
Propositions

Termes monolexicaux : ˆtre moins sp´cifique sur les structures
e
e
morphologiques
Traiter la fertilit´ par l’...
Fertilit´
e

Traduction fertile Soit deux ensembles disjoints S et C o` S est un
u
ensemble de termes sources et C est un ...
Fertilit´ de surface et fertilit´ s´mantique
e
e e
Traduction fertile en surface Soit une traduction fertile sFc, M(s)
l’e...
Fonctionnement de base

Traduire(“ab”) :
= S(R(T (D(“ab”))))
= S(R(T ({a, b})))
= S(R({T (a) × T (b)}))
= S(R({a, b}))
= S...
D´composition
e

Peu de r`gles :
e
appariemment entr´es ressources, contraintes longueur
e

Tous les d´coupages possibles
...
Traduction

´
Equivalences traductionnelles entre morph`mes libres et li´s
e
e
cyto ¡ cellule : cytotoxique ¡ toxique pour...
Recomposition

Permutation :
pathophysiological ¡ physiopathologique

Tous les concat´nations possibles :
e
{non, toxique,...
S´lection
e

Projection de patrons
toxique .* cellule ¡ toxique pour les cellules
Donn´es exp´rimentales
e
e

Domaine cancer du sein, EN ¡ FR, EN ¡ DE
1800 unit´s monolexicales morphologiquement construit...
M´thodologie d’´valuation
e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favora...
M´thodologie d’´valuation
e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favora...
M´thodologie d’´valuation
e
e

Evaluation a priori : capacit´ de l’algorithme ` reproduire un
e
a
lexique existant, favora...
Mesures d’´valuation r´f´rence a priori
e
ee

Couverture : capacit´ ` g´n´rer une traduction candidate
ea e e
Pr´cision : ...
Aspects ´valu´s
e
e

G´n´ricit´ du mod`le
e e
e
e
Ressources linguistiques
Fertilit´
e
G´n´ricit´ du mod`le : m´thodes test´es
e e
e
e
e
e

Pr´fixation : pretreatment ¡ pr´-traitement
e
e
Composition savante : ...
G´n´ricit´ : r´sultats I
e e
e e

Composition savante (18%)
Cognat
Composition populaire (48 %)
Pr´fixation (31%)
e
Notre m...
G´n´ricit´ : r´sultats II
e e
e e

Composition savante (18%)
Cognat
Composition populaire (49 %)
Pr´fixation (32%)
e
Notre ...
G´n´ricit´ : r´sultats III
e e
e e

Composition savante, pr´fixation : m´thodes tr`s pr´cises
e
e
e
e
(>0.92) mais petite c...
G´n´ricit´ du mod`le : discussion
e e
e
e

Variation morphologique : pretreatment ¡ pr´traiter,
e
cardiotoxicity¡ cardioto...
Ressources linguistiques : comparaisons effectu´es
e

Base : dictionnaire g´n´raliste et table de traduction des
e e
morph`...
Ressources linguistiques : r´sultats I
e

Base
Base + dictionnaire de cognats
Base + familles morphologiques
Base + dictio...
Ressources linguistiques : r´sultats II
e

Base
Base + dictionnaire de cognats
Base + familles morphologiques
Base + dicti...
Apport des ressources linguistiques

Syst`me de base : dictionnaire g´n´raliste et table de traduction
e
e e
des morph`mes...
Traductions fertiles : comparaisons effectu´es
e

Traductions fertiles vs. non fertiles
Traductions non fertiles vs. fertil...
Traductions fertiles : r´sultats I
e

Traductions non fertiles
Traductions fertiles

C
,24
,24

PE
,58
,52

UE
,14
,12

PE...
Traductions fertiles : r´sultats II
e

Traductions non fertiles
Traductions fertiles

C
,24
,20

PE
,58
,26

UE
,14
,05

P...
Apport des traductions fertiles

Traductions fertiles nettement moins pr´cises (-0.20 ` -0.39)
e
a
Combinaison aux traduct...
Bilan

Fort gain en couverture, baisse limit´e de la pr´cison
e
e
⇒ utilisabilit´ meilleure
e
Limites :
fertilit´ s´mantiq...
Bilan

M´thode bien adapt´e aux corpus comparables sp´cialis´s ...
e
e
e
e
peu d’a priori sur la structure du terme cible
...
Ordonnancement de traductions candidates

Partie exploratoire
Apports :
nouveaux crit`res
e
comparaison
combinaison (learn...
Crit`res
e

F : fr´quence traduction candidate
e
C : similarit´ des contextes
e
P : probabilit´ de traduction des partie d...
Exp´riences
e

Chaque crit`re pris isol´ment
e
e
´ ´
Combinaison non ponderee : F + C + P+ M
´ ´
Combinaison ponderee : αF...
Donn´es exp´rimentales
e
e
M´thode d’´valuation
e
e

Pr´cision sur le TopN : parmi les termes sources avec au
e
moins 1 traduction candidate, % de ce...
R´sultats I
e

´
Meilleure precision possible
Combinaison non pond´r´e
ee
Combinaison pond´r´e
ee
Coordinate Ascent
Lambda...
R´sultats II
e

´
Meilleure precision possible
Combinaison pond´r´e
ee
Lambda MART
´ ´
Combinaison non ponderee
Coordinate...
R´sultats III
e

Comparaison des crit`res :
e
Contextes : moins bon crit`re (0.80 ` 0.88 Top1)
e
a
Fiabilit´ des modes de ...
Bilan et perspectives

N´cessit´ de montrer la significativit´ des r´sultats
e
e
e
e
Globalement : combinaison int´ressante...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Bilan des travaux

D´veloppement d’un prototype d’extracteur de lexiques
e
bilingues sp´cialis´s ` partir de corpus compar...
Peut-on extraire des lexiques bilingues r´ellement
e
utilisables par les traducteurs ` partir de corpus
a
comparables ?

A...
Tr`s ambitieux en l’´tat actuel
e
e

Lexique obtenu :
une petite partie avec une traduction correcte sur le Top1 ou
Top2
u...
Perspectives

Ne pas exag´rement focaliser sur l’extraction d’alignements
e
Aider ` l’exploration de corpus comparables pa...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
Nomao
carnet de bonnes adresses (entre amis)
www.nomao.com

Application Web et mobile
Trouver, garder et ´changer des
e
bo...
Application Web

Utilisateur non connect´ :
e
e-r´putation
e
Utilisateur connect´ (FB) :
e
recommandation
lieux qui corres...
Application mobile

E-r´putation
e
Recommandation
Recherche g´olocalis´e
e
e
R´alit´ augment´e
e e
e
L’entreprise Nomao
2007 cr´ation
e
2010 acquisition par le
groupe Ebuzzing
2012 3M visites / jour

´
Toulouse / Paris / Ev...
Traitement des donn´es @ nomao
e
Traitement des donn´es @ nomao
e
Traitement des donn´es @ nomao
e
Traitement des donn´es @ nomao
e
Recommandation de lieux
Recommandation de lieux

E-r´putation analyse d’opinion + notes
e
Recommandation de lieux

E-r´putation analyse d’opinion + notes
e
Affinit´ lieu ↔utilisateur
e
Recommandation de lieux

E-r´putation analyse d’opinion + notes
e
Affinit´ lieu ↔utilisateur
e
filtrage collaboratif : lieu a...
Recommandation de lieux

E-r´putation analyse d’opinion + notes
e
Affinit´ lieu ↔utilisateur
e
filtrage collaboratif : lieu a...
Recommandation de lieux

E-r´putation analyse d’opinion + notes
e
Affinit´ lieu ↔utilisateur
e
filtrage collaboratif : lieu a...
Recherche et ranking
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Similarit´ requˆte ↔ lieu
e
e
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Similarit´ requˆte ↔ lieu
e
e
Proximit´ g´ographique
e e
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Similarit´ requˆte ↔ lieu
e
e
Proximit´ g´ographique
e e
Q...
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Similarit´ requˆte ↔ lieu
e
e
Proximit´ g´ographique
e e
Q...
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Similarit´ requˆte ↔ lieu
e
e
Proximit´ g´ographique
e e
Q...
Recherche et ranking

Ranking bas´ sur plusieurs crit`res :
e
e
Similarit´ requˆte ↔ lieu
e
e
Proximit´ g´ographique
e e
Q...
Construction de l’index de lieux
Construction de l’index de lieux
Donn´es extraites
e

SOURCE 1


nom : Les Caves de La Mar´chale
e
 descripteurs : restaurant

 adresse :

 rue :

...
Donn´es int´gr´es
e
e e

LIEU


#5237890

nom : Les Caves de La Mar´chale
e
 descripteurs : restaurant, fran¸ais
c


r...
Donn´es analys´es
e
e

LIEU


#5237890

nom : Les Caves de La Mar´chale
e
 descripteurs : restaurant, fran¸ais
c

 cat...
Contenu g´n´r´
e ee
Travaux en cours
Travaux en cours

Learning-to-rank mod`le de ranking appris automatiquement `
e
a
partir des clics utilisateurs
Travaux en cours

Learning-to-rank mod`le de ranking appris automatiquement `
e
a
partir des clics utilisateurs
Fusion de ...
Travaux en cours

Learning-to-rank mod`le de ranking appris automatiquement `
e
a
partir des clics utilisateurs
Fusion de ...
Plan

Gestion des contenus multilingues
Contexte industriel
Travaux de R&D
Bilan des travaux

Recherche d’information loca...
G´n´ration automatique de texte
e e
G´n´ration automatique de texte
e e

Textes en boite : ”Votre imprimante n’a plus de papier”
Textes ` trous et patrons con...
Content spinning
Content spinning

Technique de g´n´ration de contenu vari´ pour optimiser des
e e
e
pages web
Principe :
1. ´criture d’un ...
G´n´ration de texte
e e

intelligente
G´n´ration de texte
e e

‘

intelligente
Applications possibles

Traduction automatique (syst`me par pivot)
e
R´sum´ automatique (syst`me bas´s sur une simulation ...
Applications confirm´es
e

Agents conversationnels
G´n´ration de textes ` partir de donn´es
e e
a
e
num´riques, ex : m´t´o,...
Travaux acad´miques
e
Architecture typique d’un syst`me de g´n´ration
e
e e
[Danlos and Roussarie, 2000]
Architecture typique d’un syst`me de g´n´ration
e
e e
[Danlos and Roussarie, 2000]
Architecture typique d’un syst`me de g´n´ration
e
e e
[Danlos and Roussarie, 2000]

‘
Architecture typique d’un syst`me de g´n´ration
e
e e
[Danlos and Roussarie, 2000]

‘
S´lection de contenu I
e
S´lection du contenu I
e

Entr´e Donn´es brutes, ´ventuellement buts communicatifs
e
e
e
s´lection d’information
e
filtrage...
S´lection du contenu II
e

(m7 / |eat, take in|
:time present
:agent (d / |dog<canid|
:quant plural)
:patient (b / |os, bo...
Structuration rh´torique I
e
Structuration rh´torique I
e

Entr´e Formes logiques non ordonn´es
e
e
regroupement du contenu s´mantique en unit´s
e
e
le...
Structuration rh´torique II
e

[Hovy, 1998]
Planification syntaxique I
Planification syntaxique I

Entr´e Plan de texte
e
traductions des structures s´mantiques en structures
e
syntaxiques

Sort...
Planification syntaxique II
# dog, bone, eat
((x1 :agent)
(x2 :patient)
(x3 :rest)
->
# "dogs eat bones"
(s
(seq (x1 np nom...
Lexicalisation I
Lexicalisation I

Entr´e Arbres syntaxiques
e
s´lection de lexies correspondant au sens et s’int´grant dans la
e
e
structu...
Lexicalisation II

# Lexique
(("eat" VERB |eat, take in|)
("dog" NOUN |canid>dog|)
("bone", NOUN |os, bone|))
# Structure ...
Ajustement morphologique I
Ajustement morphologique I

Entr´e Arbres syntaxiques lexicalis´s
e
e
calcul de la forme de surface : accords, conjugaison...
Ajustement morphologique II

("-child" "children")
("-person", "people", "persons")
("-a", "as", "ae")
# formulas/formulae...
Formatage
Formatage

Entr´e Arbres syntaxiques lexicalis´s et fl´chis
e
e
e
r`gles typographiques, insertion du formatage (balises......
Autres tˆches
a

[Danlos and Roussarie, 2000]
Autres tˆches
a

G´n´ration d’expressions r´f´rentielles
e e
ee
Agr´gation
e
⇒ Gain en fluidit´ et lisibilit´, ´vite les re...
G´n´ration d’expressions r´f´rentielles
e e
ee
G´n´ration d’expressions r´f´rentielles
e e
ee

Li´e g´n´ration des groupes nominaux
e e e
Choix possibles :
d´terminant :...
Agr´gation
e
Agr´gation
e

Regroupement de plusieurs entit´s en une seule entit´ globale
e
e
Peut intervenir ` plusieurs niveaux
a
g´n´...
Approches statistiques

[Belz and Kow, 2009]
Approches statistiques

[Belz and Kow, 2009]

D´veloppement d’approches statistiques ` partir de 1998
e
a
But : acc´l´rer ...
R´alisation de surface guid´e par les donn´es
e
e
e
[Knight and Langkide, 1998, Langkide, 2000] I
R´alisation de surface guid´e par les donn´es
e
e
e
[Knight and Langkide, 1998, Langkide, 2000] I

S´lection de toutes les...
R´alisation de surface guid´e par les donn´es
e
e
e
[Knight and Langkide, 1998, Langkide, 2000] II
G´n´ration bas´e sur la traduction automatique
e e
e
[Wong and Mooney, 2007] I
G´n´ration bas´e sur la traduction automatique
e e
e
[Wong and Mooney, 2007] I

Apprentissage de probabilit´s d’alignement...
G´n´ration bas´e sur la traduction automatique
e e
e
[Wong and Mooney, 2007] II

Choix de la r´alisation de surface qui es...
´
Evaluation

[Reiter and Belz, 2009]
´
Evaluation

[Reiter and Belz, 2009]

Pas de technique consensuelle
Trois types d’´valuation :
e
´valuation applicative /...
´
Evaluation applicative

M´thodologies li´es ` l’application finale :
e
e a
faire une tˆche en suivant des instructions g´...
´
Evaluation humaine

M´thode :
e
texte not´ sur plusieurs crit`res (´chelles)
e
e
e
qualit´ globale, coh´rence, contenu, ...
´
Evaluation automatique

M´thode :
e
extraction des structures syntaxiques / de l’information d’un
corpus ´crit par un hu...
Projets acad´miques
e
Projets acad´miques
e

Babytalk : r´sum´s de donn´es cliniques sur des b´b´s en
e
e
e
e e
soins intensifs [Portet et al., ...
Syst`mes commerciaux
e
Syst`mes commerciaux
e

Revolusyn : content spinning avanc´ - www.revolusyn.com/
e
EasyText : commentaires de tableaux de ...
G´n´ration de descriptifs de lieux en contexte
e e
applicatif
Contraintes

Rapidit´ du syst`me : ´viter traitements complexes, couteux
e
e
e
en temps
Rapidit´ de d´veloppement :
e
e
ne...
Exemple de texte g´n´r´
e ee

ˆ
HOTEL

ˆ
HOTEL DE VARENNE

Quelques infos sur l’hˆtel
o

`
A PARIS

Hˆtel de Varenne
o

` ...
Optimisation moteurs de recherche

ˆ
HOTEL

ˆ
HOTEL DE VARENNE

Quelques infos sur l’hˆtel
o

`
A PARIS

Hˆtel de Varenne
...
G´n´ration bas niveau
e e
⇒ choix lexical al´atoire avec gestion des accords
e
ˆ
HOTEL

ˆ
HOTEL DE VARENNE

Quelques infos...
G´n´ration de texte intelligente
e e

ˆ
HOTEL

ˆ
HOTEL DE VARENNE

Quelques infos sur l’hˆtel
o

`
A PARIS

Hˆtel de Varen...
Fonctionnement du g´n´rateur de textes I
e e
Architecture du g´n´rateur
e e
S´lection du contenu I
e
S´lection du contenu I
e

Entr´e Donn´es brutes
e
e
s´lection
e
cat´gorisation
e
transformation
pas de raisonnement, de ma...
S´lection du contenu II
e
´
DONNEES BRUTES

´ ´
 CONTENU POUR GENERATION
nom : Higuma
nom : Higuma
 categorie : manger ...
Structuration rh´torique I
e
Structuration rh´torique I
e

Entr´e Donn´es filtr´es et structur´es
e
e
e
e
s´lection de propositions ”s´mantiques” pr´-d´...
Structuration rh´torique II
e

nom : Higuma
´
categorie : restaurant :masc :sing

⇒ SPOT IS A TYPE

style cuisine : japona...
Structuration rh´torique III
e

ANCRAGE
SPOT IS A TYPE
COOKING GEOSTYLE
⇒
ACCEPTED PAYMENTS
REJECTED PAYMENTS
LOC STREET C...
Structuration rh´torique IV
e

Continuation

#1
SPOT IS A TYPE

#2
LOC STREET CITY DISTRICT
Structuration rh´torique V
e

Continuation

#1
COOKING STYLE
Contrast

#2
ACCEP- #3
REJECTED PAYMENTS TED PAYMENTS
Structuration rh´torique VI
e

pas de variation dans l’ordre des propositions
r`gles ad hoc cod´es en dur
e
e
Planification syntaxique I
Planification syntaxique I

Entr´e Plan de texte
e
s´lection des structures syntaxiques correspondant aux
e
propositions s´...
Planification syntaxique II

ACCEPTED PAYMENTS
CIRC
SUBJ

PROPER
$SPOT
< strong >

OBJ

VERB

Enum

PREPPhr

accepte $ACCEP...
Planification syntaxique III

Enum ACCEPTED PAYMENTS

DET

ART DEF
NOUN
le
$ACCEPTED PAYMENT
agreement
Planification syntaxique IV

Enum ACCEPTED PAYMENTS

ENUM
DET

ART DEF
NOUN
le
$ACCEPTED PAYMENT1
agreement

DET

. . . ART...
Lexicalisation I
Lexicalisation I

Entr´e Structures syntaxiques ` trous
e
a
choix des valeurs correspondant aux variables
tags : s´lection...
Lexicalisation II

ACCEPTED PAYMENTS
CIRC

OBJ
SUBJ

DET

PROPER VERB ART DEF
´
ENTITE
$SPOT

accepte

le

NOUN

PREPPhr

...
Lexicalisation III

ACCEPTED PAYMENTS
CIRC

OBJ
SUBJ

PROPER
Novotel
hotel :masc :sing

DET

VERB ART DEF
accepte

le

NOU...
Agr´gation des structures I
e
Agr´gation des structures I
e

Entr´e Structures syntaxiques : 1 structure ↔ 1 proposition
e
agr´gation des structures r´p...
Agr´gation des structures II
e

ACCEPTED PAYMENTS

SUBJ

Novotel

OBJ

accepte

carte visa
Agr´gation des structures III
e

ACCEPTED PAYMENTS

SUBJ

Novotel

OBJ

accepte

carte visa

REJECTED PAYMENTS

SUBJ

Novo...
Agr´gation des structures IV
e

SPOT ACCEPT PAYMENT

SUBJ

Novotel

OBJ

accepte

carte visa

SPOT REJECT PAYMENT

SUBJ

N...
Agr´gation des structures V
e

ROOT
SUBJ
COORD
OBJ

COORD

Novotel accepte carte visa COORD X

OBJ

refuse ch`que
e
Agr´gation des structures VI
e

ROOT
SUBJ
COORD
OBJ

COORD

Novotel accepte carte visa mais
CONTRAST

OBJ

refuse ch`que
e
Agr´gation des structures VII
e

autres r`gles :
e
Novotel est un hotel + Novotel est situ´ ` Paris ⇒ Novotel est
ea
un hˆ...
G´n´ration d’expressions r´f´rentielles I
e e
ee
G´n´ration d’expressions r´f´rentielles I
e e
ee

Entr´e Phrases finales
e
rep´rage des sujets r´p´t´s
e
e ee
remplacement ...
G´n´ration d’expressions r´f´rentielles II
e e
ee

SUBJ

Les Caves de la Mar´chale est un restaurant localis´ Rue Jules Ch...
G´n´ration d’expressions r´f´rentielles III
e e
ee

Lexique expressions r´f´rentielles :
ee
restaurant

→ PRO :masc :sing ...
G´n´ration d’expressions r´f´rentielles IV
e e
ee

Les Caves de la Mar´chale est un restaurant localis´ Rue Jules Chaland
...
Ajustements morphologiques I
Ajustements morphologiques I

Entr´e Phrases avec mots ` l’´tat de lemmes
e
a e
accords
´lisions
e
agglutinations

Sortie ...
Ajustements morphologiques II

ACCEPTED PAYMENTS
CIRC

OBJ
SUBJ

DET

PROPER VERB ART DEF
Novotel accepte

le

NOUN

PREPP...
Ajustements morphologiques III

ce restaurant est sp´cialis´ dans la cuisine fran¸ais .
e
e
c
f´m :sing
e

ADJ

agreement
...
Ajustements morphologiques IV

cet hotel dispose de un

bar .

cet hotel dispose d’ un bar .
Mise en forme I
Mise en forme I

Entr´e Suite de mots
e
Majuscules
Espaces
Balises

Sortie Texte final
Mise en forme II

cet hotel dispose d’ un bar , d’ un spa et d’ un golf .
Cet hotel dispose d’ un bar , d’ un spa et d’ un...
Mise en forme III

ROOT
PRED
PRED
SUBJ

PROPER
La Braisi`re
e
< strong >

DET

VERB DET
est

un

NOUN
restaurant
< strong ...
Exploitation du g´n´rateur en contexte industriel
e e
(stage B. Pierrejean promo 2013)
´
Etat des lieux
ˆ
ˆ
´
`
HOTEL HOTEL HELIOT A TOULOUSE
Vous souhaitez en savoir plus sur l’hˆtel Hˆtel H´liot `
o
o
e
a
To...
Objectifs

Couverture autres cat´gories : bars, sites touristiques, etc.
e
Longueur et Vari´t´ textes plus longs en limita...
R´sultats
e
Bar La Cale S`che ` Toulouse
e
a
La Cale S`che vous attend dans une atmosph`re
e
e
divertissante au 41 Rue L´o...
´
Evaluation
´
Evaluation

Impact sur le traffic
nb de visites sur la page
temps rest´ sur la page
e
´
Evaluation

Impact sur le traffic
nb de visites sur la page
temps rest´ sur la page
e

Indicateurs de progression :
vari´t...
´
Evaluation

Impact sur le traffic
nb de visites sur la page
temps rest´ sur la page
e

Indicateurs de progression :
vari´t...
Impact sur le traffic
Mise en production : mai 2013

Figure: 100 pages avec descriptifs

Figure: site nomao.fr
Progression : vari´t´
ee
n-grammes de mots pleins communs entre deux textes :
jaccard(n1 , n2 ) =

|n1 ∩ n2 |
|n1 ∪ n2 |

...
Progression : longueur

nb de mots dans les textes

moyenne
min
max
⇒ pb : manque de donn´es
e

avant
63
30
120

apr`s
e
1...
Qualit´ linguistique per¸ue
e
c
Bar La Cale S`che ` Toulouse
e
a
La Cale S`che vous attend dans une atmosph`re divertissan...
Merci pour votre attention
Contact + News

Estelle Delpech

Nomao

estelle (a) nomao.com

http ://www.nomao.com/
http ://blog.nomao.fr/
http ://www.n...
R´f´rences I
ee
Belz, A. (2008).
Automatic generation of weather forecast texts using comprehensive probabilistic generati...
R´f´rences II
ee
D´jean, E. and Gaussier, E. (2002).
e
Une nouvelle approche ` l’extraction de lexiques bilingues ` partir...
R´f´rences III
ee
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexi...
R´f´rences IV
ee
Keenan, E. L. and Faltz, L. M. (1985).
Boolean semantics for natural language.
Dordrecht, Holland.
Knight...
R´f´rences V
ee
Morin, E., Dufour-Kowalski, S., and Daille, B. (2004).
Extraction de terminologies bilingues ` partir de c...
R´f´rences VI
ee
Prochasson, E. (2010).
Alignement multilingue en corpus comparables sp´cialis´s : Caract´risation termino...
R´f´rences VII
ee

V´ronis, J. (2000).
e
From the rosetta stone to the information society. a survey of parallel text proc...
Prochain SlideShare
Chargement dans…5
×

Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

960 vues

Publié le

Intervention dans le cadre du Master Ergonomie Cognitive et Ingénierie Linguistique (ECIL 2012), UE 352 - "Production, gestion et exploitation de documents textuels", Université de Toulouse Le Mirail, Toulouse, France.
Institution : Nomao

Publié dans : Technologie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
960
Sur SlideShare
0
Issues des intégrations
0
Intégrations
12
Actions
Partages
0
Téléchargements
17
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

  1. 1. Usage du TAL dans des applications industrielles gestion des contenus multilingues & recherche d’information g´olocalis´e e e Estelle Delpech Promotion 2007 maˆ ıtrise TAL UT2 Directrice scientifique, Nomao Intervention Master ECIL Universit´ Toulouse II Le Mirail e 4 d´cembre 2013 e
  2. 2. Parcours universitaire
  3. 3. Parcours universitaire 2001-2004 Licence LLCE Anglais, UT2
  4. 4. Parcours universitaire 2001-2004 Licence LLCE Anglais, UT2 2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
  5. 5. Parcours universitaire 2001-2004 Licence LLCE Anglais, UT2 2004-2006 Licence Sciences du Langage - FLE & TAL, UT2 2006-2007 Maˆ ıtrise Sciences du Langage - TAL, UT2 ⇒analyse syntaxique automatique
  6. 6. Parcours universitaire 2001-2004 Licence LLCE Anglais, UT2 2004-2006 Licence Sciences du Langage - FLE & TAL, UT2 2006-2007 Maˆ ıtrise Sciences du Langage - TAL, UT2 ⇒analyse syntaxique automatique 2007-2008 Master 2 “Langues & Technologies”, INaLCO ⇒classification automatique de textes
  7. 7. Parcours universitaire 2001-2004 Licence LLCE Anglais, UT2 2004-2006 Licence Sciences du Langage - FLE & TAL, UT2 2006-2007 Maˆ ıtrise Sciences du Langage - TAL, UT2 ⇒analyse syntaxique automatique 2007-2008 Master 2 “Langues & Technologies”, INaLCO ⇒classification automatique de textes 2010-2013 Doctorat Informatique - TAL, Universit´ de Nantes e ⇒extraction de lexiques bilingues
  8. 8. Parcours professionnel
  9. 9. Parcours professionnel 2004-2005 Assistante de langue, New College
  10. 10. Parcours professionnel 2004-2005 Assistante de langue, New College 2007 Assistante de recherche, IRIT ⇒extraction d’information
  11. 11. Parcours professionnel 2004-2005 Assistante de langue, New College 2007 Assistante de recherche, IRIT ⇒extraction d’information 2008 Linguiste informaticienne stagiaire, Synomia ⇒analyse syntaxique au<tomatique
  12. 12. Parcours professionnel 2004-2005 Assistante de langue, New College 2007 Assistante de recherche, IRIT ⇒extraction d’information 2008 Linguiste informaticienne stagiaire, Synomia ⇒analyse syntaxique au<tomatique 2009-2012 Ing´nieure de recherche, Lingua et Machina e ⇒gestion des contenus multilingues
  13. 13. Parcours professionnel 2004-2005 Assistante de langue, New College 2007 Assistante de recherche, IRIT ⇒extraction d’information 2008 Linguiste informaticienne stagiaire, Synomia ⇒analyse syntaxique au<tomatique 2009-2012 Ing´nieure de recherche, Lingua et Machina e ⇒gestion des contenus multilingues depuis 2012 responsable TAL puis Directrice scientifique, Nomao ⇒recherche et recommandation de commerces locaux
  14. 14. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  15. 15. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  16. 16. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  17. 17. Lingua et Machina
  18. 18. Lingua et Machina Domaine Traduction assist´e par ordinateur e
  19. 19. Lingua et Machina Domaine Traduction assist´e par ordinateur e 2002 Fondation par Dr. Planas sur la base de ses travaux de recherche [Planas, 1998, Planas and Furuse, 2000] Produit : Similis, m´moire de traduction e Utilisateurs : traducteurs 2009 Acquisition par F. Brown de Colstoun Produit : Libellex, plateforme de travail multilingue [Brown de Colstoun et al., 2011] Utilisateurs : tous les employ´s d’une entreprise e
  20. 20. Traduction assist´e par ordinateur e [Hutchins, 1996, Somers, 2005]
  21. 21. Traduction assist´e par ordinateur e [Hutchins, 1996, Somers, 2005] 1959-1966 Premi`res recherches en TA (US) e
  22. 22. Traduction assist´e par ordinateur e [Hutchins, 1996, Somers, 2005] 1959-1966 Premi`res recherches en TA (US) e 1966 Rapport ALPAC : traduction totalement automatique impossible mais : objectif plus r´aliste : TAO e premiers programmes de gestion terminologique
  23. 23. Traduction assist´e par ordinateur e [Hutchins, 1996, Somers, 2005] 1959-1966 Premi`res recherches en TA (US) e 1966 Rapport ALPAC : traduction totalement automatique impossible mais : objectif plus r´aliste : TAO e premiers programmes de gestion terminologique 1970’s Exploitation des traductions pass´es : concordanciers e bilingues, m´moires de traduction e
  24. 24. Traduction assist´e par ordinateur e [Hutchins, 1996, Somers, 2005] 1959-1966 Premi`res recherches en TA (US) e 1966 Rapport ALPAC : traduction totalement automatique impossible mais : objectif plus r´aliste : TAO e premiers programmes de gestion terminologique 1970’s Exploitation des traductions pass´es : concordanciers e bilingues, m´moires de traduction e 1980’s Corpus parall`les, retour de la TA, TAS e
  25. 25. Traduction assist´e par ordinateur e [Hutchins, 1996, Somers, 2005] 1959-1966 Premi`res recherches en TA (US) e 1966 Rapport ALPAC : traduction totalement automatique impossible mais : objectif plus r´aliste : TAO e premiers programmes de gestion terminologique 1970’s Exploitation des traductions pass´es : concordanciers e bilingues, m´moires de traduction e 1980’s Corpus parall`les, retour de la TA, TAS e 1990’s Terminologie computationnelle
  26. 26. Gestion terminologie bilingue
  27. 27. Concordanciers bilingues I
  28. 28. Concordanciers bilingues II
  29. 29. Similis : M´moires de traduction e
  30. 30. Libellex : Plateforme de travail multilingue I Pour tous les employ´s de l’entreprise : e experts m´tiers e r´dacteurs e traducteurs terminologues
  31. 31. Libellex : Plateforme de travail multilingue II Diverses technologies : concordanciers bilingues gestion de terminologie m´moire de traduction e post-´dition, validation e traduction automatique gestion de projet de traduction
  32. 32. Libellex : Plateforme de travail multilingue III
  33. 33. Mati`re premi`re : les traductions pass´es e e e Corpus parall`les [V´ronis, 2000] e e “texts accompanied by their translation in one or more languages” (ensemble de textes accompagn´s de leurs traductions dans une ou e plusieurs langues, notre traduction).
  34. 34. Limites des corpus parall`les e Nouveaux domaines, nouvelles langues R´tro-ing´nierie e e Traduction = texte spontan´ e
  35. 35. Solution envisag´es e Corpus comparables Ensemble de textes en langue L1 et L2 qui traitent d’une mˆme th´matique sans ˆtre en relation de e e e traduction
  36. 36. Usage des corpus comparables en traduction technique
  37. 37. Usage des corpus comparables en traduction technique Qualit´ reconnue par les experts de la traduction e [Zanettin, 1998, Mc Enery and Xiao, 2007] : traductions plus idiomatiques acquisition d’une culture technique observation des usages stylistiques propres ` un domaine a
  38. 38. Usage des corpus comparables en traduction technique Qualit´ reconnue par les experts de la traduction e [Zanettin, 1998, Mc Enery and Xiao, 2007] : traductions plus idiomatiques acquisition d’une culture technique observation des usages stylistiques propres ` un domaine a Usage “artisanal” et p´dagogique e
  39. 39. Usage des corpus comparables en traduction technique Qualit´ reconnue par les experts de la traduction e [Zanettin, 1998, Mc Enery and Xiao, 2007] : traductions plus idiomatiques acquisition d’une culture technique observation des usages stylistiques propres ` un domaine a Usage “artisanal” et p´dagogique e Outils sp´cifiques existants e quelques prototypes universitaires [Bennison and Bowker, 2000, Sharoff et al., 2006] pas d’outil commercial
  40. 40. Corpus comparables et traduction automatique [Carpuat et al., 2012] adaptation des syst`mes de TA ` un nouveau domaine e a ajout de nouvelles entr´es au lexique e +2 ` 3 points de BLEU a
  41. 41. Corpus comparables et recherche d’information crosslingue [Li et al., 2011] ajout de nouvelles entr´es au lexique e + 0.016 points de MAP
  42. 42. Corpus comparables et traduction assist´e par ordinateur e nombreux travaux sur l’extraction de lexiques pas d’´valuation en contexte d’utilisation e
  43. 43. Projet Metricc - www.metricc.com Corpus comparables et : recherche d’information interlingue cat´gorisation multilingue e aide ` la traduction (Lingua et Machina, LINA) a
  44. 44. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  45. 45. Travaux effectu´s ` Lingua et Machina e a
  46. 46. Travaux effectu´s ` Lingua et Machina e a Transfert technologique : extraction de lexiques bilingues ` a partir de corpus comparables
  47. 47. Travaux effectu´s ` Lingua et Machina e a Transfert technologique : extraction de lexiques bilingues ` a partir de corpus comparables Evaluation “industrielle” des technologies
  48. 48. Travaux effectu´s ` Lingua et Machina e a Transfert technologique : extraction de lexiques bilingues ` a partir de corpus comparables Evaluation “industrielle” des technologies Recherches d’am´liorations int´ressantes en contexte industriel e e
  49. 49. Transfert technologique extraction de lexiques bilingues ` partir de corpus a comparables
  50. 50. Processus d’extraction Collecte des corpus Identification des unit´s ` aligner (termes, unit´s mono- et e a e polylexicales...) Alignement des unit´s e
  51. 51. M´thode d’alignement e Approche distributionnelle [Rapp, 1999, Fung, 1997] deux mots de sens proche tendent ` apparaˆ dans des contextes a ıtre similaires
  52. 52. Collecte et normalisation des vecteurs [Prochasson, 2010] −− − − − − − − −→ cytog´n´tique ={instabilit´, traitement, tamoxif`ne...} e e e e −− − −→ −−−− cytogenetics :{instability, treatment, tamoxifene...}
  53. 53. Traduction des vecteurs [Prochasson, 2010] −− − − − − − − −→ cytog´n´tique ={instabilit´, traitement, tamoxif`ne...} e e e e −− − − − − − − −→ cytog´n´tique :{instability, treatment, ?...} e e
  54. 54. Comparaison des vecteurs et s´lection candidat e [Prochasson, 2010] −− − − − −− − −→ − − − −→ − − − − e e similarit´(cytog´n´tique, cytogenetics) = 0.75 e cytog´n´tique ¡ cytogenetics (0.75), genetics (0.70)... e e
  55. 55. Variantes et am´liorations e Diverses am´liorations et variantes propos´es e e [D´jean and Gaussier, 2002, Sadat et al., 2003, e Morin et al., 2004, Prochasson, 2010, Hazem and Morin, 2012] Implantation basique avec adaptation aux unit´s polylexicales e [Morin et al., 2004] et filtre sur les cat´gories grammaticales e [Sadat et al., 2003]
  56. 56. Evaluation
  57. 57. Evaluation Pr´cision sur le TopN : parmi les termes sources avec au e moins 1 traduction candidate, % de ceux avec une traduction correcte parmi les N premi`res traductions e cytogenic → g´n´tique, cytog´n´tique, cancer e e e e screening → test, g´n´tique, d´pistage e e e
  58. 58. Evaluation Pr´cision sur le TopN : parmi les termes sources avec au e moins 1 traduction candidate, % de ceux avec une traduction correcte parmi les N premi`res traductions e cytogenic → g´n´tique, cytog´n´tique, cancer e e e e screening → test, g´n´tique, d´pistage e e e Algos actuels : de 16% ` 65 % Top1, 40% ` 94% sur le Top20 a a selon corpus, langues, dictionnaires, type d’unit´s align´es... e e
  59. 59. Choix d’impl´mentation e
  60. 60. Choix d’impl´mentation e M´thodes peu coˆteuses en temps et d´veloppement logiciel e u e
  61. 61. Choix d’impl´mentation e M´thodes peu coˆteuses en temps et d´veloppement logiciel e u e Choix arbitraire des mesures de similarit´ et normalisation e
  62. 62. Choix d’impl´mentation e M´thodes peu coˆteuses en temps et d´veloppement logiciel e u e Choix arbitraire des mesures de similarit´ et normalisation e Collecte d’information compl´mentaires e
  63. 63. Choix d’impl´mentation e M´thodes peu coˆteuses en temps et d´veloppement logiciel e u e Choix arbitraire des mesures de similarit´ et normalisation e Collecte d’information compl´mentaires e ´ Evaluation : 60% sur le Top20
  64. 64. Architecture de l’extracteur
  65. 65. Interface de consultation http://80.82.238.151/Metricc/InterfaceValidation/
  66. 66. ´ Evaluation applicative
  67. 67. M´thodologie d’´valuation e e But : d´terminer dans quelle mesure le lexique bilingue permet e d’aider les traducteurs M´thode : comparaison de la qualit´ des traductions produites e e avec / sans les corpus comparables
  68. 68. M´thodologie d’´valuation e e
  69. 69. M´thodologie d’´valuation e e Objet ´valu´ : expressions probl´matiques e e e Mesure : % de traductions exactes, acceptables, fausses
  70. 70. Conditions exp´rimentales e Premi`re exp´rimentation visant ` ´prouver la m´thode e e ae e 3 traducteurs dont deux ´tudiant-e-s M2 e 2 th´matiques : cancer du sein, sciences de l’eau e Th´matique sciences de l’eau trop vaste ⇒pas e exploitable ´ Evaluation finale [Planas, 2011] 20 ´tudiants-traducteurs de M1 e Donn´es cancer du sein e
  71. 71. R´sultats e
  72. 72. Difficult´s d’usage e
  73. 73. Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins
  74. 74. Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins Trop de termes sources non couverts ⇒ collecte du corpus
  75. 75. Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions
  76. 76. Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions Trop de traductions candidates ⇒ diminuer le nombre de traductions ⇒ approche compositionnelle [Morin and Daille, 2010]
  77. 77. Difficult´s d’usage e R´sistance au changement e ⇒ formation et recueil des besoins Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions Trop de traductions candidates ⇒ diminuer le nombre de traductions ⇒ approche compositionnelle [Morin and Daille, 2010]
  78. 78. Recherche d’am´liorations int´ressantes en contexte e e industriel
  79. 79. Principe de la traduction compositionnelle Principe de compositionalit´ : “Le sens du tout est fonction du e sens de ses constituants” [Keenan and Faltz, 1985, pp. 24-25]. Adaptation ` la traduction : La traduction du tout est fontion de a la traduction de ses constituants.
  80. 80. Exemples de traductions possibles
  81. 81. Difficult´s e Divergence morpho-syntaxique : anti-cancer → anti-canc´reux e Divergence lexicale : traduction automatique → machine translation Fertilit´ : e hysterectomy →ablation de l’ut´rus e Variation terminologique : mixed departmentalization → d´partementalisation e mixte, structuration mixte
  82. 82. Aspects pas ou peu trait´s e Fertilit´ e Termes monolexicaux : approches sp´cifiques ` un type de e a construction morphologique prefixe1 +base2 ¡ pr´fixe1 +base2 e Ordonnancement / s´lection des traductions : filtres simples e ou pas adapt´s e
  83. 83. Propositions Termes monolexicaux : ˆtre moins sp´cifique sur les structures e e morphologiques Traiter la fertilit´ par l’alternance morph`me libre / morph`me e e e li´ e cyto1 toxic2 ¡ toxique2 (pour les) cellules1
  84. 84. Fertilit´ e Traduction fertile Soit deux ensembles disjoints S et C o` S est un u ensemble de termes sources et C est un ensemble de termes cibles. Soit la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles F est d´fini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}. e Exemples : post-menopause ¡ apr`s (la) m´nopause e e option express ¡ option voie rapide snorkeling ¡ plong´e (avec) tuba e
  85. 85. Fertilit´ de surface et fertilit´ s´mantique e e e Traduction fertile en surface Soit une traduction fertile sFc, M(s) l’ensemble des morph`mes du terme s, M(c) l’ensemble des morph`mes e e du terme c et T une fonction de traduction. sFc est fertile en surface si pour tout mc ∈ M(c) il y a un unique ms ∈ M(s) tel que T (ms ) = mc . Surface S´mantique e
  86. 86. Fonctionnement de base Traduire(“ab”) : = S(R(T (D(“ab”)))) = S(R(T ({a, b}))) = S(R({T (a) × T (b)})) = S(R({a, b})) = S({a, b}, {b, a}) = “ba”
  87. 87. D´composition e Peu de r`gles : e appariemment entr´es ressources, contraintes longueur e Tous les d´coupages possibles e non-cytotoxic ¡ {non, cyto, toxic}, {noncyto, toxic}, {non, cytotoxic}, {noncytotoxic}
  88. 88. Traduction ´ Equivalences traductionnelles entre morph`mes libres et li´s e e cyto ¡ cellule : cytotoxique ¡ toxique pour les cellules Nombreuses ressources : familles morphologiques, synonymes, cognats available ¡ disponible ¡ disponibilit´ : bioavailable e ¡ biodisponibilit´ e anastrozole-associated ¡ associ´ a de l’anastrozole e` Strat´gie de repli e confusingly ¡ confusing ¡ confondre
  89. 89. Recomposition Permutation : pathophysiological ¡ physiopathologique Tous les concat´nations possibles : e {non, toxique, cellule} : {non, toxique, cellule}, {nontoxique, cellule}, {non, toxiquecellule}, {nontoxiquecellule}
  90. 90. S´lection e Projection de patrons toxique .* cellule ¡ toxique pour les cellules
  91. 91. Donn´es exp´rimentales e e Domaine cancer du sein, EN ¡ FR, EN ¡ DE 1800 unit´s monolexicales morphologiquement construites e aucune n’est traduisible avec le dictionnaire g´n´raliste e e Ressources existantes : dictionnaire g´n´raliste et synonymes e e Ressources manuelles : traductions morph`mes e Ressources automatiques : familles morphologiques [Porter, 1980], cognats [Hauer and Kondrak, 2011]
  92. 92. M´thodologie d’´valuation e e Evaluation a priori : capacit´ de l’algorithme ` reproduire un e a lexique existant, favorable, orient´ terminologie e Evaluation a posteriori : qualit´ des r´sultats obtenus en e e situation d’usage, orient´ aide ` la traduction e a Annotation manuelle des sorties du syst`me ; e exact, acceptable, proche, faux
  93. 93. M´thodologie d’´valuation e e Evaluation a priori : capacit´ de l’algorithme ` reproduire un e a lexique existant, favorable, orient´ terminologie e Evaluation a posteriori : qualit´ des r´sultats obtenus en e e situation d’usage, orient´ aide ` la traduction e a Annotation manuelle des sorties du syst`me ; e exact, acceptable, proche, faux
  94. 94. M´thodologie d’´valuation e e Evaluation a priori : capacit´ de l’algorithme ` reproduire un e a lexique existant, favorable, orient´ terminologie e Evaluation a posteriori : qualit´ des r´sultats obtenus en e e situation d’usage, orient´ aide ` la traduction e a Annotation manuelle des sorties du syst`me ; e exact, acceptable, proche, faux
  95. 95. Mesures d’´valuation r´f´rence a priori e ee Couverture : capacit´ ` g´n´rer une traduction candidate ea e e Pr´cision : capacit´ ` proposer une traduction correcte parmi les e ea traductions g´n´r´e e ee Utilisabilit´ : capacit´ ` g´n´rer une traduction candidate et e ea e e correcte
  96. 96. Aspects ´valu´s e e G´n´ricit´ du mod`le e e e e Ressources linguistiques Fertilit´ e
  97. 97. G´n´ricit´ du mod`le : m´thodes test´es e e e e e e Pr´fixation : pretreatment ¡ pr´-traitement e e Composition savante : hypercalcaemia ¡ hypercalc´mie e Composition populaire : acute-phase ¡ Akutphase, akuten Phase Cognat : t-test ¡ t-Test
  98. 98. G´n´ricit´ : r´sultats I e e e e Composition savante (18%) Cognat Composition populaire (48 %) Pr´fixation (31%) e Notre m´thode e C ,03 ,13 ,05 ,02 ,40 PE ,95 ,66 ,63 ,90 ,59 Table: anglais ¡ fran¸ais c UE ,03 ,08 ,03 ,02 ,24 PEA 1 ,81 ,65 ,97 ,69 UEA ,03 ,10 ,03 ,02 ,28
  99. 99. G´n´ricit´ : r´sultats II e e e e Composition savante (18%) Cognat Composition populaire (49 %) Pr´fixation (32%) e Notre m´thode e C ,03 ,10 ,04 ,03 ,36 PE ,96 ,58 ,55 ,86 ,48 Table: anglais ¡ allemand UE ,02 ,06 ,02 ,02 ,17 PEA ,98 ,66 ,62 ,92 ,56 UEA ,02 ,07 ,03 ,03 ,20
  100. 100. G´n´ricit´ : r´sultats III e e e e Composition savante, pr´fixation : m´thodes tr`s pr´cises e e e e (>0.92) mais petite couverture (<0.03) Composition populaire : petite couverture, moyennement pr´cise (0.62 ` 0.65) e a Cognats : meilleure couverture (0.10 ` 0.13), pr´cision a e moyenne ` bonne (0.66 ` 0.81) a a Notre m´thode : e large couverture : 0.36 ` 0.40 a pr´cision moyenne : 0.68 ` 0.56 e a utilisabilit´ meilleure : 0.20 ` 0.28 vs. cognats 0.07 ` 0.10 e a a
  101. 101. G´n´ricit´ du mod`le : discussion e e e e Variation morphologique : pretreatment ¡ pr´traiter, e cardiotoxicity¡ cardiotoxique, time-consuming ¡ consommateur de temps Fertilit´ : pretreatment ¡ avant le traitement, e hypercalcaemia ¡ zu viel calcium in das blut Cognats : aromatase-inhibiting ¡ hemmung der aromatase‘inhibition de l’aromatase’ Suffixes : colorless ¡ sans colorant, randomly ¡ (de) mani`re randomis´e e e Strat´gie de repli : ribosome ¡ ribosomique e
  102. 102. Ressources linguistiques : comparaisons effectu´es e Base : dictionnaire g´n´raliste et table de traduction des e e morph`mes e Base + familles morphologiques Base + synonymes Base + cognats Toutes les ressources
  103. 103. Ressources linguistiques : r´sultats I e Base Base + dictionnaire de cognats Base + familles morphologiques Base + dictionnaire synonymes Toutes les ressources C ,16 ,28 ,27 ,17 ,40 PE ,73 ,71 ,56 ,69 ,59 Table: anglais ¡ fran¸ais c UE ,12 ,19 ,15 ,12 ,24 PEA ,77 ,77 ,66 ,72 ,69 UEA ,12 ,21 ,18 ,13 ,28
  104. 104. Ressources linguistiques : r´sultats II e Base Base + dictionnaire de cognats Base + familles morphologiques Base + dictionnaire synonymes Toutes les ressources C ,15 ,27 ,24 ,17 ,36 PE ,60 ,56 ,48 ,55 ,48 Table: anglais ¡ allemand UE ,09 ,15 ,12 ,09 ,17 PEA ,63 ,61 ,57 ,60 ,56 UEA ,10 ,16 ,14 ,10 ,20
  105. 105. Apport des ressources linguistiques Syst`me de base : dictionnaire g´n´raliste et table de traduction e e e des morph`mes e Synonymes : pas adapt´s (bloodstream ¡ courant sanguin e ¡ circulation sanguine) Familles morphologiques : +0.09 ` 0.11 de couverture ; +0.04 a ` 0.06 d’utilisabilit´ a e Cognats : + 0.12 de couverture ; +0.06 ` 0.09 d’utilisabilit´ a e Combinaison : + 0.17 ` 0.24 couverture ; +0.10 ` 0.16 a a utilisabilit´ e
  106. 106. Traductions fertiles : comparaisons effectu´es e Traductions fertiles vs. non fertiles Traductions non fertiles vs. fertiles + non fertiles
  107. 107. Traductions fertiles : r´sultats I e Traductions non fertiles Traductions fertiles C ,24 ,24 PE ,58 ,52 UE ,14 ,12 PEA ,75 ,55 UEA ,18 ,13 Traductions non fertiles Toutes les traductions ,24 ,40 ,58 ,59 ,14 , 24 ,75 ,69 ,18 ,28 Table: anglais ¡ fran¸ais c
  108. 108. Traductions fertiles : r´sultats II e Traductions non fertiles Traductions fertiles C ,24 ,20 PE ,58 ,26 UE ,14 ,05 PEA ,69 ,30 UEA ,16 ,06 Traductions non fertiles Toutes les traductions ,24 ,36 ,58 ,48 ,14 ,17 ,69 ,56 ,16 ,20 Table: anglais ¡ allemand
  109. 109. Apport des traductions fertiles Traductions fertiles nettement moins pr´cises (-0.20 ` -0.39) e a Combinaison aux traductions non fertiles int´ressante (+6 ` 10 e a points utilisabilit´) e
  110. 110. Bilan Fort gain en couverture, baisse limit´e de la pr´cison e e ⇒ utilisabilit´ meilleure e Limites : fertilit´ s´mantique : snorkeling ¡ plong´e avec tuba e e e Perspectives : compression : apr`s la m´nopause ¡ post-menopause e e termes polylexicaux : cytogenetic instability ¡ instabilit´ e g´n´tique des cellules e e
  111. 111. Bilan M´thode bien adapt´e aux corpus comparables sp´cialis´s ... e e e e peu d’a priori sur la structure du terme cible variantes morphologiques usage des cognats ... mais bruit´e ⇒ n´cessite un filtrage e e
  112. 112. Ordonnancement de traductions candidates Partie exploratoire Apports : nouveaux crit`res e comparaison combinaison (learning-to-rank)
  113. 113. Crit`res e F : fr´quence traduction candidate e C : similarit´ des contextes e P : probabilit´ de traduction des partie du discours e M : fiabilit´ des modes de traductions e
  114. 114. Exp´riences e Chaque crit`re pris isol´ment e e ´ ´ Combinaison non ponderee : F + C + P+ M ´ ´ Combinaison ponderee : αF + βC + γP + δM Apprentissage mod`les d’ordonnancement, famille list-wise : e AdaRank, Lambda MART : boosting Coordinate Ascent : mod`le lin´aire e e
  115. 115. Donn´es exp´rimentales e e
  116. 116. M´thode d’´valuation e e Pr´cision sur le TopN : parmi les termes sources avec au e moins 1 traduction candidate, % de ceux avec une traduction correcte parmi les N premi`res traductions e Classement fonction de la pr´cision sur le Top1 puis 2 puis 3 e
  117. 117. R´sultats I e ´ Meilleure precision possible Combinaison non pond´r´e ee Combinaison pond´r´e ee Coordinate Ascent Lambda MART M F AdaRank P C ´ Aleatoire Top1 ,94 ,928 ,928 ,928 ,928 ,928 ,916 ,892 ,892 ,88 ,836 Table: anglais ¡ fran¸ais c Top2 ,94 ,94 ,94 ,94 ,94 ,94 ,928 ,904 ,904 ,904 ,898 Top3 ,94 ,94 ,94 ,94 ,94 ,94 ,94 ,928 ,928 ,928 ,928 RPM 1 2 2 2 2 2 3 4 4 4 13
  118. 118. R´sultats II e ´ Meilleure precision possible Combinaison pond´r´e ee Lambda MART ´ ´ Combinaison non ponderee Coordinate Ascent F AdaRank P M C ´ Aleatoire Top1 ,879 ,848 ,848 ,833 ,833 ,833 ,833 ,833 ,818 ,803 ,77 Table: anglais ¡ allemand Top2 ,879 ,879 ,864 ,864 ,864 ,848 ,848 ,848 ,864 ,864 ,832 Top3 ,879 ,879 ,864 ,879 ,879 ,879 ,848 ,848 ,879 ,864 ,846 RPM 1 2 5 3 3 3 17 17 3 28 28
  119. 119. R´sultats III e Comparaison des crit`res : e Contextes : moins bon crit`re (0.80 ` 0.88 Top1) e a Fiabilit´ des modes de traduction : meilleur crit`re (0.82 ` 0.93 e e a Top1) Meilleures m´thodes (0.85 ` 0.93, +5 ` 9 points vs. al´atoire, e a a e Top1) : ´ ´ Combinaison non ponderee ´ ´ Combinaison ponderee Coordinate Ascent, AdaRank
  120. 120. Bilan et perspectives N´cessit´ de montrer la significativit´ des r´sultats e e e e Globalement : combinaison int´ressante, pas d’apport marqu´ e e des mod`les de learning-to-rank (peu de crit`res) e e Autres crit`res : diff´rence de fr´quence, mod`le de langue... e e e e Comment int´grer des donn´es parall`les g´n´ralistes, d’autres e e e e e domaines, d’autres langues ? apprentissage ` partir des traductions du dictionnaire a g´n´raliste et des cognats e e poids valables pour tous les couples de langues...
  121. 121. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  122. 122. Bilan des travaux D´veloppement d’un prototype d’extracteur de lexiques e bilingues sp´cialis´s ` partir de corpus comparables e e a [Delpech and Daille, 2010] Exp´rimentation de l’approche “classique” dans le cadre e applicatif de la TAO [Delpech, 2011, Delpech, 2012] : Contributions ` la traduction compositionnelle a [Delpech et al., 2012b, Delpech et al., 2012a] : Communications et d´monstrations logicielles e [Delpech, 2010a, Delpech, 2010b, Brown de Colstoun et al., 2011]
  123. 123. Peut-on extraire des lexiques bilingues r´ellement e utilisables par les traducteurs ` partir de corpus a comparables ? Approche compositionnelle : r´duit le nombre de traductions mais cantonn´e aux ´l´ments e e ee au sens compositionnel (60% d’apr`s [Namer and Baud, 2007]) e 20% ` 28% avec une traduction correcte a Approche distributionnelle : forte couverture mais lexiques trop ambigus (60% sur le Top20, ´valuation a priori) e
  124. 124. Tr`s ambitieux en l’´tat actuel e e Lexique obtenu : une petite partie avec une traduction correcte sur le Top1 ou Top2 une partie avec traduction correcte sur Top 20 majeure partie sans traduction Difficile d’augmenter le corpus th´matique fine, forte comparabilit´ e e peu de textes sp´cialis´s e e Difficult´ inh´rente au corpus : e e seulement une partie du vocabulaire en commun
  125. 125. Perspectives Ne pas exag´rement focaliser sur l’extraction d’alignements e Aider ` l’exploration de corpus comparables par de multiples a mani`res : e extraction, alignement de contextes pertinents outils de recherche avanc´s e travailler avec les traducteurs : automatiser les techniques ⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS, Facult´ de Traduction et d’Interpr´tation e e
  126. 126. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  127. 127. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  128. 128. Nomao carnet de bonnes adresses (entre amis) www.nomao.com Application Web et mobile Trouver, garder et ´changer des e bonnes adresses (restaurants, bars, shopping, m´decins...) e Recherche de lieux personnalis´e : e recommandation, g´olocalisation e
  129. 129. Application Web Utilisateur non connect´ : e e-r´putation e Utilisateur connect´ (FB) : e recommandation lieux qui correspondant ` tes a goˆts u lieux recommand´s par tes e amis
  130. 130. Application mobile E-r´putation e Recommandation Recherche g´olocalis´e e e R´alit´ augment´e e e e
  131. 131. L’entreprise Nomao 2007 cr´ation e 2010 acquisition par le groupe Ebuzzing 2012 3M visites / jour ´ Toulouse / Paris / Evreux / Nantes / Chartres... 10 salari´-e-s e Revenus : mise en relation surtax´e e ⇒ ECML, EGC, TALN, INFORSID, VSST, ICEIS, IEEE TNNLS ... ⇒ http://www.nomao.com/labs
  132. 132. Traitement des donn´es @ nomao e
  133. 133. Traitement des donn´es @ nomao e
  134. 134. Traitement des donn´es @ nomao e
  135. 135. Traitement des donn´es @ nomao e
  136. 136. Recommandation de lieux
  137. 137. Recommandation de lieux E-r´putation analyse d’opinion + notes e
  138. 138. Recommandation de lieux E-r´putation analyse d’opinion + notes e Affinit´ lieu ↔utilisateur e
  139. 139. Recommandation de lieux E-r´putation analyse d’opinion + notes e Affinit´ lieu ↔utilisateur e filtrage collaboratif : lieu aim´ par des e personnes aimant les mˆmes lieux que e l’utilisateur
  140. 140. Recommandation de lieux E-r´putation analyse d’opinion + notes e Affinit´ lieu ↔utilisateur e filtrage collaboratif : lieu aim´ par des e personnes aimant les mˆmes lieux que e l’utilisateur profiling descriptif : lieu pr´sentant les mˆmes e e caract´ristiques que les lieux aim´s par e e l’utilisateur
  141. 141. Recommandation de lieux E-r´putation analyse d’opinion + notes e Affinit´ lieu ↔utilisateur e filtrage collaboratif : lieu aim´ par des e personnes aimant les mˆmes lieux que e l’utilisateur profiling descriptif : lieu pr´sentant les mˆmes e e caract´ristiques que les lieux aim´s par e e l’utilisateur Recommandation sociale lieu aim´ par les amis de l’utilisateur e
  142. 142. Recherche et ranking
  143. 143. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e
  144. 144. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e Similarit´ requˆte ↔ lieu e e
  145. 145. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e Similarit´ requˆte ↔ lieu e e Proximit´ g´ographique e e
  146. 146. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e Similarit´ requˆte ↔ lieu e e Proximit´ g´ographique e e Qualit´ du contenu e
  147. 147. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e Similarit´ requˆte ↔ lieu e e Proximit´ g´ographique e e Qualit´ du contenu e E-r´putation e
  148. 148. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e Similarit´ requˆte ↔ lieu e e Proximit´ g´ographique e e Qualit´ du contenu e E-r´putation e Affinit´ lieu ↔utilisateur e
  149. 149. Recherche et ranking Ranking bas´ sur plusieurs crit`res : e e Similarit´ requˆte ↔ lieu e e Proximit´ g´ographique e e Qualit´ du contenu e E-r´putation e Affinit´ lieu ↔utilisateur e Recommandation sociale
  150. 150. Construction de l’index de lieux
  151. 151. Construction de l’index de lieux
  152. 152. Donn´es extraites e SOURCE 1  nom : Les Caves de La Mar´chale e  descripteurs : restaurant   adresse :   rue :   ville : Toulouse   commentaires :   note : 4 texte : ”Mang´ hier soir avec...” e SOURCE 2  nom : Caves de La Mar´chale SARL e   descripteurs : fran¸ais c    adresse :    rue : Rue Jules Chalande    ville : Toulouse    commentaires :    note : 2 texte : ”Pas vraiment appr´ci´...” e e            
  153. 153. Donn´es int´gr´es e e e LIEU  #5237890 nom : Les Caves de La Mar´chale e  descripteurs : restaurant, fran¸ais c   rue : Rue Jules Chalande  adresse :  ville : Toulouse   note : 4, texte : ”Mang´ hier soir avec...” e commentaires : note : 2, texte : ”Pas vraiment appr´ci´...” e e        
  154. 154. Donn´es analys´es e e LIEU  #5237890 nom : Les Caves de La Mar´chale e  descripteurs : restaurant, fran¸ais c   categorie : manger > restaurant > europ´en > fran¸ais ´ e c   rue : Rue Jules Chalande  adresse :  ville : Toulouse   station : Capitole, distance : 304m  metro :  ´ station : Esquirol, distance : 192m   e  commentaires : note : 4, texte : ”Mang´ hier soir avec...”  note : 2, texte : ”Pas vraiment appr´ci´...” e e   service : super accueil, personnel avenant  aspects positifs :  plats : gratin dauphinois delicieux e-reputation : 79%                    
  155. 155. Contenu g´n´r´ e ee
  156. 156. Travaux en cours
  157. 157. Travaux en cours Learning-to-rank mod`le de ranking appris automatiquement ` e a partir des clics utilisateurs
  158. 158. Travaux en cours Learning-to-rank mod`le de ranking appris automatiquement ` e a partir des clics utilisateurs Fusion de donn´es e source A → 05.61.23.89.88 source B → 05.62.48.33.90 no final → ?
  159. 159. Travaux en cours Learning-to-rank mod`le de ranking appris automatiquement ` e a partir des clics utilisateurs Fusion de donn´es e source A → 05.61.23.89.88 source B → 05.62.48.33.90 no final → ? Identification de variantes de termes soupe froide ¡ “soupes froides”, “soup froide”, “soupe refroidie”, “la soupe est froide”, “potage froid”, etc.
  160. 160. Plan Gestion des contenus multilingues Contexte industriel Travaux de R&D Bilan des travaux Recherche d’information locale Contexte industriel G´n´ration automatique de descriptifs de lieux e e
  161. 161. G´n´ration automatique de texte e e
  162. 162. G´n´ration automatique de texte e e Textes en boite : ”Votre imprimante n’a plus de papier” Textes ` trous et patrons conditionnels : publipostage a {IF $SEXE=F Ch`re Cher} $PRENOM $NOM, e Nous avons le {IF $SOLDE < 0 regret plaisir} de vous annoncer que... Content spinning : g´n´ration de contenu pour le Web e e Syst`mes de g´n´ration e e e intelligents
  163. 163. Content spinning
  164. 164. Content spinning Technique de g´n´ration de contenu vari´ pour optimiser des e e e pages web Principe : 1. ´criture d’un premier texte e 2. d´coupage du texte en morceaux, sous-morceaux, e sous-sous-morceaux, etc.. 3. pour chaque morceau : proposer plusieurs variantes possibles 4. g´n´ration par s´lection al´atoire des morceaux e e e e La {g´n´ration de texte|GAT} rend {possible|facile} e e la cr´ation de {textes|contenus textuels} {rapide| ` e a la va-vite} ⇒ 2 x 2 x 2 x 2 = 16 phrases
  165. 165. G´n´ration de texte e e intelligente
  166. 166. G´n´ration de texte e e ‘ intelligente
  167. 167. Applications possibles Traduction automatique (syst`me par pivot) e R´sum´ automatique (syst`me bas´s sur une simulation de e e e e l’activit´ humaine) e ⇒ plutˆt li´ aux approches symboliques o e
  168. 168. Applications confirm´es e Agents conversationnels G´n´ration de textes ` partir de donn´es e e a e num´riques, ex : m´t´o, cours de bourse... e ee proc´durales, ex : manuels d’instructions e diverses, ex : matches de foot, descriptifs de lieux... ⇒ toujours propre ` un domaine + but communicatif, pas de a syst`me g´n´raliste. e e e
  169. 169. Travaux acad´miques e
  170. 170. Architecture typique d’un syst`me de g´n´ration e e e [Danlos and Roussarie, 2000]
  171. 171. Architecture typique d’un syst`me de g´n´ration e e e [Danlos and Roussarie, 2000]
  172. 172. Architecture typique d’un syst`me de g´n´ration e e e [Danlos and Roussarie, 2000] ‘
  173. 173. Architecture typique d’un syst`me de g´n´ration e e e [Danlos and Roussarie, 2000] ‘
  174. 174. S´lection de contenu I e
  175. 175. S´lection du contenu I e Entr´e Donn´es brutes, ´ventuellement buts communicatifs e e e s´lection d’information e filtrage/calcul des informations saillantes, ex. : hausses de temp´ratures e peut inclure du raisonnement (IA) transcription en repr´sentations logiques e Sortie formes logiques non ordonn´es e
  176. 176. S´lection du contenu II e (m7 / |eat, take in| :time present :agent (d / |dog<canid| :quant plural) :patient (b / |os, bone|) :quant plural) ) ⇒ ”dogs eat bones” [Knight and Langkide, 1998]
  177. 177. Structuration rh´torique I e
  178. 178. Structuration rh´torique I e Entr´e Formes logiques non ordonn´es e e regroupement du contenu s´mantique en unit´s e e les unit´s s´mantiques se r´aliseront par la suite en phrases ou e e e propositions syntaxiques articul´es par des relations de discours e Sortie Plan de texte
  179. 179. Structuration rh´torique II e [Hovy, 1998]
  180. 180. Planification syntaxique I
  181. 181. Planification syntaxique I Entr´e Plan de texte e traductions des structures s´mantiques en structures e syntaxiques Sortie Arbres syntaxiques + connecteurs, mots outils
  182. 182. Planification syntaxique II # dog, bone, eat ((x1 :agent) (x2 :patient) (x3 :rest) -> # "dogs eat bones" (s (seq (x1 np nom-pro) (x3 v-tensed) (x2 np acc-pro))) # "bones are eaten by dogs" (s (seq (x2 np nom-pro) (x3 v-passive) (wrd "by") (x1 np acc-pro))) # "consumption of bones by dogs" (s (seq (x3 np acc-pro nom-pro) (wrd "of") (x2 np acc-pro) (wrd "by") (x1 np acc-pro))) ) adapt´ de [Knight and Langkide, 1998] e
  183. 183. Lexicalisation I
  184. 184. Lexicalisation I Entr´e Arbres syntaxiques e s´lection de lexies correspondant au sens et s’int´grant dans la e e structure syntaxique Sortie Arbres syntaxiques lexicalis´s e
  185. 185. Lexicalisation II # Lexique (("eat" VERB |eat, take in|) ("dog" NOUN |canid>dog|) ("bone", NOUN |os, bone|)) # Structure lexicalis´e e (s (seq (wrd "dog") (wrd "+plural") (wrd "eat") (wrd "bone") (wrd "+plural"))) adpat´e de [Knight and Langkide, 1998] e
  186. 186. Ajustement morphologique I
  187. 187. Ajustement morphologique I Entr´e Arbres syntaxiques lexicalis´s e e calcul de la forme de surface : accords, conjugaisons, agglutination, ´lision... e Sortie Arbres syntaxiques lexicalis´s et fl´chis e e
  188. 188. Ajustement morphologique II ("-child" "children") ("-person", "people", "persons") ("-a", "as", "ae") # formulas/formulae ("-x", "xes, "xen") # boxes / oxen ("-man", "mans", "men") # humans/footmen ("-Co", "os", "oes") [Knight and Langkide, 1998]
  189. 189. Formatage
  190. 190. Formatage Entr´e Arbres syntaxiques lexicalis´s et fl´chis e e e r`gles typographiques, insertion du formatage (balises...), e lin´arisation de l’arbre e Sortie Forme de surface lin´aire e
  191. 191. Autres tˆches a [Danlos and Roussarie, 2000]
  192. 192. Autres tˆches a G´n´ration d’expressions r´f´rentielles e e ee Agr´gation e ⇒ Gain en fluidit´ et lisibilit´, ´vite les redondances e e e
  193. 193. G´n´ration d’expressions r´f´rentielles e e ee
  194. 194. G´n´ration d’expressions r´f´rentielles e e ee Li´e g´n´ration des groupes nominaux e e e Choix possibles : d´terminant : le vs. un vs. ce bouton e pr´dicat lexical : l’appareil vs. le magn´toscope e e r´duction : la machine ` gauffres vs. la machine e a ´pith`tes restrictifs : le bouton vert vs. le premier bouton e e pronominalisation : il vs. l’appareil
  195. 195. Agr´gation e
  196. 196. Agr´gation e Regroupement de plusieurs entit´s en une seule entit´ globale e e Peut intervenir ` plusieurs niveaux a g´n´ration de syntagmes pluriels : e e ´cran(x), clavier(y) → p´riph´riques(x,y) e e e coordination, ellipses de structures syntaxiques : tirer puis relˆcher la manette a ins´rer la fiche 1 dans le port et la fiche 2 dans la sortie e
  197. 197. Approches statistiques [Belz and Kow, 2009]
  198. 198. Approches statistiques [Belz and Kow, 2009] D´veloppement d’approches statistiques ` partir de 1998 e a But : acc´l´rer les d´veloppements, adaptation au domaine ee e Int´gration ` plusieurs niveaux : e a structure syntaxique → texte final repr´sentation s´mantique → texte final e e
  199. 199. R´alisation de surface guid´e par les donn´es e e e [Knight and Langkide, 1998, Langkide, 2000] I
  200. 200. R´alisation de surface guid´e par les donn´es e e e [Knight and Langkide, 1998, Langkide, 2000] I S´lection de toutes les structures syntaxiques, et de toutes les e lexies possibles Obtention d’un graphe de r´alisations possibles e Choix du chemin le plus probable grˆce ` des probabilit´s de a a e n-grammes de mots appris sur corpus
  201. 201. R´alisation de surface guid´e par les donn´es e e e [Knight and Langkide, 1998, Langkide, 2000] II
  202. 202. G´n´ration bas´e sur la traduction automatique e e e [Wong and Mooney, 2007] I
  203. 203. G´n´ration bas´e sur la traduction automatique e e e [Wong and Mooney, 2007] I Apprentissage de probabilit´s d’alignements entre r´alisation e e de surface et repr´sentation s´mantique e e
  204. 204. G´n´ration bas´e sur la traduction automatique e e e [Wong and Mooney, 2007] II Choix de la r´alisation de surface qui est ` la fois : e a dont le sens est le plus proche de la repr´sentation s´mantique e e (mod`le de ”traduction”) e la mieux form´e (mod`le de langue : n-grammes corpus) e e argmax Pr (e|f ) = argmax Pr (e)Pr (f |e) e e
  205. 205. ´ Evaluation [Reiter and Belz, 2009]
  206. 206. ´ Evaluation [Reiter and Belz, 2009] Pas de technique consensuelle Trois types d’´valuation : e ´valuation applicative / guid´e par la tˆche e e a ´valuation bas´e sur des jugements humains e e ´valuation automatique par comparaison ` une r´f´rence e a ee
  207. 207. ´ Evaluation applicative M´thodologies li´es ` l’application finale : e e a faire une tˆche en suivant des instructions g´n´r´es a e ee arrˆter de fumer grˆce ` des lettres de suivi personnalis´es e a a e coˆt de post-´dition u e ´ Evaluations les plus parlantes / convaincantes Coˆteuses u D´pendantes du bon-vouloir des participants e
  208. 208. ´ Evaluation humaine M´thode : e texte not´ sur plusieurs crit`res (´chelles) e e e qualit´ globale, coh´rence, contenu, organisation... e e pr´f´rence entre deux textes ee M´thode la plus populaire e Plus rapide et moins ch`re que l’´valuation guid´e par la tˆche e e e a
  209. 209. ´ Evaluation automatique M´thode : e extraction des structures syntaxiques / de l’information d’un corpus ´crit par un humain e (re-)g´n´ration du texte ` partir des structures e e a comparaison via une mesure style distance d’´dition, BLEU... e Peu coˆteuse, rapide, reproductible u Utilis´e pour ´valuer ` partir de la lexicalisation e e a M´thode controvers´e pour une ´valuation globale : e e e validit´ de la r´f´rence e ee objet de l’´valuation e
  210. 210. Projets acad´miques e
  211. 211. Projets acad´miques e Babytalk : r´sum´s de donn´es cliniques sur des b´b´s en e e e e e soins intensifs [Portet et al., 2009] G´n´ration de pr´visions m´t´o [Belz, 2008] e e e ee STOP : g´n´ration de lettre personnalis´es pour arrˆt tabac e e e e [Reiter et al., 2003] SKILLSUM : r´sum´ d’´valuation de niveau d’alphab´tisation e e e e [Williams and E., 2008] G´n´rateur de blagues [Binsted et al., 1997] e e
  212. 212. Syst`mes commerciaux e
  213. 213. Syst`mes commerciaux e Revolusyn : content spinning avanc´ - www.revolusyn.com/ e EasyText : commentaires de tableaux de donn´es statistiques e StatsMonkey : r´sum´s de matches de baseball e e Syllabs : descriptifs de produits marchands http ://demo.showroom.syllabs.com/generation/ Hotels Combined : r´sum´s d’avis clients e e www.hotelscombined.com/ Nomao : descriptifs de lieux
  214. 214. G´n´ration de descriptifs de lieux en contexte e e applicatif
  215. 215. Contraintes Rapidit´ du syst`me : ´viter traitements complexes, couteux e e e en temps Rapidit´ de d´veloppement : e e ne coller ` l’architecture ”th´orique” que si c’est n´cessaire a e e ⇒ syst`me mixant g´n´ration intelligente et approches e e e bas niveau Moteurs de recherche : contenu unique et vari´ e
  216. 216. Exemple de texte g´n´r´ e ee ˆ HOTEL ˆ HOTEL DE VARENNE Quelques infos sur l’hˆtel o ` A PARIS Hˆtel de Varenne o ` Paris... a Hˆtel de Varenne est un hˆtel situ´ ` Paris dans le 7`me o o ea e arrondissement. Cet hˆtel propose des chambres disposant de tout o le confort moderne (climatisation...). Il dispose d’un agr´able jardin e et met ` disposition de ses clients un acc`s WIFI. Hˆtel de Varenne a e o a obtenu 91% de remarques favorables sur Internet. Les internautes y appr´cient particuli`rement le service ( personnel tres aimable e e , sourire du personnel , personnel sympathique ).
  217. 217. Optimisation moteurs de recherche ˆ HOTEL ˆ HOTEL DE VARENNE Quelques infos sur l’hˆtel o ` A PARIS Hˆtel de Varenne o ` Paris... a Hˆtel de Varenne est un hˆtel situ´ ` Paris dans le 7`me o o ea e arrondissement. Cet hˆtel propose des chambres disposant de tout o le confort moderne (climatisation...). Il dispose d’un agr´able jardin e et met ` disposition de ses clients un acc`s WIFI. Hˆtel de Varenne a e o a obtenu 91% de remarques favorables sur Internet. Les internautes y appr´cient particuli`rement le service ( personnel tres aimable e e , sourire du personnel , personnel sympathique ).
  218. 218. G´n´ration bas niveau e e ⇒ choix lexical al´atoire avec gestion des accords e ˆ HOTEL ˆ HOTEL DE VARENNE Quelques infos sur l’hˆtel o ` A PARIS Hˆtel de Varenne o ` Paris... a Hˆtel de Varenne est un hˆtel situ´ ` Paris dans le 7`me o o ea e arrondissement. Cet hˆtel propose des chambres disposant de tout le confort o moderne (climatisation...). Il dispose d’un agr´able jardin et met ` e a disposition de ses clients un acc`s WIFI. e Hˆtel de Varenne a obtenu 91% de remarques favorables sur o Internet. Les internautes y appr´cient particuli`rement le service e e ( personnel tres aimable , sourire du personnel , personnel sympathique ).
  219. 219. G´n´ration de texte intelligente e e ˆ HOTEL ˆ HOTEL DE VARENNE Quelques infos sur l’hˆtel o ` A PARIS Hˆtel de Varenne o ` Paris... a Hˆtel de Varenne est un hˆtel situ´ ` Paris dans le 7`me o o ea e arrondissement. Cet hˆtel propose des chambres disposant de tout o le confort moderne (climatisation...). Il dispose d’un agr´able jardin e et met ` disposition de ses clients un acc`s WIFI. Hˆtel de Varenne a e o a obtenu 91% de remarques favorables sur Internet. Les internautes y appr´cient particuli`rement le service ( personnel tres aimable e e , sourire du personnel , personnel sympathique ).
  220. 220. Fonctionnement du g´n´rateur de textes I e e
  221. 221. Architecture du g´n´rateur e e
  222. 222. S´lection du contenu I e
  223. 223. S´lection du contenu I e Entr´e Donn´es brutes e e s´lection e cat´gorisation e transformation pas de raisonnement, de manipulation de concepts Sortie Donn´es filtr´es et restructur´es e e e
  224. 224. S´lection du contenu II e ´ DONNEES BRUTES ´ ´  CONTENU POUR GENERATION nom : Higuma nom : Higuma  categorie : manger > restaurant >  categorie : restaurant :masc :sing ´ ´    asiatique > japonais  style cuisine : japonais    tags : carte de cr´dit accept´es,  paiements acceptes : carte de cr´di ´ e e e    ch`ques refus´s, japonais  paiements refuses : ch`que ´ e e  e   geolocalisation :   ´   lat : 48.871762     long : 2.352262     adresse :  adresse :       rue : 32 Rue Saint-Anne  rue : 32 Rue Saint-Anne     ville : Paris   ville : Paris      cp : 75001  quartier : 1    metro :   ´   ligne : 14  station : Pyramides 
  225. 225. Structuration rh´torique I e
  226. 226. Structuration rh´torique I e Entr´e Donn´es filtr´es et structur´es e e e e s´lection de propositions ”s´mantiques” pr´-d´finies en e e e e fonction du contenu disponible ordonnancement des propositions, regroupement en paragraphes th´matiques e articulation des propositions par des relations de discours Sortie Plan de texte
  227. 227. Structuration rh´torique II e nom : Higuma ´ categorie : restaurant :masc :sing ⇒ SPOT IS A TYPE style cuisine : japonais ⇒ COOKING STYLE ´ paiements acceptes : carte de cr´dit e ⇒ ACCEPTED PAYMENTS ´ paiements refuses : ch`que e ⇒ REJECTED PAYMENTS  rue : 32 Rue Saint-Anne adresse :  ville : Paris quartier : 1   ⇒ LOC STREET CITY DIST
  228. 228. Structuration rh´torique III e ANCRAGE SPOT IS A TYPE COOKING GEOSTYLE ⇒ ACCEPTED PAYMENTS REJECTED PAYMENTS LOC STREET CITY DISTRICT #1 SPOT IS A TYPE #2 LOC STREET CITY DISTR ´ ´ PROPRIETES   #1 COOKING GEOSTYLE  #2 ACCEPTED PAYMENTS  #3 REJECTED PAYMENTS
  229. 229. Structuration rh´torique IV e Continuation #1 SPOT IS A TYPE #2 LOC STREET CITY DISTRICT
  230. 230. Structuration rh´torique V e Continuation #1 COOKING STYLE Contrast #2 ACCEP- #3 REJECTED PAYMENTS TED PAYMENTS
  231. 231. Structuration rh´torique VI e pas de variation dans l’ordre des propositions r`gles ad hoc cod´es en dur e e
  232. 232. Planification syntaxique I
  233. 233. Planification syntaxique I Entr´e Plan de texte e s´lection des structures syntaxiques correspondant aux e propositions s´mantiques e s´lection al´atoire parmi plusieurs structures possibles e e Sortie Structures syntaxiques ` trous a
  234. 234. Planification syntaxique II ACCEPTED PAYMENTS CIRC SUBJ PROPER $SPOT < strong > OBJ VERB Enum PREPPhr accepte $ACCEPTED PAYMENTS comme moyen de paiement
  235. 235. Planification syntaxique III Enum ACCEPTED PAYMENTS DET ART DEF NOUN le $ACCEPTED PAYMENT agreement
  236. 236. Planification syntaxique IV Enum ACCEPTED PAYMENTS ENUM DET ART DEF NOUN le $ACCEPTED PAYMENT1 agreement DET . . . ART DEF NOUN le $ACCEPTED PAYMEN agreement
  237. 237. Lexicalisation I
  238. 238. Lexicalisation I Entr´e Structures syntaxiques ` trous e a choix des valeurs correspondant aux variables tags : s´lection al´atoire dans lexique, fonction partie du e e discours impos´e par structure e entit´s nomm´es : insertion de la valeur brute e e Sortie Structures syntaxiques lexicalis´es e
  239. 239. Lexicalisation II ACCEPTED PAYMENTS CIRC OBJ SUBJ DET PROPER VERB ART DEF ´ ENTITE $SPOT accepte le NOUN PREPPhr TAG $ACCEPTED PAYMENT comme moyen de paiem
  240. 240. Lexicalisation III ACCEPTED PAYMENTS CIRC OBJ SUBJ PROPER Novotel hotel :masc :sing DET VERB ART DEF accepte le NOUN PREPPhr carte visa comme moyen de paiemen :f´m :sing e
  241. 241. Agr´gation des structures I e
  242. 242. Agr´gation des structures I e Entr´e Structures syntaxiques : 1 structure ↔ 1 proposition e agr´gation des structures r´p´titives : e e e sujets identiques verbes identiques ou compatibles ajout des fronti`res de phrases e Sortie Phrases finales : 1 phrase → 1 ou plusieurs propositions
  243. 243. Agr´gation des structures II e ACCEPTED PAYMENTS SUBJ Novotel OBJ accepte carte visa
  244. 244. Agr´gation des structures III e ACCEPTED PAYMENTS SUBJ Novotel OBJ accepte carte visa REJECTED PAYMENTS SUBJ Novotel OBJ refuse ch`que e
  245. 245. Agr´gation des structures IV e SPOT ACCEPT PAYMENT SUBJ Novotel OBJ accepte carte visa SPOT REJECT PAYMENT SUBJ Novotel sujets identiques OBJ refuse ch`que e verbes compatibles ⇒ Agr´gation possible e
  246. 246. Agr´gation des structures V e ROOT SUBJ COORD OBJ COORD Novotel accepte carte visa COORD X OBJ refuse ch`que e
  247. 247. Agr´gation des structures VI e ROOT SUBJ COORD OBJ COORD Novotel accepte carte visa mais CONTRAST OBJ refuse ch`que e
  248. 248. Agr´gation des structures VII e autres r`gles : e Novotel est un hotel + Novotel est situ´ ` Paris ⇒ Novotel est ea un hˆtel situ´ ` Paris o ea Novotel dispose d’un jardin + Novotel propose des chambres avec climatisation ⇒ Novotel dispose d’un jardin et propose des chambres avec climatisation r`gles d’agr´gation cod´es en dur e e e d´claration externe : e compatibilit´s entre verbes e coordonnants
  249. 249. G´n´ration d’expressions r´f´rentielles I e e ee
  250. 250. G´n´ration d’expressions r´f´rentielles I e e ee Entr´e Phrases finales e rep´rage des sujets r´p´t´s e e ee remplacement par des expressions r´f´rentielles ee Sortie Phrases finales avec expressions r´f´rentielles ee
  251. 251. G´n´ration d’expressions r´f´rentielles II e e ee SUBJ Les Caves de la Mar´chale est un restaurant localis´ Rue Jules Chaland e e SUBJ Les Caves de la Mar´chale est sp´cialis´ dans la cuisine fran¸aise . e e e c SUBJ Les Caves de la Mar´chale a recueilli 79% de notes favorables sur Inter e restaurant :masc :sing
  252. 252. G´n´ration d’expressions r´f´rentielles III e e ee Lexique expressions r´f´rentielles : ee restaurant → PRO :masc :sing : il → NOUNPhr :masc :sing : ce restaurant → NOUNPhr :masc :sing : . . . Ordre d’apparition arbitraire : 1. PROPER 2. NOUNPhr al´atoire e 3. PRO
  253. 253. G´n´ration d’expressions r´f´rentielles IV e e ee Les Caves de la Mar´chale est un restaurant localis´ Rue Jules Chaland e e Ce restaurant est sp´cialis´ dans la cuisine fran¸aise . e e c Il a recueilli 79% de notes favorables sur Internet .
  254. 254. Ajustements morphologiques I
  255. 255. Ajustements morphologiques I Entr´e Phrases avec mots ` l’´tat de lemmes e a e accords ´lisions e agglutinations Sortie Phrases avec formes finales des mots
  256. 256. Ajustements morphologiques II ACCEPTED PAYMENTS CIRC OBJ SUBJ DET PROPER VERB ART DEF Novotel accepte le NOUN PREPPhr carte visa comme moyen de paiement f´m :sing e agreement Novotel accepte la carte visa comme moyen de paiement
  257. 257. Ajustements morphologiques III ce restaurant est sp´cialis´ dans la cuisine fran¸ais . e e c f´m :sing e ADJ agreement ce restaurant est sp´cialis´ dans la cuisine fran¸aise . e e c
  258. 258. Ajustements morphologiques IV cet hotel dispose de un bar . cet hotel dispose d’ un bar .
  259. 259. Mise en forme I
  260. 260. Mise en forme I Entr´e Suite de mots e Majuscules Espaces Balises Sortie Texte final
  261. 261. Mise en forme II cet hotel dispose d’ un bar , d’ un spa et d’ un golf . Cet hotel dispose d’ un bar , d’ un spa et d’ un golf . Cet hotel dispose d’ un bar , d’ un spa et d’ un golf . Cet hotel dispose d’un bar, d’un spa et d’un golf.
  262. 262. Mise en forme III ROOT PRED PRED SUBJ PROPER La Braisi`re e < strong > DET VERB DET est un NOUN restaurant < strong > PREP CPREP PART PREP PROPER situ´ e ` a Toulouse < strong > <strong> La Braisi`re </strong> est un <strong> restaurant e </strong> situ´ ` <strong> Toulouse </strong>. ea
  263. 263. Exploitation du g´n´rateur en contexte industriel e e (stage B. Pierrejean promo 2013)
  264. 264. ´ Etat des lieux ˆ ˆ ´ ` HOTEL HOTEL HELIOT A TOULOUSE Vous souhaitez en savoir plus sur l’hˆtel Hˆtel H´liot ` o o e a Toulouse ? Hˆtel H´liot est un hˆtel. Cet hˆtel se situe 3 Rue H´liot o e o o e ` Toulouse. Il a remport´ 81% de remarques favorables sur a e Internet. Les internautes y appr´cient particuli`rement le e e service ( patron tres sympathique , accueil tr`s aimable e , personnel sympathique ) et les ´quipements des e chambres ( chambre tr`s propre , chambre spatieuse , e chambre agr´able ). e Quelques probl`mes qualitatifs e Peu de cat´gories couvertes (hˆtels, restaurants) e o Trop courts
  265. 265. Objectifs Couverture autres cat´gories : bars, sites touristiques, etc. e Longueur et Vari´t´ textes plus longs en limitant les r´p´titions ee e e Qualit´ linguistique ´ventuellement am´liorer e e e
  266. 266. R´sultats e Bar La Cale S`che ` Toulouse e a La Cale S`che vous attend dans une atmosph`re e e divertissante au 41 Rue L´on Gambetta dans la plaisante ville e de Toulouse. Cette adresse propose diff´rentes vari´t´s de e ee caf´s, rien de tel pour discuter entre copains ! Les gourmands e se r´galeront de l’un des mets propos´s ` la carte. Si vous vous e e a rendez dans ce bar un soir de concert, l’ambiance sera plutˆt o festive. Pour les personnes qui voudraient y aller en fin de semaine, sachez que cet endroit vous accueille aussi le dimanche. Si vous voulez vous y rendre en m´tro vous pourrez e sortir ` la station M´tro Capitole qui est situ´e ` 350 m`tres. a e e a e Depuis ce bar vous pourrez rejoindre le bar Bar Gambetta, la salle de spectacle Piano Aux Jacobins, le salon de th´ Grand e Cafe Albert, la boite de nuit Le Bocca Chicca et le centre culturel Adda Festival Du Jazz. L’avis des internautes Plus des trois quarts de nos internautes ont appr´ci´ cet e e endroit.
  267. 267. ´ Evaluation
  268. 268. ´ Evaluation Impact sur le traffic nb de visites sur la page temps rest´ sur la page e
  269. 269. ´ Evaluation Impact sur le traffic nb de visites sur la page temps rest´ sur la page e Indicateurs de progression : vari´t´ ee longueur temps
  270. 270. ´ Evaluation Impact sur le traffic nb de visites sur la page temps rest´ sur la page e Indicateurs de progression : vari´t´ ee longueur temps Qualit´ e pas d’´valuation chiffr´e (ex. : coˆt de post-´dition) e e u e perception
  271. 271. Impact sur le traffic Mise en production : mai 2013 Figure: 100 pages avec descriptifs Figure: site nomao.fr
  272. 272. Progression : vari´t´ ee n-grammes de mots pleins communs entre deux textes : jaccard(n1 , n2 ) = |n1 ∩ n2 | |n1 ∪ n2 | baisse d’environ 40% grˆce ` l’al´atoire a a e d´veloppement de nouveaux patrons e n 1 2 3 avant 0, 17 0,11 0,7 apr`s e 0,12 0,07 0,05
  273. 273. Progression : longueur nb de mots dans les textes moyenne min max ⇒ pb : manque de donn´es e avant 63 30 120 apr`s e 105 39 241
  274. 274. Qualit´ linguistique per¸ue e c Bar La Cale S`che ` Toulouse e a La Cale S`che vous attend dans une atmosph`re divertissante e e au 41 Rue L´on Gambetta dans la plaisante ville de Toulouse. e Cette adresse propose diff´rentes vari´t´s de caf´s, rien de tel pour e ee e discuter entre copains ! // Les gourmands se r´galeront de l’un des e mets propos´s ` la carte. // Si vous vous rendez dans ce bar un e a soir de concert, l’ambiance sera plutˆt festive. // Pour les o personnes qui voudraient y aller en fin de semaine, sachez que cet endroit vous accueille aussi le dimanche. // Si vous voulez vous y rendre en m´tro vous pourrez sortir ` la station M´tro Capitole qui e a e est situ´e ` 350 m`tres. // Depuis ce bar vous pourrez rejoindre le e a e bar Bar Gambetta, la salle de spectacle Piano Aux Jacobins, le salon de th´ Grand Cafe Albert, la boite de nuit Le Bocca Chicca e et le centre culturel Adda Festival Du Jazz.
  275. 275. Merci pour votre attention
  276. 276. Contact + News Estelle Delpech Nomao estelle (a) nomao.com http ://www.nomao.com/ http ://blog.nomao.fr/ http ://www.nomao.com/labs
  277. 277. R´f´rences I ee Belz, A. (2008). Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models. Natural Language Engineering, 14(4) :431–455. Belz, A. and Kow, E. (2009). System building cost vs. output quality in data-to-text generation. In Proceedings of the 12th European Workshop on Natural Language Generation, pages 16–24. Bennison, P. and Bowker, L. (2000). Designing a tool for exploiting bilingual comparable corpora. In Proceedings of LREC 2000, Athens, Greece. Binsted, K., Pain, H., and Graeme, R. (1997). Children’s evaluation of computer-generated punning riddles. Pragmatics and Cognition, 5 :309–358. Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011). Libellex : une plateforme multiservices pour la gestion des contenus multilingues. In Lafourcade, M. and Prince, V., editors, Actes de la 18`me conf´rences sur le traitement automatique des e e langues naturelles, volume 2, page 319, Montpellier, France. Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan, J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012). Domain adaptation in machine translation : Final report. In 2012 Johns Hopkins Summer Workshop Final Report. derni`re consultation le 01/02/2013. e Danlos, L. and Roussarie, L. (2000). La g´n´ration automatique de textes. e e In Ing´nierie de la langue. Pierrel, J.-M., herm`s edition. e e
  278. 278. R´f´rences II ee D´jean, E. and Gaussier, E. (2002). e Une nouvelle approche ` l’extraction de lexiques bilingues ` partir de corpus comparables. a a Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22. Delpech, E. (2010a). Bilingual terminology mining. In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing (Franco-Thai Workshop 2010), Bangkok, Tha¨ ılande. Delpech, E. (2010b). Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communaut´s ferm´es. e e In Terminologie & Ontologie : Th´ories et applications (TOTh), Annecy, France. e Delpech, E. (2011). Evaluation of terminologies acquired from comparable corpora : an application perspective. In Pedersen B.S., Ne˘pore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational s Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia. Delpech, E. (2012). Un protocole d’´valuation applicative des terminologies bilingues destin´es ` la traduction sp´cialis´e. e e a e e Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ro sp´cial : Evaluation des m´thodes e e e d’Extraction de Connaissances dans les Donn´es (Eval’ECD). e Delpech, E. and Daille, B. (2010). Dealing with lexicon acquired from comparable corpora : validation and exchange. In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages 211–223, Dublin, Ireland.
  279. 279. R´f´rences III ee Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a). Extraction of domain-specific bilingual lexicon from comparable corpora : a compositional translation and ranking. In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai, Inde. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b). Identification of fertile translations in medical comparable corpora : a morpho-compositional approach. In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas, San Diego, California. Fung, P. (1997). Finding terminology translations from non-parallel corpora. In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong. Hauer, B. and Kondrak, G. (2011). Clustering semantically equivalent words into cognate sets in multilingual lists. In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873, Chiang Mai, Thailand. Hazem, A. and Morin, E. (2012). ICA for bilingual lexicon extraction from comparable corpora. In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey. Hovy, E. (1998). Automated discourse generation using discourse structure relations. Artificial Intelligence, 63 :341–385. Hutchins, J. (1996). ALPAC : the (in)famous report. MT News International, (14) :9–12.
  280. 280. R´f´rences IV ee Keenan, E. L. and Faltz, L. M. (1985). Boolean semantics for natural language. Dordrecht, Holland. Knight, K. and Langkide, I. (1998). Generation that exploits corpus-based knwoledge. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, pages 704–710. Langkide, I. (2000). Forest-based statistical sentence generation. In Proceedings of the 6th Applied Natural Language Processing Conference and the 1st Meeting of the North American Chapter of the Association of Computational Linguistics, pages 170–177. Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011). Degr´ de comparabilit´, extraction lexicale bilingue et recherche d’information interlingue. e e In Actes de la 18`me conf´rences sur le traitement automatique des langues naturelles, volume 1, pages e e 211–222, Montpellier, France. Mc Enery, A. M. and Xiao, R. Z. (2007). Parallel and comparable corpora : What is happening ? In G. Anderman, M. R., editor, Incorporating Corpora : The Linguist and the Translator., Translating Europe, pages 18–31. Multilingual Matters, Clevedon, UK. Morin, E. and Daille, B. (2010). Compositionality and lexical alignment of multi-word terms. In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation (LRE), volume 44 of Multiword expression : hard going or plain sailing, pages 79–95. Springer Netherlands.
  281. 281. R´f´rences V ee Morin, E., Dufour-Kowalski, S., and Daille, B. (2004). Extraction de terminologies bilingues ` partir de corpus comparables. a In Actes de la 11`me Conf´rence annuelle sur le Traitement Automatique des Langues Naturelles (TALN), e e pages 309–318, F`s, Maroc. e Namer, F. and Baud, R. (2007). Defining and relating biomedical terms : Towards a cross-language morphosemantics-based system. International Journal of Medical Informatics, 76(2-3) :226–33. Planas, E. (1998). TELA, Structures et Algorithmes pour la Traduction fond´e sur la M´moire. e e Th`se de doctorat en informatique, Universit´ Joseph Fourier, Grenoble I, Grenoble, France. e e Planas, E. (2011). Metricc : Rapport final sur l’´valuation de l’apport des lexiques bilingues pour la traduction. e D´livrable ANR no 28 lot 4.3, Universit´ de Nantes, Nantes. e e Planas, E. and Furuse, O. (2000). Multi-level similar segment matching algorithm for translation memories and example-based machine translation. In Proceedings of the 18th International Conference on Computational Linguistics, pages 621–627, Saarbr¨cken, Allemagne. u Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3) :130–137. Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., and Sykes, C. (2009). Generation of textual summaries from neonatal intensive care data. Artificial Intelligence, 173 :789–816.
  282. 282. R´f´rences VI ee Prochasson, E. (2010). Alignement multilingue en corpus comparables sp´cialis´s : Caract´risation terminologique multilingue. e e e Th`se en informatique, Universit´ de Nantes, Nantes. e e Rapp, R. (1999). Automatic Identification of Word Translations from Unrelated English and German Corpora. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), pages 519–526, College Park, MD, USA. Reiter, E. and Belz, A. (2009). An investigation into the validity of some metrics for automatically evaluating natural language generation systems. Computational Linguistics, 35(4) :529–558. Reiter, E., Roma, R., and Liesl, O. (2003). Lessons from a failure : Generating tailored smoking cessation letters. Artificial Intelligence, 144 :41–58. Sadat, F., Yoshikawa, M., and Uemura, S. (2003). Learning bilingual translations from comparable corpora to Cross-Language information retrieval : Hybrid statistics-based and linguistics-based approach. volume 11, pages 57–64, Sappro, Japan. Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006). ASSIST : automated semantic assistance for translators. In Proceedings to the 11th Conference of the European Chapter of the Association for Computational Linguistics, pages 139–142, Trento, Italie. Somers, H. (2005). Machine translation : latest developments. In Mitkov, R., editor, The Oxford Handbook of Computational Linguistics, pages 512–528. Oxford University Press, New York, USA.
  283. 283. R´f´rences VII ee V´ronis, J. (2000). e From the rosetta stone to the information society. a survey of parallel text processing. In V´ronis, J., editor, Parallel Text Processing, pages 1–24. Kluwer Academic Publisher, Londres, e Royaume-Uni. Williams, S. and E., R. (2008). Generating basic skills reports for low-skilled readers. Natural Language Engineering, 14 :41–58. Wong, Y. and Mooney, R. (2007). Generation by inverting a semantic parser that uses statistical machine translation. In Proceedings of Human Language Technologies : The Annual Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, pages 172–179. Zanettin, F. (1998). Bilingual comparable corpora and the training of translators. Meta : journal des traducteurs / Meta : Translator’s Journal, 43(4) :616–630.

×