1. Génération automatique
de textes
Application à un outil de gestion et recommandation de
bonnes adresses
Estelle Delpech
Responsable R&D, Nomao
Séminaire « Thématiques actuelles de la recherche en TAL »
Laboratoire CLLE-ERSS, Université Toulouse II
19 novembre 2012
2. Plan
1. Contexte applicatif
2. Principes de la génération automatique de texte
3. Génération de descriptifs de lieux en contexte applicatif
3. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
4. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
5. Nomao
carnet de bonnes adresses (entre amis)
permettre aux gens de trouver, garder et échanger des
bonnes adresses (restaurants, bars, shopping, médecins...)
un carnet d’adresse « intelligent » :
– recherche géolocalisée
– réalité augmentée
– adaptation aux goûts de l’utilisateur
– partage sur les réseaux sociaux
⇒ http ://fr.nomao.com
1 / 83
8. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
9. Technologie : moteur de recommandation
« Ceux qui ont aimé les mêmes lieux que vous aiment aussi... »
4 / 83
11. Extraction de données
SOURCE 1
nom : Les Caves de La Maréchale
descripteurs : restaurant
adresse :
rue :
ville : Toulouse
commentaires :
note : 4
texte : Mangé hier soir avec...
SOURCE 2
nom : Caves de La Maréchale SARL
descripteurs : français
adresse :
rue : Rue Jules Chalande
ville : Toulouse
commentaires :
note : 2
texte : Pas vraiment apprécié...
6 / 83
12. Agrégation de données
LIEU #5237890
nom : Les Caves de La Maréchale
descripteurs : restaurant, français
adresse :
rue : Rue Jules Chalande
ville : Toulouse
commentaires :
note : 4
texte : Mangé hier soir avec...
note : 2
texte : Pas vraiment apprécié...
7 / 83
13. Analyse des données
LIEU #5237890
nom : Les Caves de La Maréchale
descripteurs : restaurant, français
CATÉGORIE : manger restaurant europen franais
adresse :
rue : Rue Jules Chalande
ville : Toulouse
commentaires :
note : 4
texte : Mangé hier soir avec...
note : 2
texte : Pas vraiment apprécié...
E-RÉPUTATION : 79%
ASPECTS POSITIFS :
SERVICE : super accueil, personnel avenant
PLATS : gratin dauphinois délicieux
8 / 83
14. Synthèse en langue naturelle
« Les Caves de la Maréchale » est un restaurant localisé Rue
Jules Chalande à Toulouse. Ce restaurant est spécialisé dans la
cuisine française. Il a recueilli 79% de notes favorables sur
Internet. Les internautes y apprécient particulièrement le
service (« super accueil », « personnel avenant ») et les plats
principaux (« gratin dauphinois délicieux »).
⇒ Synthèse conviviale des informations objectives et
subjectives disséminées sur Internet à propos d’un lieu
9 / 83
15. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
16. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
17. Applications possibles
Traduction automatique (système par pivot)
Résumé automatique (système basés sur une simulation de
l’activité humaine)
⇒ plutôt lié aux approches symboliques
10 / 83
18. Applications confirmées
Agents conversationnels
Génération de textes à partir de données
– numériques, ex : météo, cours de bourse...
– procédurales, ex : manuels d’instructions
– diverses, ex : matches de foot, descriptifs de lieux...
⇒ toujours propre à un domaine + but communicatif, pas de
système généraliste.
11 / 83
19. Niveaux de complexité
Textes en boite : Votre imprimante n’a plus de papier
Textes à trous et patrons conditionnels : publipostage
{IF $SEXE=F Chère Cher} $PRENOM $NOM,
Nous avons le {IF $SOLDE 0 regret plaisir} de vous
annoncer que...
Content spinning : génération de contenu pour le Web
Systèmes de génération « intelligents »
12 / 83
21. Content spinning
Technique de génération de contenu varié pour optimiser
des pages web
Principe :
1. écriture d’un premier texte
2. découpage du texte en morceaux, sous-morceaux,
sous-sous-morceaux, etc..
3. pour chaque morceau : proposer plusieurs variantes possibles
4. génération par sélection aléatoire des morceaux
La {génération de texte|GAT} rend {possible|facile} la
création de {textes|contenus textuels} {rapide| à la
va-vite}
⇒ 2 x 2 x 2 x 2 = 16 phrases
13 / 83
22. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
28. Sélection du contenu I
Entrée Données brutes, éventuellement buts communicatifs
– sélection d’information
– filtrage/calcul des informations saillantes, ex. : hausses de
températures
– peut inclure du raisonnement (IA)
– transcription en représentations logiques
Sortie formes logiques non ordonnées
15 / 83
29. Sélection du contenu II
(m7 / |eat, take in|
:time present
:agent (d / |dogcanid|
:quant plural)
:patient (b / |os, bone|)
:quant plural)
)
⇒ dogs eat bones
[Knight and Langkide, 1998]
16 / 83
31. Structuration rhétorique I
Entrée Formes logiques non ordonnées
– regroupement du contenu sémantique en unités
– les unités sémantiques se réaliseront par la suite en phrases
ou propositions syntaxiques
– articulées par des relations de discours
Sortie Plan de texte
17 / 83
34. Planification syntaxique I
Entrée Plan de texte
– traductions des structures sémantiques en structures
syntaxiques
Sortie Arbres syntaxiques + connecteurs, mots outils
19 / 83
35. Planification syntaxique II
# dog, bone, eat
((x1 :agent)
(x2 :patient)
(x3 :rest)
-
# dogs eat bones
(s (seq (x1 np nom-pro) (x3 v-tensed)
(x2 np acc-pro)))
# bones are eaten by dogs
(s (seq (x2 np nom-pro) (x3 v-passive)
(wrd by) (x1 np acc-pro)))
# consumption of bones by dogs
(s (seq (x3 np acc-pro nom-pro) (wrd of)
(x2 np acc-pro) (wrd by) (x1 np acc-pro)))
)
adapté de [Knight and Langkide, 1998]
20 / 83
37. Lexicalisation I
Entrée Arbres syntaxiques
– sélection de lexies correspondant au sens et s’intégrant dans
la structure syntaxique
Sortie Arbres syntaxiques lexicalisés
21 / 83
38. Lexicalisation II
# Lexique
((eat VERB |eat, take in|)
(dog NOUN |caniddog|)
(bone, NOUN |os, bone|))
# Structure lexicalisée
(s (seq (wrd dog) (wrd +plural)
(wrd eat)
(wrd bone) (wrd +plural)))
adpatée de [Knight and Langkide, 1998]
22 / 83
40. Ajustement morphologique I
Entrée Arbres syntaxiques lexicalisés
– calcul de la forme de surface : accords, conjugaisons,
agglutination, élision...
Sortie Arbres syntaxiques lexicalisés et fléchis
23 / 83
47. Génération d’expressions référentielles
Liée génération des groupes nominaux
Choix possibles :
– déterminant : le vs. un vs. ce bouton
– prédicat lexical : l’appareil vs. le magnétoscope
– réduction : la machine à gauffres vs. la machine
– épithètes restrictifs : le bouton vert vs. le premier bouton
– pronominalisation : il vs. l’appareil
27 / 83
49. Agrégation
Regroupement de plusieurs entités en une seule entité
globale
Peut intervenir à plusieurs niveaux
– génération de syntagmes pluriels :
. écran(x), clavier(y) → périphériques(x,y)
– coordination, ellipses de structures syntaxiques :
. tirer puis relâcher la manette
. insérer la fiche 1 dans le port et la fiche 2 dans la sortie
28 / 83
51. Approches statistiques [Belz and Kow, 2009]
Développement d’approches statistiques à partir de 1998
But : accélérer les développements, adaptation au
domaine
Intégration à plusieurs niveaux :
– structure syntaxique → texte final
– représentation sémantique → texte final
29 / 83
52. Réalisation de surface guidée par les
données [Knight and Langkide, 1998, Langkide, 2000] I
30 / 83
53. Réalisation de surface guidée par les
données [Knight and Langkide, 1998, Langkide, 2000] I
Sélection de toutes les structures syntaxiques, et de toutes
les lexies possibles
Obtention d’un graphe de réalisations possibles
Choix du chemin le plus probable grâce à des probabilités
de n-grammes de mots appris sur corpus
30 / 83
54. Réalisation de surface guidée par les
données [Knight and Langkide, 1998, Langkide, 2000] II
31 / 83
55. Génération basée sur la traduction
automatique [Wong and Mooney, 2007] I
32 / 83
56. Génération basée sur la traduction
automatique [Wong and Mooney, 2007] I
Apprentissage de probabilités d’alignements entre
réalisation de surface et représentation sémantique
32 / 83
57. Génération basée sur la traduction
automatique [Wong and Mooney, 2007] II
Choix de la réalisation de surface qui est à la fois :
– dont le sens est le plus proche de la représentation
sémantique (modèle de traduction)
– la mieux formée (modèle de langue : n-grammes corpus)
argmax
e
Pr(e|f) = argmax
e
Pr(e)Pr(f|e)
33 / 83
58. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
60. Évaluation [Reiter and Belz, 2009]
Pas de technique consensuelle
Trois types d’évaluation :
– évaluation applicative / guidée par la tâche
– évaluation basée sur des jugements humains
– évaluation automatique par comparaison à une référence
34 / 83
61. Évaluation applicative
Méthodologies liées à l’application finale :
– faire une tâche en suivant des instructions générées
– arrêter de fumer grâce à des lettres de suivi personnalisées
– coût de post-édition
Évaluations les plus parlantes / convaincantes
Coûteuses
Dépendantes du bon-vouloir des participants
35 / 83
62. Évaluation humaine
Méthode :
– texte noté sur plusieurs critères (échelles)
. qualité globale, cohérence, contenu, organisation...
– préférence entre deux textes
Méthode la plus populaire
Plus rapide et moins chère que l’évaluation guidée par la
tâche
36 / 83
63. Évaluation automatique
Méthode :
– extraction des structures syntaxiques / de l’information d’un
corpus écrit par un humain
– (re-)génération du texte à partir des structures
– comparaison via une mesure style distance d’édition, BLEU...
Peu coûteuse, rapide, reproductible
Utilisée pour évaluer à partir de la lexicalisation
Méthode controversée pour une évaluation globale :
– validité de la référence
– objet de l’évaluation
37 / 83
65. Projets académiques
Babytalk : résumés de données cliniques sur des bébés en
soins intensifs [Portet et al., 2009]
Génération de prévisions météo [Belz, 2008]
STOP : génération de lettre personnalisées pour arrêt tabac
[Reiter et al., 2003]
SKILLSUM : résumé d’évaluation de niveau
d’alphabétisation [Williams and E., 2008]
Générateur de blagues [Binsted et al., 1997]
38 / 83
67. Systèmes commerciaux
Revolusyn : content spinning avancé - www.revolusyn.com/
EasyText : commentaires de tableaux de données
statistiques
StatsMonkey : résumés de matches de baseball
Syllabs : descriptifs de produits marchands -
http ://demo.showroom.syllabs.com/generation/
Hotels Combined : résumés d’avis clients -
www.hotelscombined.com/
Nomao : descriptifs de lieux
39 / 83
68. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
69. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
70. Contraintes
Rapidité du système : éviter traitements complexes,
couteux en temps
Rapidité de développement :
– ne coller à l’architecture théorique que si c’est nécessaire
⇒ système mixant génération « intelligente »et approches
bas niveau
Moteurs de recherche :
– contenu unique et varié
40 / 83
71. Exemple de texte généré
HÔTEL « HÔTEL DE VARENNE » À PARIS
Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris...
« Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème
arrondissement. Cet hôtel propose des chambres disposant de
tout le confort moderne (climatisation...). Il dispose d’un
agréable jardin et met à disposition de ses clients un accès
WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables
sur Internet. Les internautes y apprécient particulièrement le
service (« personnel tres aimable », « sourire du personnel », «
personnel sympathique »).
41 / 83
72. Optimisation moteurs de recherche
HÔTEL « HÔTEL DE VARENNE » À PARIS
Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris...
« Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème
arrondissement. Cet hôtel propose des chambres disposant de
tout le confort moderne (climatisation...). Il dispose d’un
agréable jardin et met à disposition de ses clients un accès
WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables
sur Internet. Les internautes y apprécient particulièrement le
service (« personnel tres aimable », « sourire du personnel », «
personnel sympathique »).
42 / 83
73. Génération bas niveau
⇒ choix lexical aléatoire avec gestion des accords
HÔTEL « HÔTEL DE VARENNE » À PARIS
Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris...
« Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème
arrondissement.
Cet hôtel propose des chambres disposant de tout le confort
moderne (climatisation...). Il dispose d’un agréable jardin et
met à disposition de ses clients un accès WIFI.
Hôtel de Varenne a obtenu 91% de remarques favorables sur
Internet. Les internautes y apprécient particulièrement le
service (« personnel tres aimable », « sourire du personnel », «
personnel sympathique »).
43 / 83
74. Génération de texte intelligente
HÔTEL « HÔTEL DE VARENNE » À PARIS
Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris...
« Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème
arrondissement. Cet hôtel propose des chambres disposant de
tout le confort moderne (climatisation...). Il dispose d’un
agréable jardin et met à disposition de ses clients un accès
WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables
sur Internet. Les internautes y apprécient particulièrement le
service (« personnel tres aimable », « sourire du personnel », «
personnel sympathique »).
44 / 83
75. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
79. Sélection du contenu I
Entrée Données brutes
– sélection
– catégorisation
– transformation
– pas de raisonnement, de manipulation de concepts
Sortie Données filtrées et restructurées
46 / 83
80. Sélection du contenu II
DONNÉES BRUTES
NOM : Higuma
CATÉGORIE : manger restaurant
asiatique japonais
TAGS : carte de crédit acceptées,
chèques refusés, japonais
GÉOLOCALISATION :
LAT : 48.871762
LONG : 2.352262
ADRESSE :
RUE : 32 Rue Saint-Anne
VILLE : Paris
CP : 75001
MÉTRO :
LIGNE : 14
STATION : Pyramides
CONTENU POUR GÉNÉRATION
NOM : Higuma
CATÉGORIE : restaurant :masc :sing
STYLE CUISINE : japonais
PAIEMENTS ACCEPTÉS : carte de crédit
PAIEMENTS REFUSÉS : chèque
ADRESSE :
RUE : 32 Rue Saint-Anne
VILLE : Paris
QUARTIER : 1
47 / 83
82. Structuration rhétorique I
Entrée Données filtrées et structurées
– sélection de propositions sémantiques pré-définies en
fonction du contenu disponible
– ordonnancement des propositions, regroupement en
paragraphes thématiques
– articulation des propositions par des relations de discours
Sortie Plan de texte
48 / 83
83. Structuration rhétorique II
NOM : Higuma
CATÉGORIE : restaurant :masc :sing ⇒ SPOT_IS_A_TYPE
STYLE CUISINE : japonais ⇒ COOKING_STYLE
PAIEMENTS ACCEPTÉS : carte de crédit ⇒ ACCEPTED_PAYMENTS
PAIEMENTS REFUSÉS : chèque ⇒ REJECTED_PAYMENTS
ADRESSE :
RUE : 32 Rue Saint-Anne
VILLE : Paris
QUARTIER : 1
⇒ LOC_STREET_CITY_DISTRICT
49 / 83
89. Planification syntaxique I
Entrée Plan de texte
– sélection des structures syntaxiques correspondant aux
propositions sémantiques
– sélection aléatoire parmi plusieurs structures possibles
Sortie Structures syntaxiques à trous
54 / 83
90. Planification syntaxique II
PROPER VERB Enum PREPPhr
$SPOT accepte $ACCEPTED_PAYMENTS comme moyen de paiement
strong
ACCEPTED_PAYMENTS
SUBJ OBJ
CIRC
55 / 83
92. Planification syntaxique IV
ART_DEF NOUN . . . ART_DEF NOUN
le $ACCEPTED_PAYMENT1 le $ACCEPTED_PAYMENTN
Enum_ACCEPTED_PAYMENTS
DET
ENUM
DET
agreement agreement
57 / 83
95. Lexicalisation I
Entrée Structures syntaxiques à trous
– choix des valeurs correspondant aux variables
. tags : sélection aléatoire dans lexique, fonction partie du
discours imposée par structure
. entités nommées : insertion de la valeur brute
Sortie Structures syntaxiques lexicalisées
59 / 83
96. Lexicalisation II
PROPER VERB ART_DEF NOUN PREPPhr
ENTITÉ TAG
$SPOT accepte le $ACCEPTED_PAYMENT comme moyen de paie
ACCEPTED_PAYMENTS
SUBJ
OBJ
DET
CIRC
60 / 83
97. Lexicalisation III
PROPER VERB ART_DEF NOUN PREPPhr
Novotel accepte le carte visa comme moyen de paie
hotel :masc :sing :fém :sing
ACCEPTED_PAYMENTS
SUBJ
OBJ
DET
CIRC
61 / 83
102. Agrégation des structures III
Novotel accepte carte visa Novotel refuse chèque
ACCEPTED_PAYMENTS
SUBJ OBJ
REJECTED_PAYMENTS
SUBJ OBJ
65 / 83
103. Agrégation des structures IV
Novotel accepte carte visa Novotel refuse chèque
SPOT_ACCEPT_PAYMENT
SUBJ OBJ
SPOT_REJECT_PAYMENT
SUBJ OBJ
sujets identiques verbes compatibles
⇒ Agrégation possible
66 / 83
104. Agrégation des structures V
Novotel accepte carte visa COORD X refuse chèque
ROOT
COORD
COORD
SUBJ
OBJ OBJ
67 / 83
105. Agrégation des structures VI
Novotel accepte carte visa mais refuse chèque
ROOT
COORD
COORD
SUBJ
OBJ OBJ
CONTRASTCONTRAST
68 / 83
106. Agrégation des structures VII
autres règles :
– Novotel est un hotel + Novotel est situé à Paris ⇒ Novotel est
un hôtel situé à Paris
– Novotel dispose d’un jardin + Novotel propose des chambres
avec climatisation ⇒ Novotel dispose d’un jardin et propose
des chambres avec climatisation
règles d’agrégation codées en dur
déclaration externe :
– compatibilités entre verbes
– coordonnants
69 / 83
108. Génération d’expressions référentielles I
Entrée Phrases finales
– repérage des sujets répétés
– remplacement par des expressions référentielles
Sortie Phrases finales avec expressions référentielles
70 / 83
109. Génération d’expressions référentielles II
Les Caves de la Maréchale est un restaurant localisé Rue Jules Cha
SUBJ
Les Caves de la Maréchale est spécialisé dans la cuisine française
SUBJ
Les Caves de la Maréchale a recueilli 79% de notes favorables sur
restaurant :masc :sing
SUBJ
71 / 83
110. Génération d’expressions référentielles III
Lexique expressions référentielles :
restaurant → PRO :masc :sing : il
→ NOUNPhr :masc :sing : ce restaurant
→ NOUNPhr :masc :sing : . . .
Ordre d’apparition arbitraire :
1. PROPER
2. NOUNPhr aléatoire
3. PRO
72 / 83
111. Génération d’expressions référentielles IV
Les Caves de la Maréchale est un restaurant localisé Rue Jules Cha
Ce restaurant est spécialisé dans la cuisine française .
Il a recueilli 79% de notes favorables sur Internet .
73 / 83
113. Ajustements morphologiques I
Entrée Phrases avec mots à l’état de lemmes
– accords
– élisions
– agglutinations
Sortie Phrases avec formes finales des mots
74 / 83
114. Ajustements morphologiques II
PROPER VERB ART_DEF NOUN PREPPhr
Novotel accepte le carte visa comme moyen de paiement
fém :sing
ACCEPTED_PAYMENTS
SUBJ
OBJ
DET
CIRC
agreement
Novotel accepte la carte visa comme moyen de paiement
75 / 83
116. Ajustements morphologiques IV
ce restaurant est spécialisé dans la cuisine français .
fém :sing ADJ
agreement
ce restaurant est spécialisé dans la cuisine française .
77 / 83
120. Mise en forme I
Entrée Suite de mots
– Majuscules
– Espaces
– Balises
Sortie Texte final
80 / 83
121. Mise en forme II
cet hotel dispose d’ un bar , d’ un spa et d’ un golf .
Cet hotel dispose d’ un bar , d’ un spa et d’ un golf .
Cet_ hotel_ dispose_ d’ un_ bar ,_ d’ un_ spa_ et_ d’ un_ golf .
Cet hotel dispose d’un bar, d’un spa et d’un golf.
81 / 83
122. Mise en forme III
PROPER VERB DET NOUN PART PREP PROPER
« La Braisière » est un restaurant situé à Toulouse
strong strong strong
ROOT
SUBJ
PRED
PRED
DET PREP CPREP
strong « La Braisière »/strong est un strong restaurant
/strong situé à strong Toulouse /strong.
82 / 83
123. Plan
1. Contexte applicatif
Présentation du produit
Processus de traitement des données
2. Principes de la génération automatique de texte
Introduction : applications, niveaux de complexité
Fonctionnement d’un générateur de texte
Évaluation et systèmes existants
3. Génération de descriptifs de lieux en contexte applicatif
Contraintes liées au contexte applicatif
Fonctionnement du générateur de textes
Évaluation et perspectives
125. Évaluation
Pas d’évaluation à ce jour
Modes d’évaluation envisagés :
– coût de post-édition
– temps resté sur la page
– nb de visites sur la page
Indicateurs de progression :
– variété
– longueur
– temps
83 / 83
126. Variété
n-grammes de mots pleins
communs entre deux textes :
jaccard(n1, n2) =
|n1 ∩ n2|
|n1 ∪ n2|
n jaccard
1 0, 17
2 0,11
3 0,7
⇒ baisse d’environ 40% grâce à l’aléatoire
84 / 83
128. Temps de génération
360 textes par seconde après optimisation
Intel Xeon 3Ghz, bi-processeur, 24 cœurs
86 / 83
129. Qualité linguistique perçue
HÔTEL « HÔTEL HÉLIOT » À TOULOUSE
Vous souhaitez en savoir plus sur l’hôtel « Hôtel Héliot » à
Toulouse ?
« Hôtel Héliot » est un hôtel. Cet hôtel se situe 3 Rue Héliot à
Toulouse. Il a remporté 81% de remarques favorables sur
Internet. Les internautes y apprécient particulièrement le
service (« patron tres sympathique », « accueil très aimable », «
personnel sympathique ») et les équipements des chambres («
chambre très propre », « chambre spatieuse », « chambre
agréable »).
87 / 83
131. Perspectives
Variation :
– varier l’ordre des phrases dans le plan de texte
– enrichir les structures syntaxiques, le lexique
Fluidité :
– complexifier l’agrégation : Cet hotel, qui dispose d’un bar, a
obtenu 90% de commentaires positifs.
« Humaniser » :
– flou : 90% de commentaires positifs → a une excellente
réputation
– style : dispose d’un jardin → vous pourrez vous détendre en
allant faire une balade au calme dans le jardin
88 / 83
133. Références I
Belz, A. (2008).
Automatic generation of weather forecast texts using comprehensive
probabilistic generation-space models.
Natural Language Engineering, 14(4) :431–455.
Belz, A. and Kow, E. (2009).
System building cost vs. output quality in data-to-text generation.
In Proceedings of the 12th European Workshop on Natural Language
Generation, pages 16–24.
Binsted, K., Pain, H., and Graeme, R. (1997).
Children’s evaluation of computer-generated punning riddles.
Pragmatics and Cognition, 5 :309–358.
Danlos, L. and Roussarie, L. (2000).
La génération automatique de textes.
In Ingénierie de la langue. Pierrel, J.-M., hermès edition.
Hovy, E. (1998).
Automated discourse generation using discourse structure relations.
Artificial Intelligence, 63 :341–385.
134. Références II
Knight, K. and Langkide, I. (1998).
Generation that exploits corpus-based knwoledge.
In Proceedings of the 36th Annual Meeting of the Association for
Computational Linguistics and 17th International Conference on
Computational Linguistics, pages 704–710.
Langkide, I. (2000).
Forest-based statistical sentence generation.
In Proceedings of the 6th Applied Natural Language Processing
Conference and the 1st Meeting of the North American Chapter of the
Association of Computational Linguistics, pages 170–177.
Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., and Sykes, C.
(2009).
Generation of textual summaries from neonatal intensive care data.
Artificial Intelligence, 173 :789–816.
Reiter, E. and Belz, A. (2009).
An investigation into the validity of some metrics for automatically
evaluating natural language generation systems.
Computational Linguistics, 35(4) :529–558.
135. Références III
Reiter, E., Roma, R., and Liesl, O. (2003).
Lessons from a failure : Generating tailored smoking cessation letters.
Artificial Intelligence, 144 :41–58.
Williams, S. and E., R. (2008).
Generating basic skills reports for low-skilled readers.
Natural Language Engineering, 14 :41–58.
Wong, Y. and Mooney, R. (2007).
Generation by inverting a semantic parser that uses statistical machine
translation.
In Proceedings of Human Language Technologies : The Annual
Conference of the North American Chapter of the Association for
Computational Linguistics on Human Language Technology, pages
172–179.