Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Génération automatique de texte

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Mix it 2011 - Clojure
Mix it 2011 - Clojure
Chargement dans…3
×

Consultez-les par la suite

1 sur 135 Publicité

Génération automatique de texte

Télécharger pour lire hors ligne

Présentation effectuée au séminaire CLLE-ERSS "Thématiques actuelles de la recherche en TAL", Université de Toulouse, novembre 2012.

Présentation effectuée au séminaire CLLE-ERSS "Thématiques actuelles de la recherche en TAL", Université de Toulouse, novembre 2012.

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (17)

Similaire à Génération automatique de texte (20)

Publicité

Plus par Estelle Delpech (19)

Plus récents (20)

Publicité

Génération automatique de texte

  1. 1. Génération automatique de textes Application à un outil de gestion et recommandation de bonnes adresses Estelle Delpech Responsable R&D, Nomao Séminaire « Thématiques actuelles de la recherche en TAL » Laboratoire CLLE-ERSS, Université Toulouse II 19 novembre 2012
  2. 2. Plan 1. Contexte applicatif 2. Principes de la génération automatique de texte 3. Génération de descriptifs de lieux en contexte applicatif
  3. 3. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  4. 4. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  5. 5. Nomao carnet de bonnes adresses (entre amis) permettre aux gens de trouver, garder et échanger des bonnes adresses (restaurants, bars, shopping, médecins...) un carnet d’adresse « intelligent » : – recherche géolocalisée – réalité augmentée – adaptation aux goûts de l’utilisateur – partage sur les réseaux sociaux ⇒ http ://fr.nomao.com 1 / 83
  6. 6. 2 / 83
  7. 7. Opération promotionnelle 3 / 83
  8. 8. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  9. 9. Technologie : moteur de recommandation « Ceux qui ont aimé les mêmes lieux que vous aiment aussi... » 4 / 83
  10. 10. Construction de l’index de lieux 5 / 83
  11. 11. Extraction de données SOURCE 1            nom : Les Caves de La Maréchale descripteurs : restaurant adresse : rue : ville : Toulouse commentaires : note : 4 texte : Mangé hier soir avec...             SOURCE 2            nom : Caves de La Maréchale SARL descripteurs : français adresse : rue : Rue Jules Chalande ville : Toulouse commentaires : note : 2 texte : Pas vraiment apprécié...             6 / 83
  12. 12. Agrégation de données LIEU #5237890                nom : Les Caves de La Maréchale descripteurs : restaurant, français adresse : rue : Rue Jules Chalande ville : Toulouse commentaires : note : 4 texte : Mangé hier soir avec... note : 2 texte : Pas vraiment apprécié...                 7 / 83
  13. 13. Analyse des données LIEU #5237890                           nom : Les Caves de La Maréchale descripteurs : restaurant, français CATÉGORIE : manger restaurant europen franais adresse : rue : Rue Jules Chalande ville : Toulouse commentaires : note : 4 texte : Mangé hier soir avec... note : 2 texte : Pas vraiment apprécié... E-RÉPUTATION : 79% ASPECTS POSITIFS : SERVICE : super accueil, personnel avenant PLATS : gratin dauphinois délicieux                           8 / 83
  14. 14. Synthèse en langue naturelle « Les Caves de la Maréchale » est un restaurant localisé Rue Jules Chalande à Toulouse. Ce restaurant est spécialisé dans la cuisine française. Il a recueilli 79% de notes favorables sur Internet. Les internautes y apprécient particulièrement le service (« super accueil », « personnel avenant ») et les plats principaux (« gratin dauphinois délicieux »). ⇒ Synthèse conviviale des informations objectives et subjectives disséminées sur Internet à propos d’un lieu 9 / 83
  15. 15. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  16. 16. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  17. 17. Applications possibles Traduction automatique (système par pivot) Résumé automatique (système basés sur une simulation de l’activité humaine) ⇒ plutôt lié aux approches symboliques 10 / 83
  18. 18. Applications confirmées Agents conversationnels Génération de textes à partir de données – numériques, ex : météo, cours de bourse... – procédurales, ex : manuels d’instructions – diverses, ex : matches de foot, descriptifs de lieux... ⇒ toujours propre à un domaine + but communicatif, pas de système généraliste. 11 / 83
  19. 19. Niveaux de complexité Textes en boite : Votre imprimante n’a plus de papier Textes à trous et patrons conditionnels : publipostage {IF $SEXE=F Chère Cher} $PRENOM $NOM, Nous avons le {IF $SOLDE 0 regret plaisir} de vous annoncer que... Content spinning : génération de contenu pour le Web Systèmes de génération « intelligents » 12 / 83
  20. 20. Content spinning 13 / 83
  21. 21. Content spinning Technique de génération de contenu varié pour optimiser des pages web Principe : 1. écriture d’un premier texte 2. découpage du texte en morceaux, sous-morceaux, sous-sous-morceaux, etc.. 3. pour chaque morceau : proposer plusieurs variantes possibles 4. génération par sélection aléatoire des morceaux La {génération de texte|GAT} rend {possible|facile} la création de {textes|contenus textuels} {rapide| à la va-vite} ⇒ 2 x 2 x 2 x 2 = 16 phrases 13 / 83
  22. 22. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  23. 23. Architecture typique d’un système de génération [Danlos and Roussarie, 2000] 14 / 83
  24. 24. Architecture typique d’un système de génération [Danlos and Roussarie, 2000] 14 / 83
  25. 25. Architecture typique d’un système de génération [Danlos and Roussarie, 2000] ‘ 14 / 83
  26. 26. Architecture typique d’un système de génération [Danlos and Roussarie, 2000] ‘ 14 / 83
  27. 27. Sélection de contenu I 15 / 83
  28. 28. Sélection du contenu I Entrée Données brutes, éventuellement buts communicatifs – sélection d’information – filtrage/calcul des informations saillantes, ex. : hausses de températures – peut inclure du raisonnement (IA) – transcription en représentations logiques Sortie formes logiques non ordonnées 15 / 83
  29. 29. Sélection du contenu II (m7 / |eat, take in| :time present :agent (d / |dogcanid| :quant plural) :patient (b / |os, bone|) :quant plural) ) ⇒ dogs eat bones [Knight and Langkide, 1998] 16 / 83
  30. 30. Structuration rhétorique I 17 / 83
  31. 31. Structuration rhétorique I Entrée Formes logiques non ordonnées – regroupement du contenu sémantique en unités – les unités sémantiques se réaliseront par la suite en phrases ou propositions syntaxiques – articulées par des relations de discours Sortie Plan de texte 17 / 83
  32. 32. Structuration rhétorique II [Hovy, 1998] 18 / 83
  33. 33. Planification syntaxique I 19 / 83
  34. 34. Planification syntaxique I Entrée Plan de texte – traductions des structures sémantiques en structures syntaxiques Sortie Arbres syntaxiques + connecteurs, mots outils 19 / 83
  35. 35. Planification syntaxique II # dog, bone, eat ((x1 :agent) (x2 :patient) (x3 :rest) - # dogs eat bones (s (seq (x1 np nom-pro) (x3 v-tensed) (x2 np acc-pro))) # bones are eaten by dogs (s (seq (x2 np nom-pro) (x3 v-passive) (wrd by) (x1 np acc-pro))) # consumption of bones by dogs (s (seq (x3 np acc-pro nom-pro) (wrd of) (x2 np acc-pro) (wrd by) (x1 np acc-pro))) ) adapté de [Knight and Langkide, 1998] 20 / 83
  36. 36. Lexicalisation I 21 / 83
  37. 37. Lexicalisation I Entrée Arbres syntaxiques – sélection de lexies correspondant au sens et s’intégrant dans la structure syntaxique Sortie Arbres syntaxiques lexicalisés 21 / 83
  38. 38. Lexicalisation II # Lexique ((eat VERB |eat, take in|) (dog NOUN |caniddog|) (bone, NOUN |os, bone|)) # Structure lexicalisée (s (seq (wrd dog) (wrd +plural) (wrd eat) (wrd bone) (wrd +plural))) adpatée de [Knight and Langkide, 1998] 22 / 83
  39. 39. Ajustement morphologique I 23 / 83
  40. 40. Ajustement morphologique I Entrée Arbres syntaxiques lexicalisés – calcul de la forme de surface : accords, conjugaisons, agglutination, élision... Sortie Arbres syntaxiques lexicalisés et fléchis 23 / 83
  41. 41. Ajustement morphologique II (-child children) (-person, people, persons) (-a, as, ae) # formulas/formulae (-x, xes, xen) # boxes / oxen (-man, mans, men) # humans/footmen (-Co, os, oes) [Knight and Langkide, 1998] 24 / 83
  42. 42. Formatage 25 / 83
  43. 43. Formatage Entrée Arbres syntaxiques lexicalisés et fléchis – règles typographiques, insertion du formatage (balises...), linéarisation de l’arbre Sortie Forme de surface linéaire 25 / 83
  44. 44. Autres tâches [Danlos and Roussarie, 2000] 26 / 83
  45. 45. Autres tâches Génération d’expressions référentielles Agrégation ⇒ Gain en fluidité et lisibilité, évite les redondances 26 / 83
  46. 46. Génération d’expressions référentielles 27 / 83
  47. 47. Génération d’expressions référentielles Liée génération des groupes nominaux Choix possibles : – déterminant : le vs. un vs. ce bouton – prédicat lexical : l’appareil vs. le magnétoscope – réduction : la machine à gauffres vs. la machine – épithètes restrictifs : le bouton vert vs. le premier bouton – pronominalisation : il vs. l’appareil 27 / 83
  48. 48. Agrégation 28 / 83
  49. 49. Agrégation Regroupement de plusieurs entités en une seule entité globale Peut intervenir à plusieurs niveaux – génération de syntagmes pluriels : . écran(x), clavier(y) → périphériques(x,y) – coordination, ellipses de structures syntaxiques : . tirer puis relâcher la manette . insérer la fiche 1 dans le port et la fiche 2 dans la sortie 28 / 83
  50. 50. Approches statistiques [Belz and Kow, 2009] 29 / 83
  51. 51. Approches statistiques [Belz and Kow, 2009] Développement d’approches statistiques à partir de 1998 But : accélérer les développements, adaptation au domaine Intégration à plusieurs niveaux : – structure syntaxique → texte final – représentation sémantique → texte final 29 / 83
  52. 52. Réalisation de surface guidée par les données [Knight and Langkide, 1998, Langkide, 2000] I 30 / 83
  53. 53. Réalisation de surface guidée par les données [Knight and Langkide, 1998, Langkide, 2000] I Sélection de toutes les structures syntaxiques, et de toutes les lexies possibles Obtention d’un graphe de réalisations possibles Choix du chemin le plus probable grâce à des probabilités de n-grammes de mots appris sur corpus 30 / 83
  54. 54. Réalisation de surface guidée par les données [Knight and Langkide, 1998, Langkide, 2000] II 31 / 83
  55. 55. Génération basée sur la traduction automatique [Wong and Mooney, 2007] I 32 / 83
  56. 56. Génération basée sur la traduction automatique [Wong and Mooney, 2007] I Apprentissage de probabilités d’alignements entre réalisation de surface et représentation sémantique 32 / 83
  57. 57. Génération basée sur la traduction automatique [Wong and Mooney, 2007] II Choix de la réalisation de surface qui est à la fois : – dont le sens est le plus proche de la représentation sémantique (modèle de traduction) – la mieux formée (modèle de langue : n-grammes corpus) argmax e Pr(e|f) = argmax e Pr(e)Pr(f|e) 33 / 83
  58. 58. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  59. 59. Évaluation [Reiter and Belz, 2009] 34 / 83
  60. 60. Évaluation [Reiter and Belz, 2009] Pas de technique consensuelle Trois types d’évaluation : – évaluation applicative / guidée par la tâche – évaluation basée sur des jugements humains – évaluation automatique par comparaison à une référence 34 / 83
  61. 61. Évaluation applicative Méthodologies liées à l’application finale : – faire une tâche en suivant des instructions générées – arrêter de fumer grâce à des lettres de suivi personnalisées – coût de post-édition Évaluations les plus parlantes / convaincantes Coûteuses Dépendantes du bon-vouloir des participants 35 / 83
  62. 62. Évaluation humaine Méthode : – texte noté sur plusieurs critères (échelles) . qualité globale, cohérence, contenu, organisation... – préférence entre deux textes Méthode la plus populaire Plus rapide et moins chère que l’évaluation guidée par la tâche 36 / 83
  63. 63. Évaluation automatique Méthode : – extraction des structures syntaxiques / de l’information d’un corpus écrit par un humain – (re-)génération du texte à partir des structures – comparaison via une mesure style distance d’édition, BLEU... Peu coûteuse, rapide, reproductible Utilisée pour évaluer à partir de la lexicalisation Méthode controversée pour une évaluation globale : – validité de la référence – objet de l’évaluation 37 / 83
  64. 64. Projets académiques 38 / 83
  65. 65. Projets académiques Babytalk : résumés de données cliniques sur des bébés en soins intensifs [Portet et al., 2009] Génération de prévisions météo [Belz, 2008] STOP : génération de lettre personnalisées pour arrêt tabac [Reiter et al., 2003] SKILLSUM : résumé d’évaluation de niveau d’alphabétisation [Williams and E., 2008] Générateur de blagues [Binsted et al., 1997] 38 / 83
  66. 66. Systèmes commerciaux 39 / 83
  67. 67. Systèmes commerciaux Revolusyn : content spinning avancé - www.revolusyn.com/ EasyText : commentaires de tableaux de données statistiques StatsMonkey : résumés de matches de baseball Syllabs : descriptifs de produits marchands - http ://demo.showroom.syllabs.com/generation/ Hotels Combined : résumés d’avis clients - www.hotelscombined.com/ Nomao : descriptifs de lieux 39 / 83
  68. 68. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  69. 69. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  70. 70. Contraintes Rapidité du système : éviter traitements complexes, couteux en temps Rapidité de développement : – ne coller à l’architecture théorique que si c’est nécessaire ⇒ système mixant génération « intelligente »et approches bas niveau Moteurs de recherche : – contenu unique et varié 40 / 83
  71. 71. Exemple de texte généré HÔTEL « HÔTEL DE VARENNE » À PARIS Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris... « Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème arrondissement. Cet hôtel propose des chambres disposant de tout le confort moderne (climatisation...). Il dispose d’un agréable jardin et met à disposition de ses clients un accès WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables sur Internet. Les internautes y apprécient particulièrement le service (« personnel tres aimable », « sourire du personnel », « personnel sympathique »). 41 / 83
  72. 72. Optimisation moteurs de recherche HÔTEL « HÔTEL DE VARENNE » À PARIS Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris... « Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème arrondissement. Cet hôtel propose des chambres disposant de tout le confort moderne (climatisation...). Il dispose d’un agréable jardin et met à disposition de ses clients un accès WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables sur Internet. Les internautes y apprécient particulièrement le service (« personnel tres aimable », « sourire du personnel », « personnel sympathique »). 42 / 83
  73. 73. Génération bas niveau ⇒ choix lexical aléatoire avec gestion des accords HÔTEL « HÔTEL DE VARENNE » À PARIS Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris... « Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème arrondissement. Cet hôtel propose des chambres disposant de tout le confort moderne (climatisation...). Il dispose d’un agréable jardin et met à disposition de ses clients un accès WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables sur Internet. Les internautes y apprécient particulièrement le service (« personnel tres aimable », « sourire du personnel », « personnel sympathique »). 43 / 83
  74. 74. Génération de texte intelligente HÔTEL « HÔTEL DE VARENNE » À PARIS Quelques infos sur l’hôtel « Hôtel de Varenne » à Paris... « Hôtel de Varenne » est un hôtel situé à Paris dans le 7ème arrondissement. Cet hôtel propose des chambres disposant de tout le confort moderne (climatisation...). Il dispose d’un agréable jardin et met à disposition de ses clients un accès WIFI. Hôtel de Varenne a obtenu 91% de remarques favorables sur Internet. Les internautes y apprécient particulièrement le service (« personnel tres aimable », « sourire du personnel », « personnel sympathique »). 44 / 83
  75. 75. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  76. 76. Fonctionnement du générateur de textes I 45 / 83
  77. 77. Architecture du générateur 45 / 83
  78. 78. Sélection du contenu I 46 / 83
  79. 79. Sélection du contenu I Entrée Données brutes – sélection – catégorisation – transformation – pas de raisonnement, de manipulation de concepts Sortie Données filtrées et restructurées 46 / 83
  80. 80. Sélection du contenu II DONNÉES BRUTES                           NOM : Higuma CATÉGORIE : manger restaurant asiatique japonais TAGS : carte de crédit acceptées, chèques refusés, japonais GÉOLOCALISATION : LAT : 48.871762 LONG : 2.352262 ADRESSE :  RUE : 32 Rue Saint-Anne VILLE : Paris CP : 75001   MÉTRO : LIGNE : 14 STATION : Pyramides                           CONTENU POUR GÉNÉRATION                           NOM : Higuma CATÉGORIE : restaurant :masc :sing STYLE CUISINE : japonais PAIEMENTS ACCEPTÉS : carte de crédit PAIEMENTS REFUSÉS : chèque ADRESSE :  RUE : 32 Rue Saint-Anne VILLE : Paris QUARTIER : 1                             47 / 83
  81. 81. Structuration rhétorique I 48 / 83
  82. 82. Structuration rhétorique I Entrée Données filtrées et structurées – sélection de propositions sémantiques pré-définies en fonction du contenu disponible – ordonnancement des propositions, regroupement en paragraphes thématiques – articulation des propositions par des relations de discours Sortie Plan de texte 48 / 83
  83. 83. Structuration rhétorique II NOM : Higuma CATÉGORIE : restaurant :masc :sing ⇒ SPOT_IS_A_TYPE STYLE CUISINE : japonais ⇒ COOKING_STYLE PAIEMENTS ACCEPTÉS : carte de crédit ⇒ ACCEPTED_PAYMENTS PAIEMENTS REFUSÉS : chèque ⇒ REJECTED_PAYMENTS ADRESSE :   RUE : 32 Rue Saint-Anne VILLE : Paris QUARTIER : 1   ⇒ LOC_STREET_CITY_DISTRICT 49 / 83
  84. 84. Structuration rhétorique III SPOT_IS_A_TYPE COOKING_GEOSTYLE ACCEPTED_PAYMENTS REJECTED_PAYMENTS LOC_STREET_CITY_DISTRICT ⇒ ANCRAGE #1 SPOT_IS_A_TYPE #2 LOC_STREET_CITY_DISTRICT PROPRIÉTÉS  #1 COOKING_GEOSTYLE #2 ACCEPTED_PAYMENTS #3 REJECTED_PAYMENTS   50 / 83
  85. 85. Structuration rhétorique IV Continuation #1 SPOT_IS_A_TYPE #2 LOC_STREET_CITY_DISTRICT 51 / 83
  86. 86. Structuration rhétorique V Continuation #1 CO- OKING_STYLE Contrast #2 ACCEP- TED_PAYMENTS #3 REJEC- TED_PAYMENTS 52 / 83
  87. 87. Structuration rhétorique VI pas de variation dans l’ordre des propositions règles ad hoc codées en dur 53 / 83
  88. 88. Planification syntaxique I 54 / 83
  89. 89. Planification syntaxique I Entrée Plan de texte – sélection des structures syntaxiques correspondant aux propositions sémantiques – sélection aléatoire parmi plusieurs structures possibles Sortie Structures syntaxiques à trous 54 / 83
  90. 90. Planification syntaxique II PROPER VERB Enum PREPPhr $SPOT accepte $ACCEPTED_PAYMENTS comme moyen de paiement strong ACCEPTED_PAYMENTS SUBJ OBJ CIRC 55 / 83
  91. 91. Planification syntaxique III ART_DEF NOUN le $ACCEPTED_PAYMENT Enum_ACCEPTED_PAYMENTS DET agreement 56 / 83
  92. 92. Planification syntaxique IV ART_DEF NOUN . . . ART_DEF NOUN le $ACCEPTED_PAYMENT1 le $ACCEPTED_PAYMENTN Enum_ACCEPTED_PAYMENTS DET ENUM DET agreement agreement 57 / 83
  93. 93. Planification syntaxique V 58 / 83
  94. 94. Lexicalisation I 59 / 83
  95. 95. Lexicalisation I Entrée Structures syntaxiques à trous – choix des valeurs correspondant aux variables . tags : sélection aléatoire dans lexique, fonction partie du discours imposée par structure . entités nommées : insertion de la valeur brute Sortie Structures syntaxiques lexicalisées 59 / 83
  96. 96. Lexicalisation II PROPER VERB ART_DEF NOUN PREPPhr ENTITÉ TAG $SPOT accepte le $ACCEPTED_PAYMENT comme moyen de paie ACCEPTED_PAYMENTS SUBJ OBJ DET CIRC 60 / 83
  97. 97. Lexicalisation III PROPER VERB ART_DEF NOUN PREPPhr Novotel accepte le carte visa comme moyen de paie hotel :masc :sing :fém :sing ACCEPTED_PAYMENTS SUBJ OBJ DET CIRC 61 / 83
  98. 98. Lexicalisation IV 62 / 83
  99. 99. Agrégation des structures I 63 / 83
  100. 100. Agrégation des structures I Entrée Structures syntaxiques : 1 structure ↔ 1 proposition – agrégation des structures répétitives : . sujets identiques . verbes identiques ou compatibles – ajout des frontières de phrases Sortie Phrases finales : 1 phrase → 1 ou plusieurs propositions 63 / 83
  101. 101. Agrégation des structures II Novotel accepte carte visa ACCEPTED_PAYMENTS SUBJ OBJ 64 / 83
  102. 102. Agrégation des structures III Novotel accepte carte visa Novotel refuse chèque ACCEPTED_PAYMENTS SUBJ OBJ REJECTED_PAYMENTS SUBJ OBJ 65 / 83
  103. 103. Agrégation des structures IV Novotel accepte carte visa Novotel refuse chèque SPOT_ACCEPT_PAYMENT SUBJ OBJ SPOT_REJECT_PAYMENT SUBJ OBJ sujets identiques verbes compatibles ⇒ Agrégation possible 66 / 83
  104. 104. Agrégation des structures V Novotel accepte carte visa COORD X refuse chèque ROOT COORD COORD SUBJ OBJ OBJ 67 / 83
  105. 105. Agrégation des structures VI Novotel accepte carte visa mais refuse chèque ROOT COORD COORD SUBJ OBJ OBJ CONTRASTCONTRAST 68 / 83
  106. 106. Agrégation des structures VII autres règles : – Novotel est un hotel + Novotel est situé à Paris ⇒ Novotel est un hôtel situé à Paris – Novotel dispose d’un jardin + Novotel propose des chambres avec climatisation ⇒ Novotel dispose d’un jardin et propose des chambres avec climatisation règles d’agrégation codées en dur déclaration externe : – compatibilités entre verbes – coordonnants 69 / 83
  107. 107. Génération d’expressions référentielles I 70 / 83
  108. 108. Génération d’expressions référentielles I Entrée Phrases finales – repérage des sujets répétés – remplacement par des expressions référentielles Sortie Phrases finales avec expressions référentielles 70 / 83
  109. 109. Génération d’expressions référentielles II Les Caves de la Maréchale est un restaurant localisé Rue Jules Cha SUBJ Les Caves de la Maréchale est spécialisé dans la cuisine française SUBJ Les Caves de la Maréchale a recueilli 79% de notes favorables sur restaurant :masc :sing SUBJ 71 / 83
  110. 110. Génération d’expressions référentielles III Lexique expressions référentielles : restaurant → PRO :masc :sing : il → NOUNPhr :masc :sing : ce restaurant → NOUNPhr :masc :sing : . . . Ordre d’apparition arbitraire : 1. PROPER 2. NOUNPhr aléatoire 3. PRO 72 / 83
  111. 111. Génération d’expressions référentielles IV Les Caves de la Maréchale est un restaurant localisé Rue Jules Cha Ce restaurant est spécialisé dans la cuisine française . Il a recueilli 79% de notes favorables sur Internet . 73 / 83
  112. 112. Ajustements morphologiques I 74 / 83
  113. 113. Ajustements morphologiques I Entrée Phrases avec mots à l’état de lemmes – accords – élisions – agglutinations Sortie Phrases avec formes finales des mots 74 / 83
  114. 114. Ajustements morphologiques II PROPER VERB ART_DEF NOUN PREPPhr Novotel accepte le carte visa comme moyen de paiement fém :sing ACCEPTED_PAYMENTS SUBJ OBJ DET CIRC agreement Novotel accepte la carte visa comme moyen de paiement 75 / 83
  115. 115. Ajustements morphologiques III 76 / 83
  116. 116. Ajustements morphologiques IV ce restaurant est spécialisé dans la cuisine français . fém :sing ADJ agreement ce restaurant est spécialisé dans la cuisine française . 77 / 83
  117. 117. Ajustements morphologiques V 78 / 83
  118. 118. Ajustements morphologiques VI cet hotel dispose de un bar . cet hotel dispose d’ un bar . 79 / 83
  119. 119. Mise en forme I 80 / 83
  120. 120. Mise en forme I Entrée Suite de mots – Majuscules – Espaces – Balises Sortie Texte final 80 / 83
  121. 121. Mise en forme II cet hotel dispose d’ un bar , d’ un spa et d’ un golf . Cet hotel dispose d’ un bar , d’ un spa et d’ un golf . Cet_ hotel_ dispose_ d’ un_ bar ,_ d’ un_ spa_ et_ d’ un_ golf . Cet hotel dispose d’un bar, d’un spa et d’un golf. 81 / 83
  122. 122. Mise en forme III PROPER VERB DET NOUN PART PREP PROPER « La Braisière » est un restaurant situé à Toulouse strong strong strong ROOT SUBJ PRED PRED DET PREP CPREP strong « La Braisière »/strong est un strong restaurant /strong situé à strong Toulouse /strong. 82 / 83
  123. 123. Plan 1. Contexte applicatif Présentation du produit Processus de traitement des données 2. Principes de la génération automatique de texte Introduction : applications, niveaux de complexité Fonctionnement d’un générateur de texte Évaluation et systèmes existants 3. Génération de descriptifs de lieux en contexte applicatif Contraintes liées au contexte applicatif Fonctionnement du générateur de textes Évaluation et perspectives
  124. 124. Évaluation 83 / 83
  125. 125. Évaluation Pas d’évaluation à ce jour Modes d’évaluation envisagés : – coût de post-édition – temps resté sur la page – nb de visites sur la page Indicateurs de progression : – variété – longueur – temps 83 / 83
  126. 126. Variété n-grammes de mots pleins communs entre deux textes : jaccard(n1, n2) = |n1 ∩ n2| |n1 ∪ n2| n jaccard 1 0, 17 2 0,11 3 0,7 ⇒ baisse d’environ 40% grâce à l’aléatoire 84 / 83
  127. 127. Longueur ⇒ 63 tokens / texte en moyenne ⇒ objectif : 300 tokens 85 / 83
  128. 128. Temps de génération 360 textes par seconde après optimisation Intel Xeon 3Ghz, bi-processeur, 24 cœurs 86 / 83
  129. 129. Qualité linguistique perçue HÔTEL « HÔTEL HÉLIOT » À TOULOUSE Vous souhaitez en savoir plus sur l’hôtel « Hôtel Héliot » à Toulouse ? « Hôtel Héliot » est un hôtel. Cet hôtel se situe 3 Rue Héliot à Toulouse. Il a remporté 81% de remarques favorables sur Internet. Les internautes y apprécient particulièrement le service (« patron tres sympathique », « accueil très aimable », « personnel sympathique ») et les équipements des chambres (« chambre très propre », « chambre spatieuse », « chambre agréable »). 87 / 83
  130. 130. Perspectives 88 / 83
  131. 131. Perspectives Variation : – varier l’ordre des phrases dans le plan de texte – enrichir les structures syntaxiques, le lexique Fluidité : – complexifier l’agrégation : Cet hotel, qui dispose d’un bar, a obtenu 90% de commentaires positifs. « Humaniser » : – flou : 90% de commentaires positifs → a une excellente réputation – style : dispose d’un jardin → vous pourrez vous détendre en allant faire une balade au calme dans le jardin 88 / 83
  132. 132. Merci pour votre attention estelle (a) nomao.com
  133. 133. Références I Belz, A. (2008). Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models. Natural Language Engineering, 14(4) :431–455. Belz, A. and Kow, E. (2009). System building cost vs. output quality in data-to-text generation. In Proceedings of the 12th European Workshop on Natural Language Generation, pages 16–24. Binsted, K., Pain, H., and Graeme, R. (1997). Children’s evaluation of computer-generated punning riddles. Pragmatics and Cognition, 5 :309–358. Danlos, L. and Roussarie, L. (2000). La génération automatique de textes. In Ingénierie de la langue. Pierrel, J.-M., hermès edition. Hovy, E. (1998). Automated discourse generation using discourse structure relations. Artificial Intelligence, 63 :341–385.
  134. 134. Références II Knight, K. and Langkide, I. (1998). Generation that exploits corpus-based knwoledge. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, pages 704–710. Langkide, I. (2000). Forest-based statistical sentence generation. In Proceedings of the 6th Applied Natural Language Processing Conference and the 1st Meeting of the North American Chapter of the Association of Computational Linguistics, pages 170–177. Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., and Sykes, C. (2009). Generation of textual summaries from neonatal intensive care data. Artificial Intelligence, 173 :789–816. Reiter, E. and Belz, A. (2009). An investigation into the validity of some metrics for automatically evaluating natural language generation systems. Computational Linguistics, 35(4) :529–558.
  135. 135. Références III Reiter, E., Roma, R., and Liesl, O. (2003). Lessons from a failure : Generating tailored smoking cessation letters. Artificial Intelligence, 144 :41–58. Williams, S. and E., R. (2008). Generating basic skills reports for low-skilled readers. Natural Language Engineering, 14 :41–58. Wong, Y. and Mooney, R. (2007). Generation by inverting a semantic parser that uses statistical machine translation. In Proceedings of Human Language Technologies : The Annual Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, pages 172–179.

×