Université catholique de Louvain          Faculté de Philosophie, Arts et Lettres  G ÉNÉRATION AUTOMATIQUE DEQ UESTIONS À ...
R EMERCIEMENTS   Au moment de conclure ce mémoire, et de facto mes cinq années d’études, jetiens à adresser quelques remer...
On ne réalise heureusement pas ses études tout seul et si j’ai pu passerd’agréables moments sur les bancs des auditoires –...
TABLE DES MATIÈRESRemerciements                                                                             3Introduction ...
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    462 Génération automatique et généra...
4.2.2 Présentation générale de l’algorithme . . . . . . . . . . . . . .          89       4.2.3 Structure de base d’une rè...
8.1.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140   8.2 Génération de paraphrases sur les q...
« Le savant n’est pas l’homme qui fournit lesvraies réponses, c’est celui qui pose les vraies                             ...
I NTRODUCTION
Si le domaine des systèmes de questions-réponses 1 – consistant en la recherched’une réponse à une question donnée à parti...
un système performant. Dès lors, le présent travail se compose de trois parties,articulées selon une dynamique temporelle ...
parallèle avec la citation de Lévi-Strauss qui ouvre ce mémoire est dès lors établi etpourrait constituer un bon slogan po...
P REMIÈRE PARTIE É TAT DE L’ ART
Dans cette partie, nous présentons un état de l’art de la génération automa-tique de questions. Le premier chapitre propos...
CHAPITRE 1                    LA NOTION DE QUESTION : DÉFINITION,                                         TYPOLOGIE ET STR...
déclaratives en phrases interrogatives.  Le but de ce chapitre est d’obtenir une définition exhaustive de la notion dequest...
– Point de vue linguistique : la classification passe outre le sens pour se baser      sur la forme et la structure des que...
peut-être oui ou non, des phrases interrogatives partielles, pour lesquelles       l’interrogation porte sur un élément qu...
Ils constituent en effet les éléments les plus importants qui doivent composer lepremier paragraphe d’un article (Pomerant...
La typologie de Lehnert est reprise en français dans le tableau 1.2.               Catégorie                   Exemple    ...
et capacité) alors qu’elles pourraient toutes les trois être classées dans la      catégorie procédure.          (9) Comme...
– Autres                 (19) Quel traité a été signé en 1979 ? Le traité de paix entre                 Israël et Égypte  ...
Une typologie axée sur la question   Zock et Mitkov (1991) reprochent à ces typologies d’être davantage axées surles répon...
Temps                   Quelle heure est-il à Londres ?                             Âge                     Quel âge a-t-i...
1.1.3 Synthèse : une classification « mixte »  Nous avons relevé deux types de classification, l’une axée sur un point de vu...
wh-word              Concept                     Exemple  Qui                  Personne                    Qui a offert ce...
1.2 La question d’un point de vue formel   Dans cette section, nous étudions la question à un niveau plus grammatical.Nous...
et la tournure est-ce que semblent être de bons indicateurs pour déterminerqu’une phrase donnée est interrogative. Tout en...
(36) Luc va vers Lyon → Vers où Luc va-t-il ?            (37) Luc est dans le jardin → Où Luc est-il ?    Les mots interro...
Le choix entre qui, que et quoi  Le choix entre ces trois pronoms n’est pas anodin et mérite d’être expliqué dansune étude...
Dans tous les autres cas, le choix entre ces termes est déterminé par le caractèreanimé ou inanimé du mot qu’il remplace. ...
Par ces deux exemples, les auteurs montrent que le choix de l’interrogatif estloin d’être évident et que les contraintes q...
Dans certains cas par ailleurs, le verbe se voit modifié avec l’inversion :      – À la première personne du singulier de l...
(55) Jean est parti parce qu’il était malade → Pourquoi Jean est-il                  parti ?   5. Dans tous les autres cas...
(61) Est-ce que Jean est revenu ? Sont-ce que les enfants sons reve-          nus ? Sera-ce que Jean reviendra ?   L’utili...
1.3 De la déclarative à l’interrogative : les règles trans-       formationnelles de Langacker  Dans la lignée des travaux...
Langacker formalise cette transformation en trois règles successives. Danscelles-ci, chaque élément de la phrase est repré...
3. Ellipse du sujet si celui-ci est un pronom                 *T7 :   X   NP    V    NP    Y      ⇒       1   3   4     5 ...
De ces trois cas, résulte la règle suivante :            T3 :    wh     X     (P) DET     Y Z      ⇒     3   1+4    5   2 ...
différence tient au fait que la séquence quel + Nom est ici remplacée par les pro-noms Qui, que ou quoi en fonction du car...
*T6 :   (P)   wh + quelque     [+PRO]   (NP)   V   (NP)   X⇒    12     3       4567                                  [+SG]...
Ces questions acceptent l’inversion simple et l’inversion complexe et ne néces-sitent pas l’ajout de nouvelle règles par r...
système doit être capable générer et, d’autre part, de définir formellement laphrase interrogative, en la distinguant des p...
une base linguistique pertinente à la génération automatique de questions. Lechapitre suivant, consacré au domaine de la g...
CHAPITRE 2         GÉNÉRATION AUTOMATIQUE ET GÉNÉRATION                                     AUTOMATIQUE DE QUESTIONS   Le ...
2.1 La génération automatique de textes   Danlos et Roussarie (2000) définissent le domaine de la manière suivante :     « ...
logie, le générateur Gen-Tonic produit un résumé adapté aux préférences      de l’utilisateur – longueur, focus sur une éq...
Reiter et Dale (1997) proposent des schémas comparables que nous synthétisonsci-dessous. La figure 2.1, tirée d’un article ...
3. La formulation prend en entrée les arbres syntaxiques lexicalisés et génère   la forme de surface des différentes phras...
MACROPLANIFICATION                               Détermination du contenu                                Structuration du ...
actuels implémentent le modèle présenté (Danlos et Roussarie, 2000).Apports  La génération automatique de textes présente ...
Claude Ponton (1997) évoque le manque de portabilité des systèmes actuelsqui sont « fortement liés à leur application et c...
locuteurs qui doivent choisir parmi plusieurs propositions le sens correct     pour un mot donné.   – Systèmes de dialogue...
procédons de manière empirique. Nous partons de la présentation d’outils exis-tants, constituant « l’état de l’art » en gé...
Fonctionnement du système   Un paragraphe est soumis à la lecture de l’étudiant. Une phrase de ce para-graphe est sélectio...
Résultats  Le système a été évalué sur 50 questions générées. Parmi celles-ci, 34 ont étéjugées satisfaisantes. Les 16 aut...
3. Transformation de l’arbre à l’aide de règles Tsurgeon (voir 3.2) écrites à la      main, le but étant de baliser la rép...
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Prochain SlideShare
Chargement dans…5
×

Génération automatique de questions à partir de textes en français

2 469 vues

Publié le

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 469
Sur SlideShare
0
Issues des intégrations
0
Intégrations
40
Actions
Partages
0
Téléchargements
51
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Génération automatique de questions à partir de textes en français

  1. 1. Université catholique de Louvain Faculté de Philosophie, Arts et Lettres G ÉNÉRATION AUTOMATIQUE DEQ UESTIONS À PARTIR DE T EXTES EN F RANÇAIS Mémoire présenté par L OUIS DE V IRON en vue de l’obtention du diplôme de M ASTER EN L INGUISTIQUEà finalité spécialisée en Traitement Automatique du Langage P ROMOTEUR : D R . R ICHARD B EAUFORT Année académique 2010-2011
  2. 2. R EMERCIEMENTS Au moment de conclure ce mémoire, et de facto mes cinq années d’études, jetiens à adresser quelques remerciements aux personnes qui m’ont aidé à faire de cette période un passage inoubliable, tant sur le plan personnel que sur le plan académique. Je remercie d’abord Monsieur Richard Beaufort, mon promoteur, pour ces deuxannées de collaboration qui ont abouti au présent travail. Ses nombreux conseils, ses remarques, son souci de la perfection et les entretiens qu’il m’a accordésm’ont beaucoup appris et j’espère qu’ils auront contribué à faire de ce mémoire un travail de qualité. Je tiens également à exprimer ma profonde gratitude à Mesdames Delphine Bernhard et Véronique Moriceau, ainsi qu’à Monsieur Xavier Tannier pour leurencadrement d’une qualité exceptionnelle durant les deux mois de stage passésau LIMSI. Leurs conseils et encouragements à aller de l’avant m’ont énormémentstimulé et fait progresser. Je remercie aussi tous les membres du groupe ILES pour l’agréable accueil qu’ils m’ont réservé parmi eux. Merci à Mademoiselle Alice Bardiaux pour sa relecture attentive de ce travail et à Monsieur Michael Zock pour ses précieux conseils critiques. Si ces deux années de master en linguistique furent un succès pour moi et une si bonne formation, je le dois également à un encadrement de qualité. C’estpourquoi je tiens à remercier Messieurs Sébastien Combéfis, Thomas François et Hubert Naets pour leur disponibilité à toute épreuve. Je remercie également Mademoiselle Louise-Amélie Cougnon de m’avoir proposé une première immersion professionnelle dans le monde du TAL, et lesautres membres du CENTAL qui m’ont chaleureusement accueilli parmi eux pourmon baptême de feu dans le monde de la recherche en juin dernier à Montpellier. 3
  3. 3. On ne réalise heureusement pas ses études tout seul et si j’ai pu passerd’agréables moments sur les bancs des auditoires – et en dehors – durant ces deux années de master, je le dois à mes fidèles camarades de promotion Florence,Stéphanie, Cédric et Denis. Merci à vous pour cette entraide et l’amitié que nous avons pu nouer dans l’« adversité ». Je m’en voudrais d’oublier tous ceux qui ont partagé ma vie estudiantine et quiont collaboré à mon accomplissement extra-académique durant ces cinq années.Je pense à mes amis du Campagnol, du Cercle FLTR, de l’ANLO, de la Schola, desBlancs Chevaux, d’UTUC, à mes Amis de La Rue, et plus particulièrement à tous ceux qui ont accompagné mon quotidien, à la Rue des Sports et à La Coquille. Enfin, j’adresse mon dernier – et non le moindre – remerciement à Brieuc,Aymeric et Éléonore pour leur complicité fraternelle ainsi qu’à mes parents, qui m’ont donné la chance inestimable d’entamer des études et les moyens de les achever, grâce à un soutien sans faille et une écoute toujours attentive. Louis de Viron Août 2011 4
  4. 4. TABLE DES MATIÈRESRemerciements 3Introduction 12I État de l’art 171 La notion de question : définition, typologie et structure 19 1.1 Définition et typologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.1.1 Classification linguistique . . . . . . . . . . . . . . . . . . . . . 21 1.1.2 Catégorisation conceptuelle . . . . . . . . . . . . . . . . . . . 23 1.1.3 Synthèse : une classification « mixte » . . . . . . . . . . . . . . 29 1.2 La question d’un point de vue formel . . . . . . . . . . . . . . . . . . 31 1.2.1 Le marquage des questions . . . . . . . . . . . . . . . . . . . . 31 1.2.2 Les mots interrogatifs . . . . . . . . . . . . . . . . . . . . . . . 32 1.2.3 L’inversion sujet-verbe . . . . . . . . . . . . . . . . . . . . . . . 36 1.3 De la déclarative à l’interrogative : les règles transformationnelles de Langacker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5
  5. 5. 1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 Génération automatique et génération automatique de questions 49 2.1 La génération automatique de textes . . . . . . . . . . . . . . . . . . 50 2.2 La génération automatique de questions . . . . . . . . . . . . . . . . 56 2.2.1 Les débuts : Les travaux de John Wolfe . . . . . . . . . . . . . 58 2.2.2 Une étude de Donna Gates . . . . . . . . . . . . . . . . . . . . 60 2.2.3 Heilman et Smith et l’apport de la simplification . . . . . . . 62 2.2.4 Kalady et l’apport des questions définitoires . . . . . . . . . . 64 2.2.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.3 Confrontation des deux domaines . . . . . . . . . . . . . . . . . . . . 67 2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70II Implémentation d’un outil de génération automatique dequestions pour le français 733 Présentation des outils utilisés 75 3.1 XIP : un analyseur syntaxique robuste . . . . . . . . . . . . . . . . . . 75 3.2 Tregex et Tsurgeon : manipulation d’arbres syntaxiques . . . . . . . 77 3.2.1 Tregex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.2.2 Tsurgeon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.2.3 Intérêt pour notre démarche . . . . . . . . . . . . . . . . . . . 80 3.3 Morflex : un fléchisseur morphologique . . . . . . . . . . . . . . . . . 81 3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824 Architecture du système 83 4.1 Pré-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2 Le générateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.2.1 Typologie des questions générées . . . . . . . . . . . . . . . . 87 6
  6. 6. 4.2.2 Présentation générale de l’algorithme . . . . . . . . . . . . . . 89 4.2.3 Structure de base d’une règle . . . . . . . . . . . . . . . . . . . 89 4.2.4 Détail des différentes règles . . . . . . . . . . . . . . . . . . . . 90 4.2.5 Traitement des inversions . . . . . . . . . . . . . . . . . . . . . 93 4.3 Post-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 955 Évaluation 97 5.1 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.2 Résultats et interprétations . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1106 Conclusion : apports et limites 113III Perspectives 1157 Problèmes rencontrés et solutions envisagées 117 7.1 Problèmes typographiques . . . . . . . . . . . . . . . . . . . . . . . . 117 7.2 Erreurs dues à l’analyseur . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.3 Questions bruitées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1268 Une plus grande variété de questions 129 8.1 Élargissement de la typologie . . . . . . . . . . . . . . . . . . . . . . . 130 8.1.1 Questions en quel . . . . . . . . . . . . . . . . . . . . . . . . . . 130 8.1.2 Questions de quantité et de mesure . . . . . . . . . . . . . . . 134 8.1.3 Questions introduites par pourquoi . . . . . . . . . . . . . . . 136 8.1.4 Questions introduites par comment . . . . . . . . . . . . . . . 138 8.1.5 Questions sur les sigles et les acronymes . . . . . . . . . . . . 139 7
  7. 7. 8.1.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 8.2 Génération de paraphrases sur les questions . . . . . . . . . . . . . . 141 8.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145Conclusion générale 147Bibliographie 153Table des figures 163Liste des tableaux 165Annexes 167A Typologie des règles de simplification 169B Corpus d’évaluation 171 8
  8. 8. « Le savant n’est pas l’homme qui fournit lesvraies réponses, c’est celui qui pose les vraies questions. » Claude L ÉVI -S TRAUSS
  9. 9. I NTRODUCTION
  10. 10. Si le domaine des systèmes de questions-réponses 1 – consistant en la recherched’une réponse à une question donnée à partir d’une collection de documents –est aujourd’hui en pleine expansion dans le monde du Traitement Automatiquedu Langage (TAL), celui de la génération automatique de questions (GAQ) 2 estlargement moins populaire, du moins dans le monde francophone. En effet, alorsque de nombreuses recherches dans ce domaine ont été entamées pour l’anglais,la littérature ne recense aucun article traitant de cette problématique en français,à l’exception d’un travail d’étudiant introductif (Brette et Lescuyer, 2006). La génération automatique de questions à partir de textes, dans sa forme ac-tuelle, consiste en la transformation de phrases déclaratives en phrases interro-gatives et constitue globalement l’opération inverse des systèmes de questions-réponses. Grossièrement, elle part d’une réponse donnée sous forme de phrasepour formuler la question correspondante. La tâche est complexe et mobiliseun grand nombre de ressources et outils du TAL, comme l’analyse syntaxique, larésolution d’anaphores, la reconnaissance d’entités nommées ou encore la sim-plification de texte. Les domaines d’application de ce type d’outil sont par ailleursvariés et souvent motivés par un but pédagogique. Outre la création de tests et dequestionnaires à choix multiples, la génération automatique de questions peutégalement servir à améliorer les systèmes de dialogue homme-machine ou lessystèmes de questions-réponses interactifs. Notre mémoire se situe dans le contexte d’absence de ressources satisfaisantesen français. Notre objectif est de proposer une méthodologie pour générer desquestions en français qui puisse mener à la création d’un outil concret. Pour cefaire, une large réflexion théorique préalable est nécessaire pour implémenter 1. eng. : Question Answering (QA). 2. eng. : Question Generation (QG). 13
  11. 11. un système performant. Dès lors, le présent travail se compose de trois parties,articulées selon une dynamique temporelle que l’on pourrait qualifier de « passé-présent-futur ».Le passé. La première partie, intitulée état de l’art, définit le cadre théorique denotre objet d’étude. Nous y posons les réflexions préalables à l’implémentationd’un générateur de questions. D’une part, nous étudions en profondeur la notionde question. D’autre part, nous présentons le domaine de la génération automa-tique de questions à travers une comparaison avec la génération automatique detextes et un état de l’art de la discipline qui présente les principaux outils existantsen anglais.Le présent. La deuxième partie présente l’implémentation d’un générateur au-tomatique de questions pour le français. Elle fait suite à des travaux réalisés en2010 dans le cadre d’un stage de deux mois au LIMSI, sous l’encadrement deDelphine Bernhard, Xavier Tannier et Véronique Moriceau. Nous y développonsen détail notre méthodologie et exposons les résultats que nous avons obtenus,après les avoir soumis à une évaluation.Le futur. La troisième partie suggère des pistes de réflexions pour les éventuelsdéveloppements futurs de notre travail. Nous nous basons sur les limites soulevéespar l’évaluation pour identifier les problèmes majeurs et proposer des solutionspour y remédier. En outre, nous exposons des améliorations supplémentaires quimériteraient d’être implémentées pour rendre le générateur plus performant etplus complet. Par ce travail, nous espérons montrer l’intérêt de la génération automatiquede questions, souvent effacée au profit des systèmes de questions-réponses. Le 14
  12. 12. parallèle avec la citation de Lévi-Strauss qui ouvre ce mémoire est dès lors établi etpourrait constituer un bon slogan pour résumer notre travail si elle était traduitede la manière suivante : « Le meilleur système n’est pas celui qui fournit les vraies réponses, c’est celui qui pose les vraies questions. » Nous n’irons pas si loin et notre intention n’est évidemment pas de provoquerles chercheurs en questions-réponses, mais bien de montrer que la générationautomatique de questions est bel et bien un domaine qui mérite qu’on s’y attardequelque peu. Telle est la raison d’être de ce mémoire. 15
  13. 13. P REMIÈRE PARTIE É TAT DE L’ ART
  14. 14. Dans cette partie, nous présentons un état de l’art de la génération automa-tique de questions. Le premier chapitre propose une large réflexion sur la notionde question, que nous abordons selon deux points de vue principaux, en défi-nissant d’une part une typologie des questions et d’autre part leur structure àun niveau plus formel, tout en s’interrogeant sur les mécanismes mobilisés pourpasser d’une phrase déclarative à une phrase interrogative. Nous nous intéressonsensuite au domaine de la génération automatique et au statut particulier querevêt la génération de questions au sein de celui-ci. Nous présentons différentesméthodologies utilisées en génération automatique de questions tout en réfléchis-sant à ses différents domaines d’application, montrant que ce domaine d’étudesest susceptible de donner lieu à de nombreuses applications concrètes. 18
  15. 15. CHAPITRE 1 LA NOTION DE QUESTION : DÉFINITION, TYPOLOGIE ET STRUCTURE Les phrases interrogatives ont fait l’objet de nombreuses études, notammenten linguistique, en psychologie cognitive et en sciences de l’information et de ladocumentation (Pomerantz, 2005 ; Moignet, 1966 ; Jacques, 1981). En traitementautomatique du langage, la recherche sur ce thème s’est surtout concentrée surle développement des systèmes de questions-réponses, donnant lieu à de nom-breuses tentatives de typologies (Lehnert, 1978 ; Zock et Mitkov, 1991 ; Diekemaet al., 2003 ; Dang et al., 2006 ; Giampiccolo et al., 2007 ; Moriceau et al., 2010). Dans ce chapitre, après une première définition très générale de la notionde question, nous parcourons la littérature en vue d’établir une typologie dequestions qui puisse servir de base à la génération automatique. Nous étudionsensuite la question d’un point de vue plus formel en examinant ce qui la définitsyntaxiquement et la distingue des phrases déclaratives. Enfin, nous présentonsun système de règles écrit par Langacker (1965) pour transformer des phrases 19
  16. 16. déclaratives en phrases interrogatives. Le but de ce chapitre est d’obtenir une définition exhaustive de la notion dequestion, qui a pour vocation de constituer une base théorique pertinente pour lagénération automatique.1.1 Définition et typologie Le Bon Usage (Grevisse et Goosse, 2007) définit la phrase interrogative de lamanière suivante : « Par la phrase interrogative, on demande une information à l’interlocuteur. »Complétant cette définition basique, les auteurs relèvent quatre types de ques-tions : – disjonctive : la question énonce une alternative (Tu sors ou je te sors ?) – fictive : la question n’appelle pas de réponse (Qui sait ?) – oratoire : on admet comme évidente la réponse à la question (Ne vous avais- je pas averti ?) – délibérative : le locuteur s’adresse à lui-même (Que faire à présent ?) Zock et Mitkov (1991) notent que l’on peut classer les questions selon différentspoints de vue. Ils en relèvent trois : – Point de vue pragmatique, fonctionnel : ce point de vue fait référence à la théorie des actes de langage (Searle, 1995 ; Austin, 1999). Les questions sont classées selon l’acte qu’elles accomplissent. Néanmoins, cette théorie est très descriptive et peu applicable concrètement dans un système de génération. Nous ne l’abordons pas dans le cadre de ce travail. 20
  17. 17. – Point de vue linguistique : la classification passe outre le sens pour se baser sur la forme et la structure des questions. – Point de vue conceptuel : la typologie se base sur l’objet de la question (lieu, temps...). Cette section traite des classifications linguistique et conceptuelle en parcourantles travaux de quelques auteurs qui s’y sont intéressés. Nous mettons en exerguel’intérêt et la complémentarité de l’une et l’autre approche dans le cadre de lagénération automatique de questions.1.1.1 Classification linguistique Le Bon Usage (Grevisse et Goosse, 2007) opère deux distinctions au sein desquestions, menant à une première typologie basique : 1. Il oppose les phrases interrogatives directes, de forme interrogative (1) et les interrogatives indirectes qui sont contenues dans une phrase énoncia- tive, injonctive ou interrogative et introduites par un verbe de demande (2). (1) Reviens-tu demain à la maison ? (2) Il se demande si tu reviens demain à la maison. Dans le cadre de ce travail, nous laissons de côté ce deuxième type d’interro- gative pour se concentrer sur la formation des questions, entendues comme des phrases interrogatives directes. Dorénavant, nous utilisons indifférem- ment les termes question et phrase interrogative par souci de simplicité. 2. À l’instar de Danjoux-Flaux et Dessaux (1976), Le Bon Usage distingue les phrases interrogatives globales ou totales (exemple 3) 1 , dont la réponse 1. La littérature use indifféremment des appellations globales et totales. 21
  18. 18. peut-être oui ou non, des phrases interrogatives partielles, pour lesquelles l’interrogation porte sur un élément que le locuteur ignore (exemple 4) 2 . (3) Reviens-tu demain ? (4) Quand reviens-tu ? Le tableau 1.1 synthétise cette opposition sur la base de différents paradigmes. Question totale Question partielle Mot interrogatif / pronom (qui, que, quoi, lequel, combien) déterminant (quel, combien de) adverbe (comment, où, pourquoi, quand) Tournure est-ce en tête de phrase en tête de phrase, précédée du mot que interrogatif Portée de l’inter- sur le verbe (éventuellement en re- sur un élément que le locuteur rogation lation avec un autre élément) ignore Réponse oui/non conforme à l’interrogatif utilisé Ex : Où va-t-il ? À Bruxelles (où - lieu) Intonation montante en partie descendante TABLEAU 1.1 – L’opposition questions totales - questions partielles Certains auteurs ont également proposé de classifier les questions selon leurmot interrogatif. On parle alors de classification en wh-words. Cette classificationregroupe tous les interrogatifs anglais commençant par wh- (who, what, which,when, where, why), ainsi que l’adverbe interrogatif how 3 . Robinson et Rackraw(1972a ; 1972b) définissent ces mots comme le panel complet des mots lexicauxmarqués interrogativement et qui peuvent être utilisés dans un environnement lin-guistique similaire. Ces wh-words sont beaucoup utilisés en théorie journalistique. 2. Dans le domaine des systèmes de questions-réponses, on utilise également les oppositions« booléennes/factuelles » et « fermées/ouvertes ». 3. Les correspondants français de ces mots sont : qui, que/quoi, quel, quand, où, pourquoi etcomment. 22
  19. 19. Ils constituent en effet les éléments les plus importants qui doivent composer lepremier paragraphe d’un article (Pomerantz, 2005). Avec ces sept mots, une autre typologie de questions se dégage. Certes, toutesles questions ne s’y retrouvent pas – les questions totales, par exemples, sontmises de côté – et cette typologie n’est donc pas exhaustive, mais elle offre undébut de classification intéressant. Zock et Mitkov (1991) envisagent les limites de ce type de classification, relevantl’ambiguïté possible de ces mots interrogatifs. Ils donnent l’exemple du motcomment qui peut renvoyer à un état (5), à une méthode (6), à la valeur d’unattribut (7) ou encore ou à des éléments plus spécifiques, comme par exemple unmoyen de transport (8). (5) Comment vas-tu ? (6) Comment as-tu résolu ce problème ? (7) Comment est ta maison, rouge ou blanche ? (8) Comment es-tu venu, en train ou à vélo ?1.1.2 Catégorisation conceptuelle Lehnert (1978) introduit la notion de focus pour établir une catégorisationconceptuelle des questions. Elle définit le focus comme le concept qui incarnel’attente d’information exprimée par la question et postule que, tant que son focusn’est pas déterminé, une question ne peut être comprise clairement. Exemple : dans la question « Où est né Barack Obama ? », tant que le focus « compléter un concept » n’est pas clairement déterminé par l’interlocuteur ou la machine qui doit fournir la réponse, la question n’est pas comprise et la réponse adéquate ne peut être fournie. 23
  20. 20. La typologie de Lehnert est reprise en français dans le tableau 1.2. Catégorie Exemple 1 Antécédent causal Pourquoi Jean a-t-il quitté Paris ? 2 Orientation vers un but Pourquoi Marie a-t-elle acheté ce livre ? 3 Capacité Que doit-il faire pour gagner ? 4 Conséquence causale Que s’est-il passé après qu’il est parti ? 5 Vérification Est-il vraiment parti ? 6 Disjonction Est-il à Londres ou à Glasgow ? 7 Procédure Comment dois-je faire pour te rejoindre ? 8 Compléter un concept Quand est-il arrivé ? 9 Attente Pourquoi n’est-il pas parti ? 10 Jugement Que devrait-il faire pour survivre ? 11 Quantification Combien de personnes étaient présentes ? 12 Spécification d’un élément De quelle couleur sont ses yeux ? 13 Requête Peux-tu me passer le sel ? TABLEAU 1.2 – La typologie conceptuelle de Lehnert Graesser (1994) ajoute à cette typologie les cinq catégories reprises dans le ta-bleau 1.3. Notons que la catégorie assertion correspond aux phrases interrogativesindirectes que nous avons décidé de ne pas traiter dans le cadre de ce travail. Catégorie Exemple 1 Comparaison Dans quelle mesure ces deux villes sont- elles comparables ? 2 Définition Qu’est-ce qu’une onde magnétique ? 3 Exemple Qu’y a-t-il comme exemple de cette théo- rie ? 4 Interprétation Que s’est-il passé hier ? 5 Assertion J’ai besoin de savoir quelle est ta taille. TABLEAU 1.3 – Les cinq catégories additionnelles de Graesser Zock et Mitkov (1991) avancent quatre objections à la typologie de Lehnert : 1. Certaines catégories méritent d’être affinées. Quantification, par exemple, devrait comprendre les sous-catégories durée, fréquence... 2. Certaines catégories sont trop précises. Les questions 9, 10 et 11 seraient par exemple classées dans trois catégories différentes (jugement, procédure 24
  21. 21. et capacité) alors qu’elles pourraient toutes les trois être classées dans la catégorie procédure. (9) Comment t’es-tu arrangé avec John ? (10) Comment John a retrouvé son livre ? (11) Comment allons-nous manger ce soir ? 3. La catégorie compléter un concept est trop large pour définir les wh-questions. En effet, toute question, à part les questions totales, demande une complé- tion de concept. 4. Le métalangage, i.e. les explications relatives à la typologie et au choix des ca- tégories, est parfois trop exotique pour convenir à un locuteur quelconque. La campagne d’évaluation de systèmes de questions-réponses CLEF 4 établitune autre typologie de questions, plus générale. Trois types sont relevés et divisésen sous-catégories (Giampiccolo et al., 2007). Ces catégories se basent sur le typede réponse attendue à la question posée : 1. Questions factuelles : questions basées sur des faits – Personne (12) Qui est le président français ? Nicolas Sarkozy – Temps (13) Quand est mort Jean-Paul II ? En 2005 – Lieu (14) Où est né Mozart ? À Salzbourg – Organisation (15) À quel parti appartient Didier Reynders ? Au Mouvement Réformateur – Mesure (16) Quelle hauteur fait la tour Eiffel ? 324 mètres – Nombre (17) Combien d’habitants y a-t-il en Belgique ? 10 827 519 – Objet (18) De quoi est faite une table ? De bois 4. http://clef-campaign.org 25
  22. 22. – Autres (19) Quel traité a été signé en 1979 ? Le traité de paix entre Israël et Égypte 2. Questions définitoires : questions de type Qui/Qu(e) est X ? – Personne (20) Qui est Robert de Niro ? Un acteur de cinéma – Organisation (21) Qu’est-ce que la Douma ? Le parlement russe – Objet (22) Qu’est-ce qu’une assiette ? Un plat dans lequel on mange – Autres (23) Qu’est-ce que l’Eurovision ? Un concours de musique 3. Questions listes : questions qui requièrent une réponse contenant un nombre déterminé d’unités (24) Quels sont les aéroports de Londres ? Gatwick, Stansed, Heathrow, Luton et City Dans un article traitant des « questions complexes » (Moriceau et al., 2010), lesauteurs complètent cette typologie. Outre les catégories factuelle – qu’ils défi-nissent comme regroupant les questions globales et celles portant sur des entités– et définition 5 , ils mettent au jour deux nouvelles catégories : 1. Opinion (25) Que vous inspire ce film ? 2. Explication – Processus ou séquence de processus : correspond à la majorité des questions en comment (26) Comment faire une note de bas de page en LTEX ? A – Conséquence ou liste de conséquences : (27) Que provoque le gel sur les routes ? – Raison ou liste de raisons : correspond aux questions en pourquoi – Cause (28) Pourquoi un chercheur gagne-t-il moins qu’un trader ? – But (29) Pourquoi le gouvernement a-t-il prêté de l’argent aux banques ? – Obligation (30) Pourquoi doit-on obéir aux lois ? 5. Ils ne traitent pas dans l’article des questions de type liste. 26
  23. 23. Une typologie axée sur la question Zock et Mitkov (1991) reprochent à ces typologies d’être davantage axées surles réponses que sur les questions. Ils veulent pouvoir s’affranchir de la réponseet identifier le type d’élément sur lequel porte la question. À terme, l’intérêt estde créer un système sur la base de cette typologie qui permet à un utilisateurd’interagir librement avec une base de données. La démarche se situe donc dansune optique de génération de questions, davantage que les classements présentésjusqu’ici, comme l’indique la citation suivante : « Our goal [...] is not to specify how to answer a question, but how to ask it. To this end we need to make a taxonomy of questions. » (Zock et Mitkov, 1991) La taxonomie proposée est très fine. Elle ne traite par contre que des questionsportant sur un élément et non des questions portant sur des phrases entières,comme les questions globales. Les auteurs relèvent 14 grands types de questions,divisés chacun en catégories plus fines. Cette typologie est présentée dans letableau 1.4. Les exemples sont présents pour donner une indication de la structurede ces types de questions et des éléments qui doivent s’y trouver (préposition,mot interrogatif, sujet animé ou inanimé...). Type Sous-Type Exemple Question-rôle Agent-Objet Qui as-tu vu ? Co-agent Avec qui es-tu venu ? Bénéficiaire- À qui as-tu offert ce cadeau ? Destination Source De qui as-tu reçu ce cadeau ? Moyens-Instruments Qu’a-t-il utilisé pour creuser ? Instrumentalité Avec quoi vais-je creuser ? Possesseur-Relation À qui appartient ce livre ? À qui est cet enfant ? Question-évènement Évènement Qu’est-ce qu’il s’est passé ? Action Qu’a-t-il fait ? Spécification d’un trait Identité Quel est ton nom ? Origine D’où vient-il ? 27
  24. 24. Temps Quelle heure est-il à Londres ? Âge Quel âge a-t-il ? Taille Quelle est la taille de cette personne ? Couleur Quelle est la couleur de cette maison ? Prix Combien coûte cette moto ?Question de degré Vitesse À quelle vitesse roule-t-il ? Âge Quel âge a-t-il ?Question de manière (ac- Comment a-t-il dormi ?tion)Spécification (choix d’un Quel est le plus intelligent des deux ?élément parmi d’autres)Quantité Longueur De quelle longueur est ce lac ? Fréquence À quelle fréquence cela arrive-t-il ? Distance À quelle distance se situe Istanbul ? Intelligence À quel point John est-il intelligent ? État émotionnel À quel point l’aimes-tu ?Question spatiale Emplacement Où habites-tu ? Direction-Destination Où vas-tu ? Source-Origine D’où viens-tu ? Contenance Dans quoi gardez-vous le beurre ?Question temporelle Point À quelle heure décolle ton avion ? Unité de temps Quel jour sommmes-nous ? Fréquence À quelle fréquence prends-tu le train ? Durée Depuis combien de temps travailles- tu ? Passé-Présent Depuis quand travailles-tu ? Point final Jusque quand travailles-tu ?Raison Cause Pourquoi a-t-elle quitté son emploi ? Motivation Pourquoi veux-tu faire ça ? Convention Pourquoi dit-on « merci » ?Hypothèse Conséquence Que se passe-t-il si je fais ça ?Condition Quand pourrai-je dormir ?Méthode Comment résoudre ce problème ?Structure et fonctionne- Comment est organisé ce pays ?ment Comment éteindre l’ordinateur ? TABLEAU 1.4 : La Typologie de Zock et Mitkov 28
  25. 25. 1.1.3 Synthèse : une classification « mixte » Nous avons relevé deux types de classification, l’une axée sur un point de vuelinguistique et l’autre basée sur un point de vue conceptuel. Ces deux axes derecherche apportent chacun leurs éléments intéressants, mais ne sont pas contra-dictoires pour autant. Afin de montrer la complémentarité des deux approches,nous les avons synthétisées pour proposer une typologie « mixte » en établissantune catégorisation conceptuelle au sein d’une classification linguistique, baséesur les wh-words. Dans une optique de développement d’un système de règles degénération, nous pensons que les wh-words sont un point de départ intéressanten ce sens qu’ils réalisent globalement toutes les fonctions syntaxiques possiblesdans une phrase donnée 6 . Nous affinons ensuite cette première catégorisation enassociant à chacun de ces mots interrogatifs les concepts qui leur correspondent.De cette manière, chaque concept est relié au mot interrogatif approprié. Cettetypologie est reprise dans le tableau 1.5. Une catégorie est ajoutée afin de prendreen compte les questions globales, qui ne contiennent pas de mot interrogatif. 6. Nous incluons pour chaque wh-word la possibilité d’être précédé d’une préposition. 29
  26. 26. wh-word Concept Exemple Qui Personne Qui a offert ce cadeau à Pierre ? Que/Quoi Définition Qu’est-ce qu’une onde ? Matière De quoi est faite cette table ? Opinion Qu’en penses-tu ? Conséquence Que provoque le gel sur les routes ? Évènement Que s’est-il passé samedi ? Action Qu’a-t-il fait de mal ? Quand Point temporel fixe Quand est né Barack Obama ? Fréquence Quand prends-tu le train ? Passé-Présent Depuis quand travailles-tu ? Présent-Futur Jusque quand travailles-tu ? Où Emplacement Où habites-tu ? Source-Origine D’où viens-tu ? Direction-Destination Où vas-tu ? Pourquoi Cause Pourquoi a-t-elle quitté son emploi ? But Pourquoi roule-t-il si vite ? Convention-obligation Pourquoi doit-on dire « merci » ? Comment Procédure Comment faut-il écrire une lettre ? Structure Comment est organisé ce pays ? Spécification d’un élément Comment est cette fille ? Quel (lequel) Spécification d’un élément De quelle couleur sont ses yeux ? Quelle est la capitale de la Belgique ? Liste Quels sont les aéroports de Londres ? Combien Quantification Combien de chats a-t-elle ? Prix Combien coûte ce tableau ? Questions globales Vérification Est-il vraiment parti ? Requête Peux-tu me passer le sel ? TABLEAU 1.5 – Synthèse : typologie mixte des questions Cette typologie que nous avons élaborée prend tout son sens dans le cadre de lagénération de questions. De cette manière, dans une phrase quelconque, chaqueélément susceptible d’être interrogé devra pouvoir être associé à un concept. Unefois ce concept détecté, il suffira de le relier au mot interrogatif approprié afin degénérer une question à partir de celui-ci. 30
  27. 27. 1.2 La question d’un point de vue formel Dans cette section, nous étudions la question à un niveau plus grammatical.Nous y décrivons la façon dont elle se construit, en proposant une définitionqui se veut pertinente et précise et qui doit pouvoir servir de base à la généra-tion automatique de questions. À cette fin, nous développons trois éléments quinous semblent fondamentaux : le marquage des questions, en cherchant à déter-miner ce qui les distingue radicalement des propositions déclaratives, les motsinterrogatifs et l’inversion sujet-verbe.1.2.1 Le marquage des questions Le marquage de la question se fait principalement au niveau de l’intonationà l’oral et par un point d’interrogation final à l’écrit. La langue écrite soignéeaura tendance à y ajouter une inversion sujet-verbe tandis que l’oral et la langueécrite moins soignée préfèreront l’usage de l’introductif « est-ce que » (Grevisseet Goosse, 2007). Nuançant ce constat, Danjoux-Flaux et Dessaux (1976) s’inter-rogent sur le caractère distinctif de ces marques pour l’interrogation et objectentque s’il existe des traits qui indiquent l’interrogation, ceux-ci sont polyvalentset ne se limitent pas strictement à ce type d’énoncé. C’est le cas notamment del’inversion sujet-verbe que l’on retrouve tant dans les phrases assertives qu’inter-rogatives, comme le montrent les deux exemples suivants : (31) Comment va-t-il ? (32) Ainsi va-t-il de temps en temps au marché. Si les traits relevés sont donc bien représentatifs des questions, ils ne sontpas pour autant spécifiques à celles-ci et ne permettent pas de les distinguer detous les autres types de phrases. Néanmoins, à l’écrit, l’inversion sujet-verbe 31
  28. 28. et la tournure est-ce que semblent être de bons indicateurs pour déterminerqu’une phrase donnée est interrogative. Tout en émettant une certaine réserve,on pourrait également affirmer qu’ils constituent, avec le point d’interrogationfinal, les traits minimaux d’une question formulée dans un registre standard.1.2.2 Les mots interrogatifs Comme l’indique le tableau 1.1 à la page 22, les mots interrogatifs prennentprincipalement trois formes. Ils peuvent être soit un pronom, soit un détermi-nant, soit un adverbe. Ces mots interrogatifs se placent généralement en tête deproposition, même si trois exceptions quant à leur position sont à souligner : – Si la question comporte deux mots interrogatifs, le deuxième suit le verbe : (33) Qui fait quoi ? – Si le mot interrogatif est la tête d’un syntagme prépositionnel, la préposition le précède : (34) Depuis quand est-il là ? – Il arrive, dans un registre moins normé, que le mot interrogatif se retrouve à la place du mot qu’il substitue : (35) Il part quand [demain] ? Les pronoms interrogatifs Qui, que et quoi sont invariables et entrainent unaccord au masculin singulier pour tous leurs compléments. Par exemple, la phrase« Qui est heureuse ? » n’est normalement pas acceptée et doit être corrigée pourdonner « Qui est heureux ? » (Danjoux-Flaux et Dessaux, 1976 :149). Les adverbes où, quand, combien peuvent être précédés d’une préposition ausein de la question ou même contenir la préposition en eux. 32
  29. 29. (36) Luc va vers Lyon → Vers où Luc va-t-il ? (37) Luc est dans le jardin → Où Luc est-il ? Les mots interrogatifs ont donc des sources lexicales variables (substantifs, infinitifs, adjectifs, propositions complétives ou infinitives, syntagmes préposi- tionnels...). De ce fait, le panel d’éléments pouvant faire l’objet d’interrogations est large et, dans le cadre de la génération automatique de questions, il est nécessaire de pouvoir traiter tous ces cas afin de produire des interrogations sur chacun de ces éléments. Comportement face aux modifieurs Danjoux-Flaux et Dessaux (1976) soulignent le comportement différent des interrogatifs face aux modifieurs. Les modifieurs sont « les expansions du nom dans un groupe nominal » (Molinier et Levrier, 2000 :21) (adjectifs, compléments du nom, relatives). Nous illustrons ces différents comportements dans le tableau 1.6. Pour chaque type d’interrogatif, nous donnons trois exemples de phrases, chacun de ceux-ci utilisant un type de modifieur. Nous testons ensuite la validité de la paire « interrogatif-modifieur ». Les exemples précédés d’un astérisque sont non-valides. L’intérêt de cette recherche est de définir plus tard des patrons cor- rects de phrases interrogatives en évitant d’associer un mot interrogatif avec un modifieur qu’il n’accepte pas. Comp. adjectival en de Comp. nominal RelativeAdverbes interrogatifs *Pourquoi d’agréable *Pourquoi des gens *Pourquoi qui est agréablePronoms interrogatifs Qui d’agréable *Qui des gens Qui, qui est agréableDéterminants interrogatifs *Lequel d’agréable Lequel des gens Lequel, qui est agréable TABLEAU 1.6 – Interrogatifs et modifieurs 33
  30. 30. Le choix entre qui, que et quoi Le choix entre ces trois pronoms n’est pas anodin et mérite d’être expliqué dansune étude préalable au développement d’un outil de génération automatiquede questions. En effet, si ces trois occurrences ne peuvent être utilisées indiffé-remment, il est important de comprendre les facteurs qui président au choix del’une ou l’autre forme. Il faut pour cela distinguer trois cas, relatifs à la fonctiondu pronom dans la phrase. Si l’interrogatif a la fonction de sujet et que ce sujet est animé, il prendra laforme qui (38). En revanche, s’il est inanimé, il prendra la forme qu’est-ce qui (39),les formes que et quoi étant très rarement attestées (Danjoux-Flaux et Dessaux,1976 :150). (38) Jean joue avec son chien → Qui joue avec son chien ? (39) Fumer tue → Qu’est-ce qui tue ? Quand l’interrogatif a la fonction d’attribut du sujet, l’opposition entre quid’une part et que et quoi d’autre part, dépasse le clivage entre animé et inaniméet se résout dans la forme de la réponse à la question. Dans le cas des animéspar exemple, alors que qui demande un syntagme nominal comprenant un dé-terminant, comme dans l’exemple 40, que demande un syntagme nominal sansdéterminant, comme dans l’exemple 41. Si la réponse est un adjectif, on utiliseraplutôt l’interrogatif comment (voir l’exemple 42). (40) Luc est un concierge → Qui est Luc ? (41) Luc est concierge → Qu’est Luc ? (42) Luc est intelligent → Comment est Luc ? 34
  31. 31. Dans tous les autres cas, le choix entre ces termes est déterminé par le caractèreanimé ou inanimé du mot qu’il remplace. Si ce mot est animé, le pronom pren-dra la forme qui (43, 44) et dans le cas contraire, il prendra la forme que s’il estcomplément direct (45) et quoi sinon (46). (43) Le chat amuse Jean→ Qui amuse le chat ? (44) Jean donne une pomme à Pierre→ À qui Jean donne-t-il une pomme ? (45) Jean mange une pomme→ Que mange Jean ? (46) Jean joue au football → À quoi joue Jean ?Rôle de la construction du verbe dans le choix des interrogatifs Danjoux et Dessaux (1976) se basent sur les travaux de Maurice Gross (1968) etses tables de Lexique-Grammaire pour montrer que le choix des interrogatifs estsouvent contraint par le verbe utilisé dans la phrase. Ils étudient ce phénomène àtravers les constructions complétives et infinitives. Ils remarquent entre autresqu’avec des infinitives construites à partir d’un verbe de mouvement ou causatifde mouvement, la question qui en résulte sera régulièrement introduite par où. (47) Il emmène Luc voir Marie → Où emmène-t-il Luc ? Grévisse et Goosse (2007) montrent que quand l’interrogation porte sur leverbe, il n’existe pas de mot interrogatif qui permette de former la question. Pourcontrer ce problème, il faut alors recourir au verbe substitut faire ou, à défaut, auxverbes se passer ou y avoir pour former une question en que (Grevisse et Goosse,2007 ; Danjoux-Flaux et Dessaux, 1976). (48) Le vieux mur peut tomber – *Que peut le vieux mur ? – Que peut faire le vieux mur ? 35
  32. 32. Par ces deux exemples, les auteurs montrent que le choix de l’interrogatif estloin d’être évident et que les contraintes qui s’exercent sur lui ne sont pas seule-ment liées à son référent et à ses caractéristiques (animé, inanimé, complétive,infinitive), mais aussi au contexte linguistique dans lequel il s’inscrit.1.2.3 L’inversion sujet-verbe L’inversion se réalise différemment selon que le sujet est un pronom personnel(ou le pronom ce) ou non. Nous distinguons ci-dessous ces deux cas avant d’évo-quer l’introducteur est-ce que et son statut particulier (Grevisse et Goosse, 2007 ;Langacker, 1965 ; Danjoux-Flaux et Dessaux, 1976).Le sujet est un pronom personnel ou le pronom ce Aux temps simples, on procède à une inversion sujet-verbe classique, avecl’insertion d’un trait d’union entre les deux. (49) Il vient → Vient-il ? Aux temps composés et au passif, le pronom est inséré entre l’auxiliaire et leparticipe passé. (50) Il est venu → Est-il venu ? Ces deux règles comportent toutefois deux exceptions : – L’inversion n’est pas réalisée à la 1ère personne du singulier de l’indicatif présent pour les verbes ne se terminant pas par -e (*fais-je). – L’inversion n’est pas réalisée pour les temps composés de être quand le sujet est ce (*a-ce été) ainsi qu’à la troisième personne du pluriel de l’indicatif passé simple (*fussent-ce). 36
  33. 33. Dans certains cas par ailleurs, le verbe se voit modifié avec l’inversion : – À la première personne du singulier de l’indicatif présent, les verbes se terminant en -e changent leur e en é (aimé-je) – À la troisième personne, quand le verbe se termine par une voyelle, on ajoute, par analogie à la prononciation, un -t- avant le pronom.Le sujet n’est ni un pronom personnel, ni le pronom ce – Interrogations globales On procède à une inversion complexe. Cela signifie que le sujet reste à sa placeinitiale, mais qu’il est repris après le verbe sous la forme d’un pronom personnel àla troisième personne, accordé en genre et en nombre avec le sujet. (51) Jean est parti travailler → Jean est-il parti travailler ? – Interrogations partielles Cinq cas de figures sont à envisager : 1. L’interrogation commence par un pronom interrogatif sujet ou par un dé- terminant interrogatif se rapportant au sujet : pas d’inversion (52) Jean est parti → Qui est parti ? 2. L’interrogation commence par quel, qui est attribut ou se rapporte à l’attri- but : on procède à une inversion simple du sujet (53) Quels sont ces bruits sourds ? 3. L’interrogation commence par que, qui est complément direct ou attribut du sujet avec un verbe copule autre que être : inversion simple (54) Jean mange une pomme → Que mange Jean ? 4. Le mot interrogatif est pourquoi : on procède à une inversion complexe (sujet - verbe - reprise du pronom) 37
  34. 34. (55) Jean est parti parce qu’il était malade → Pourquoi Jean est-il parti ? 5. Dans tous les autres cas : on fait soit une inversion complexe, soit une inversion simple (56) Jean est parti à Paris → Où est parti Jean ? ou Où Jean est-il parti ?L’introducteur est-ce que « Ces tours avec est-ce que (interrogation globale et interrogation partielle) sont souvent considérés comme peu élégants et lourds. Ils sont très anciens pourtant, et les classiques ne les rebutaient pas. Ils se rencontrent parfois dans la langue littéraire la plus élaborée, mais moins souvent aujourd’hui qu’hier, semble-t-il. »(Grevisse et Goosse, 2007) Le Bon Usage évoque donc cette différence de prestige entre les deux variantes(inversion et tournure en est-ce que) dans la formulation des questions. Il cited’ailleurs une préférence de l’Académie française pour l’inversion dans les ques-tions. Néanmoins, cette tournure en est-ce que permet de contourner certains inter-dits liés à l’inversion. – Impossibilité d’inversion à la première personne du singulier de l’indicatif présent : (57) *Perds-je ? - Est-ce que je perds ? – Problème d’inversion avec le pronom (58) ce : *furent-ce ses derniers mot ? - Est-ce que ce furent ses der- niers mots ? – Interdiction du pronom interrogatif sujet neutre : (59) *Que m’oblige à faire ça ? - Qu’est-ce qui m’oblige à faire ça ? – Difficulté d’identifier sujet et objet : (60) Qui aime Jean ? - Qui est-ce qui aime Jean ? Ces constructions sont invariables en temps et en genre. Elles ne sont conju-guées qu’à l’indicatif présent, à la troisième personne du singulier. Les questionsde l’exemple 61 illustrent l’invariabilité de ces tournures. 38
  35. 35. (61) Est-ce que Jean est revenu ? Sont-ce que les enfants sons reve- nus ? Sera-ce que Jean reviendra ? L’utilisation de ces constructions diffère selon le caractère global ou partiel del’interrogation. – Interrogations globalesDans ce cas, l’introducteur est-ce que est en tête de phrase, suivi du sujet, sansreprise pronominale. – Interrogations partiellesLa tournure est-ce que se place après le mot interrogatif et est suivie du sujet, sansreprise pronominale. Si l’interrogatif est sujet, est-ce que se mue en est-ce qui.Synthèse L’inversion sujet-verbe est une thématique complexe et dépend entre autres dela nature nominale ou pronominale du sujet. Nous reprenons dans le tableau 1.7une synthèse des différents types d’inversion en jugeant de leur acceptabilité. Lesphrases non acceptées sont précédées d’un astérisque. Nom Pronom Inversion simple Interrogation partielle Quand vient Jean ? Quand vient-il ? Interrogation totale *Viendra Jean ? Viendra-t-il ? Interrogation totale est- *Est-ce que viendra Jean ? *Est-ce que viendra-t-il ? ce que Inversion complexe Interrogation partielle Quand Jean vient-il ? / *Que Luc dit-il ? *Qui nage-t-il bien ? Interrogation totale Jean viendra-t-il ? / Interrogation totale est- *Est-ce que Jean viendra-t-il ? / ce que TABLEAU 1.7 – L’inversion sujet-verbe 39
  36. 36. 1.3 De la déclarative à l’interrogative : les règles trans- formationnelles de Langacker Dans la lignée des travaux de Chomsky en grammaire générative et transfor-mationnelle, plusieurs auteurs ont proposé des règles pour formaliser la trans-formation de phrases déclaratives en interrogatives en français (Kayne, 1973 ;Langacker, 1965). Dans cette section, nous analysons le système de règles décritpar Langacker dans un article intitulé French Interrogatives : A TransformationalDescription (1965). Langacker distingue cinq procédés de formation différents : les questions to-tales avec inversion sujet-verbe, les questions en quel suivi d’un substantif, lesquestions en qui,que et quoi, les questions en est-ce que et les questions adver-biales (introduites par un adverbe interrogatif). Comme nous l’avons vu plus haut,les questions en est-ce que appartiennent à un registre moins normé et plus oral,raison pour laquelle nous ne les abordons pas ici.Les questions totales Quand une phrase déclarative est formée d’un sujet pronominal, la questiontotale correspondante peut être formée par inversion du pronom et du premierélément verbal (62). Quand le sujet n’est pas pronominal, la question est forméepar une inversion complexe, via une reduplication du sujet sous forme pronomi-nale, à la suite du premier élément verbal (63). (62) Il est fou → Est-il fou ? (63) Jean est fou→ Jean est-il fou ? 40
  37. 37. Langacker formalise cette transformation en trois règles successives. Danscelles-ci, chaque élément de la phrase est représenté par un symbole : – *Ti indique le numéro de la règle. L’astérisque souligne qu’elle est obliga- toire – wh correspond au mot interrogatif (ici fictif) – [+P RON ] correspond au trait syntaxique pronom – NP correspond à un syntagme nominal (qui peut être un pronom) – V correspond au premier élément d’une chaine verbale – X,Y,Z correspondent à des chaines quelconques de caractères Une règle correspond à la transformation d’un état de la phrase vers un autre.Les éléments sont associés à un numéro dans la partie gauche de la règle et lapartie droite donne le nouvel ordre de ces éléments. Certaines règles sont soumisesà une condition, exprimée sous la flèche de transformation. 1. Reduplication du sujet à la suite du premier élément verbal *T4 : wh NP V X ⇒ 1 2 3 +2 4 1 2 3 4 Exemple : - wh1 Le chat gris2 est3 parti4 → wh1 Le chat gris2 est le chat gris3+2 parti4 - wh1 Il2 est3 parti4 → wh1 Il2 est Il3+2 parti4 2. Pronominalisation du sujet dupliqué *T5 : wh NP + V DET [+N ] X Y ⇒ 12 4 6 1 2 3 4 5 6 [+P RON ] NP Exemple : - wh1 Le chat gris est2 le3 chat4 gris5 parti hier6 → wh1 Le chat gris est2 il4 parti hier6 - wh1 Il est2 Il4 parti hier6 → wh1 Il est2 il4 parti hier6 41
  38. 38. 3. Ellipse du sujet si celui-ci est un pronom *T7 : X NP V NP Y ⇒ 1 3 4 5 1 2 3 4 5 |si 2=4| Exemple : - wh1 Pierre2 est3 il4 parti5 → la règle n’est pas appliquée - wh1 Il2 est3 il4 parti5 → wh1 est3 il4 parti5Questions formées à partir d’un déterminant : questions en quel L’interrogatif quel est défini comme le résultat de l’ajout de l’interrogation audéterminant quelque (Langacker, 1965 :590). L’interrogation porte donc sur ledéterminant, et pas sur le nom. (64) Vous préférez quelque tableau → Quel tableau préférez-vous ? Pour réaliser l’interrogation, il faut donc déplacer le syntagme dont le détermi-nant est quelque en tête de proposition et joindre le déterminant au marqueurd’interrogation fictif wh pour donner quel. Trois cas sont à distinguer pour écrirecette règle : 1. L’interrogation porte sur le sujet : dans ce cas, le syntagme n’est pas déplacé. (65) Quelque médecin va venir → Quel médecin va venir ? 2. L’interrogation porte sur un syntagme prépositionnel : le syntagme entier est déplacé en tête de proposition. (66) Il parle à quelque femme → À quelle femme parle-t-il ? 3. L’interrogation porte sur un élément dominé par une P2 : on ne peut réaliser l’interrogation. (67) Nous partirons quand quelque femme partira → *Quelle femme partirons-nous quand partira ? 42
  39. 39. De ces trois cas, résulte la règle suivante : T3 : wh X (P) DET Y Z ⇒ 3 1+4 5 2 6 quelque 1 2 3 4 5 6 Condition : 4 + 5 n’est pas dominé par une P2 Exemple : wh1 Vous parlez2 à3 quelque4 femme5 aujourd’hui6 → À3 quelle1+4 femme5 vous parlez2 aujourd’hui 6 ? Une fois cette règle appliquée, il reste à réaliser l’inversion. Langacker proposed’adapter les règles exposées pour les questions totales en les généralisant. Lesdeux dernières règles (pronominalisation et ellipse) restent identiques, mais la pre-mière (duplication) doit être précisée pour prendre en compte les constructionsen quel : *T4 : wh (P) NP NP V Y ⇒ 1 2 3+2 4 wh+X 1 2 3 4 Exemple : - Quel tableau1 Henri 2 préfère3 voir4 → Quel tableau1 Henri2 préfère Henri3+2 voir4 - Quel tableau1 Il2 préfère3 voir4 → Quel tableau1 Il2 préfère il 3+2 voir4Questions formées à partir d’un syntagme nominal : questions en qui, que etquoi Ces questions sont formées selon la même procédure que celles précédem-ment décrites. En effet, le syntagme nominal sur lequel porte la question estdéplacé en tête de proposition, éventuellement précédé d’une préposition. La 43
  40. 40. différence tient au fait que la séquence quel + Nom est ici remplacée par les pro-noms Qui, que ou quoi en fonction du caractère humain non humain du Nom.Langacker relève trois objections principales à cette transposition simple : – Que ne peut pas être sujet d’une phrase. (68) *Qu’est tombé ? – Quand la question porte sur l’objet direct et quand le sujet est un nom, la reduplication se fait si l’objet est humain (69), mais pas si l’objet est non humain (70). (69) Qui Henri voit-il ? (70) *Que Henri voit-il ? – Quand la question porte sur un syntagme prépositionnel, l’inversion simple (71) et complexe (72) sont autorisées. (71) De qui parle Henri ? (72) De qui Henri parle-t-il ? Il est donc nécessaire d’incorporer ces restrictions dans les règles existantes etd’adapter celles-ci pour qu’elle conviennent aux questions en qui, que et quoi. Lan-gacker propose de remplacer les termes à interroger par des pro-formes [+PRO] :personne et chose, selon le caractère humain ou non-humain du terme concerné.De cette manière, la séquence quelque [+PRO] est ensuite remplacée par qui ouque selon les traits de la pro-forme. Cette règle intervient après le déplacementen tête de proposition du syntagme à interroger et la reduplication. Le trait [H]représente le caractère humain ou non du syntagme. 44
  41. 41. *T6 : (P) wh + quelque [+PRO] (NP) V (NP) X⇒ 12 3 4567 [+SG] [+M] 1 2 3 4 5 6 7 Quand 1 = P - si 4=6=NP : 3 = [-H] ou 6 = [+PRON] - sinon : 3 = [+H] Dans le cas où le syntagme à interroger est prépositionnel, le choix entre quiet quoi se fait grâce à l’analyse du trait humain ou non humain (73). Dans le cascontraire, la structure de la phrase est analysée pour déterminer le trait humainou non humain du syntagme et, en fonction de celui-ci, le pronom interrogatifsera choisi (74,75). (73) - À quelque jeu Jean a Jean joué → À quelle chose Jean a Jean joué → À quoi Jean a Jean joué - À quelque joueur Jean a Jean donné un cadeau → À quelle personne Jean a Jean donné un cadeau → À qui Jean a Jean donné un cadeau (74) Quel jeu Jean a Jean offert → Quelle chose Jean a Jean offert → Que Jean a Jean offert (75) Quel joueur a gagné → Quelle personne a gagné → Qui a gagné Comme pour les questions totales et les questions en quel, cette règle est suiviedes étapes de pronominalisation et d’ellipse.Questions adverbiales Langacker définit comme adverbiales les questions portant sur un élémentcirconstanciel de la phrase (76, 77, 78). (76) Quand part-il ? (77) Où votre père va-t-il ? (78) Où va votre père ? 45
  42. 42. Ces questions acceptent l’inversion simple et l’inversion complexe et ne néces-sitent pas l’ajout de nouvelle règles par rapport à celles développées jusqu’àprésent. En effet, l’élément interrogé peut être remplacé par une construction detype « P + quel + N » correspondant aux pronoms où et quand selon qu’il s’agit d’unlieu ou d’un complément de temps. Langacker évoque aussi le renforcement de laquestion par la forme est-ce que (79), mais nous ne traitons pas cette constructiondans le cadre de ce travail. (79) Quand est-ce que vous partez ?Remarques Ce système proposé par Langacker est pertinent dans la mesure où il formalisedes phénomènes complexes tels que l’inversion sujet verbe. Néanmoins, commenous l’envisageons dans la deuxième partie de ce travail (chapitre 3), il existeaujourd’hui des outils plus performants qui permettent d’effectuer ces transfor-mations. Les analyseurs syntaxiques actuels permettent, par exemple, de générerdes structures de phrases arborescentes et hiérarchisées qu’il est très facile de mo-difier en agissant sur les nœuds de celles-ci. De surcroit, ces analyseurs incluentdes modules de reconnaissance d’entités nommées qui permettent de déterminerles traits des syntagmes – le trait humain ou non humain par exemple – sansrecourir à une analyse de la structure de la phrase, comme le fait Langacker. Si ladémarche théorique est intéressante, nous pensons que la grammaire décrite esttrop complexe et quelque peu archaïque par rapport aux outils actuels.1.4 Conclusion En vue de développer un système de génération automatique de questions, ilimporte d’une part d’établir une typologie de celles-ci pour définir ce que notre 46
  43. 43. système doit être capable générer et, d’autre part, de définir formellement laphrase interrogative, en la distinguant des phrases déclaratives. Il existe deux grands types de classification de questions. Le premier, axé surun point de vue linguistique, se base sur la structure de la question et sur lesmots interrogatifs pour établir une typologie. Le second, basé sur un point devue conceptuel, classe les questions selon le focus, soit l’attente exprimée par cesdernières, ou le concept, soit l’élément sur lequel porte la question. Néanmoins,ces deux axes de recherche, loin de s’opposer, sont complémentaires. Nous avonsdonc synthétisé ces deux approches pour créer une typologie « mixte » associantdes catégories conceptuelles à des éléments linguistiques – les wh-words – pourpermettre de relier chaque concept au mot interrogatif le plus approprié. Laclassification que nous présentons permet donc de rendre compte des typesdes questions à la fois d’un point de vue linguistique et conceptuel et constitueun point de départ pertinent pour la mise en place d’un système de générationautomatique de questions. Formellement, la question peut être définie selon trois axes : son marquage, lesmots interrogatifs et l’inversion sujet-verbe. Ces trois concepts sont les élémentsstandards d’une question et nécessitent d’être clairement définis pour formulerdes phrases interrogatives correctes. Face à ce constat, Langacker (1965) proposeune grammaire transformationnelle qui formalise ces différents aspects grâce àdes règles de transformation. Néanmoins, cette grammaire, bien qu’intéressantepour son apport théorique, semble dépassée par les outils actuels et donc difficileà implémenter dans un outil complet de génération automatique de questions. La typologie et la définition formelle que nous proposons ont pour ambitionde donner une représentation complète de la notion de question et de construire 47
  44. 44. une base linguistique pertinente à la génération automatique de questions. Lechapitre suivant, consacré au domaine de la génération automatique, se situe àun niveau plus informatique. Il constitue la deuxième partie de la base théoriquesur laquelle reposera l’implémentation d’un générateur de questions. 48
  45. 45. CHAPITRE 2 GÉNÉRATION AUTOMATIQUE ET GÉNÉRATION AUTOMATIQUE DE QUESTIONS Le but de ce chapitre est de situer la génération automatique de questions(GAQ) au sein du domaine plus général de la génération automatique de textes(GAT) 1 . Nous commençons par présenter ce domaine en définissant ses grandsprincipes. Nous nous intéressons ensuite au domaine spécifique de la générationautomatique de questions afin de montrer les points communs et les pointsdivergents entre les deux types de systèmes. Au-delà de cette comparaison, notreobjectif est aussi de comprendre les enjeux et les défis qui pèsent sur notre objetd’étude en réalisant un état de l’art de la discipline. Pour ce faire, nous présentonsles principaux outils existants, en dégageant une méthodologie globale qui puisseservir de base à l’implémentation d’un nouvel outil. 1. L’appellation anglaise, plus couramment utilisée est Natural Language Generation (NLG). 49
  46. 46. 2.1 La génération automatique de textes Danlos et Roussarie (2000) définissent le domaine de la manière suivante : « La génération automatique de textes (GAT) est la branche du taln dont le but est de produire des énoncés en langage naturel à partir de représentations informatisées. Ceux-ci doivent être grammaticalement corrects, sémanti- quement cohérents et pragmatiquement pertinents. La génération assure donc la fonction émettrice de la communication homme-machine, et se présente globalement comme le processus réciproque de la compréhension automatique. » (Danlos et Roussarie, 2000) Pour étayer leur propos, les auteurs citent différents types d’application utili-sant un module de génération automatique de textes : – Systèmes de dialogue homme-machine : « le terme de système de dialogue indique généralement un système permettant une interaction entre un humain et un système dans un cadre restreint. (...) Un système de dialogue homme-machine interprète les requêtes de l’utilisateur en fonction de la tâche à accomplir, de l’his- toire du dialogue et du comportement de l’utilisateur. Son objectif est de donner à l’utilisateur les informations recherchées tout en assurant une interaction efficace et naturelle. » (Galibert et al., 2005). Dans ce cadre, les modules de génération permettent, par exemple, de chercher dans une base de données la réponse à une question entrée par un utilisateur et de lui renvoyer la réponse, correctement formulée. – Résumé automatique : un tel système utilisant un module de génération se distingue des outils de résumé automatique traditionnels qui extraient des phrases d’un texte sur la base de calculs probabilistes. En génération, le système fonctionne avec une simulation de l’activité humaine pour résumer le texte. Il s’agit d’un processus cognitif complexe qui connait actuellement peu de réalisations concrètes. Le projet SPORTIC, actuellement développé au Cental, a pour objectif le développement d’un tel outil, appliqué ici au domaine de commentaires sportifs de matchs de basket. Basé sur une onto- 50
  47. 47. logie, le générateur Gen-Tonic produit un résumé adapté aux préférences de l’utilisateur – longueur, focus sur une équipe ou un joueur particulier... – et destiné à être couplé à un résumé vidéo du match 2 . – Production de textes de commentaires générés à partir de données nu- mériques : il s’agit d’un outil très utile pour les entreprises qui part d’un ta- bleau de données numériques pour générer un commentaire sur les chiffres. EASYTEXT (Meunier et al., 2011), par exemple, traite les investissements publicitaires réalisés par des clients d’une société, et leur envoie chaque mois un commentaire généré automatiquement sur leurs investissements. – Production de manuels d’instruction : ces manuels sont générés automati- quement à partir de données entrées par un utilisateur. Le problème majeur des outils existants est le niveau d’abstraction très complexe de ces entrées qui rend ces générateurs difficiles à appréhender.L’architecture globale d’un système Danlos et Roussarie (2000) expliquent que la tâche de génération peut être di-visée en deux sous-tâches principales, correspondant à la manière dont l’humainconstruit son discours, selon les théories psycholinguistiques (Levelt, 1993) : 1. Le Quoi-Dire : ce module élabore le sens profond du texte en recourant à de nombreuses ressources encyclopédiques, pragmatiques... 2. Le Comment-Le-Dire : cette partie du système est chargée de construire linguistiquement le texte et se base sur des ressources linguistiques, princi- palement un lexique et une grammaire. Cette architecture peut être affinée en quatre étapes, la première entrant dansle cadre du Quoi-Dire tandis que les trois autres réalisent le Comment-Le-Dire.Pour ces quatre étapes, Bateman et Zock (2003), Danlos et Roussarie (2000) et 2. Nous remercions Stéphanie Audrit (UCL-Cental) pour ses explications à propos de ce projet. 51
  48. 48. Reiter et Dale (1997) proposent des schémas comparables que nous synthétisonsci-dessous. La figure 2.1, tirée d’un article de Zock et Sabah (2002) illustre notrepropos. 1. La macroplanification détermine, en fonction d’un but à atteindre et de bases de connaissances, le contenu du texte et la structure globale du dis- cours, aboutissant à un plan de texte. Le contenu profond est d’abord sé- lectionné dans des bases de connaissance, éventuellement en fonction de buts communicatifs, et représenté sous forme de réseaux conceptuels et sémantiques. Ensuite, un plan de texte est construit, dont le but est d’orga- niser le message dans une dynamique textuelle en établissant des relations rhétoriques entre les propositions du texte 3 . 2. La microplanification part du plan du texte pour en générer la structure syntaxique tout en choisissant les mots pleins 4 appropriés pour incarner le sens qui a été déterminé dans la macroplanification. Ces deux étapes – plani- fication syntaxique et lexicalisation – peuvent se dérouler successivement ou conjointement dans le cas où le générateur utilise un lexique-grammaire ou une grammaire lexicalisée. Cette phase s’accompagne d’un module d’agré- gation qui consiste à éliminer les redondances et à rendre le texte plus lisible et plus précis (voir exemple 80). Le but de ces opérations est d’assurer la cohésion du texte. 5 (80) le père et la mère de Paul → les parents de Paul 3. Une relation rhétorique relie des énoncés et non des constituants. De cette manière, « Mariemange une pomme et Pierre mange une banane » contient deux énoncés unis dans une relationde narration (Busquets et al., 2001) 4. noms, verbes, adjectifs et adverbes. 5. La cohésion est « l’ensemble des moyens linguistiques qui assurent les liens intra- et inter-phrastiques permettant à un énoncé oral ou écrit d’apparaître comme texte » (Charaudeau etMaingueneau, 2002 :99). Elle est à distinguer de la cohérence en ce sens que « la cohérence estune propriété du discours, qui est mis en relation avec les conditions d’énonciation, alors que lacohésion est une propriété du texte, qui est envisagé fermé sur lui-même. » (Riegel et al., 2009) 52
  49. 49. 3. La formulation prend en entrée les arbres syntaxiques lexicalisés et génère la forme de surface des différentes phrases du texte. C’est à cette étape que se déroule la flexion des différents termes – l’accord des noms, pronoms et adjectifs et la conjugaison des verbes – et que les mots secondaires 6 sont ajoutés. Cela implique des modifications graphiques telles la gestion des contractions (81) et des élisions (82) ou encore l’ajout des traits d’union. (81) de le beurre → du beurre (82) le animal → l’animal4. La présentation physique est l’étape de finition. La ponctuation est insérée et un éventuel formatage du texte, en HTML par exemple, est réalisé, pour le rendre présentable. Le cas échéant, ce formatage peut être remplacé par un module de synthèse vocale.6. déterminants, pronoms, conjonctions. 53
  50. 50. MACROPLANIFICATION Détermination du contenu Structuration du contenu Plan de texte MICROPLANIFICATION Spécifier les référents Agrégation/Segmentation Lexicalisation Plan de la phrase FORMULATION Ordre des mots Catégories lexicales Mots secondaires Flexion + Accords Texte non formaté PRÉSENTATION PHYSIQUE Ponctuation texte écrit formaté Mise en page chaîne Articulation sonoreF IGURE 2.1 – Architecture d’un système de génération automatique de textes (Zocket Sabah, 2002) Ce type d’architecture séquentielle est qualifié de fonctionnement en pipeline.Cela signifie que les étapes se déroulent successivement sans qu’aucun retouren arrière ne soit possible (Reiter et Dale, 2000). La pertinence d’un tel choix asouvent été critiquée et certains auteurs ont proposé une architecture utilisant desmodules interdépendants. Nous n’abordons cependant pas ces méthodologiesdans le cadre de ce travail étant donné que la majorité des systèmes de génération 54
  51. 51. actuels implémentent le modèle présenté (Danlos et Roussarie, 2000).Apports La génération automatique de textes présente de nombreux intérêts. Danloset Roussarie (2000) en citent une dizaine, que nous synthétisons en trois pointsmajeurs : 1. L’indépendance entre le stockage des informations et le système de géné- ration offre plusieurs avantages : (a) On peut actualiser très facilement un texte par une simple modification des éléments d’une base de données. (b) La recherche d’information est facilitée par l’utilisation d’une base de données structurée, sans qu’il soit nécessaire de recourir à une analyse textuelle complexe. (c) Une représentation abstraite d’un texte peut donner plusieurs formes de surface. On peut donc, à partir d’une même base, générer des textes de niveaux de langage différents ou de vocabulaire varié – grâce aux paraphrases par exemple – mais aussi dans des langues différentes. 2. Au-delà de la méthodologie, les résultats sont susceptibles d’intéresser un large public. Les systèmes sont capables de produire à la fois de la parole et du texte. Le texte peut par ailleurs être formaté et même allié à du contenu multimédia, ce qui rend les résultats d’autant plus attractifs. 3. Les fondements théoriques qui sous-tendent le développement de tous ces systèmes sont pertinents dans la mesure où ils permettent de s’interroger sur les mécanismes de production du langage humain, mais aussi sur le discours dans son intégralité, au-delà des phrases qui le composent.Limites Si les apports de la génération automatique de textes sont considérables,certains problèmes restent à résoudre pour augmenter la performance des géné-rateurs existants. 55
  52. 52. Claude Ponton (1997) évoque le manque de portabilité des systèmes actuelsqui sont « fortement liés à leur application et ceci tant au niveau des formalismesutilisés qu’au niveau, par exemple, des règles mises en œuvre dans le processus »(Ponton, 1997). Une autre limitation est liée à la définition de la GAT (page 50), qui implique lagénération d’énoncés « grammaticalement corrects, sémantiquement cohérentset pragmatiquement pertinents ». Si les deux premiers aspects – grammaticalitéet cohérence sémantique – sont pris en compte dans les systèmes actuels, ladimension pragmatique échappe encore à la modélisation. Zock et Sabah (2002)évoquent le problème du contrôle pour définir cette limite : « S’il est relativement aisé de décider de la bonne formation d’énoncés, il est beaucoup plus difficile de décider de leur adéquation à une situation. À quel moment utiliser une ressource linguistique particulière (voix passive, proposition relative, etc.) ? Que faire en cas de conflit ? Quand s’arrêter ? Comment décider qu’un texte est convenable ou optimal ? » (Zock et Sabah, 2002)2.2 La génération automatique de questions Selon Nielsen (2008), la définition de la génération automatique de questionsdiffère selon son type d’application. L’auteur relève deux domaines applicatifsmajeurs de la discipline : – Applications éducatives : des questions sont générées pour évaluer les connaissances ou la compréhension d’un utilisateur à propos d’un domaine déterminé. Ces applications peuvent également prendre la forme de ques- tionnaires à choix multiples (Mitkov et Ha, 2003). Dans ce cas, l’enjeu majeur se situe dans le choix des distracteurs 7 (Mitkov et al., 2006). Brown et al. (2005), par exemple, élaborent un outil d’évaluation du vocabulaire chez des 7. « Lorsque l’on rédige des questions fermées à choix multiple[s], l’énoncé de l’item est suivipar une série de réponses possibles, dont une est correcte et les autres ne le sont pas. Les optionsde réponse incorrectes sont désignées par le terme de distracteurs. » http://www.irdp.ch/edumetrie/lexique/distracteur.htm (Page consultée le 3 août 2011) 56
  53. 53. locuteurs qui doivent choisir parmi plusieurs propositions le sens correct pour un mot donné. – Systèmes de dialogue homme-machine : ces systèmes ont pour vocation de permettre à un ordinateur de mener un dialogue interactif avec un hu- main. Un des objectifs peut être l’aide à l’apprentissage. Dans ce cas, le but des questions est de mener un apprenant à la compréhension d’un concept qu’il ne comprend pas au départ. Chaque question doit donc se baser sur la réponse de l’apprenant à la précédente question (Nielsen, 2008). Cer- tains auteurs se sont également intéressés à produire des dialogues fictifs à propos de textes, pour permettre à un utilisateur d’accéder à ces textes de manière plus interactive (Piwek et Stoyanchev, 2010), par exemple à partir de notices de médicaments (83). (83) – Notice : Vous pouvez prendre une aspirine si vous avez mal à la tête. – Dialogue : – Q : Que puis-je faire si j’ai mal à la tête ? – R : Vous pouvez prendre une aspirine. Pour distinguer ces méthodologies, deux aspects sont concurrentiels : – Pragmatique : choisir la bonne question en fonction du type d’application et de ses contraintes. – Syntaxique : déterminer les étapes qui sont appliquées pour générer une question grammaticalement correcte.Le premier point de vue diverge entre les deux approches puisque les questionsgénérées dans le cadre d’un outil ne sont pas nécessairement pertinentes pourun autre. A contrario, le processus formel de création des questions est iden-tique. Nous étudions donc ce second point de vue, même si des références à lapragmatique peuvent survenir pour étayer notre propos. Pour bien comprendre la place particulière qu’occupe la génération automa-tique de questions (GAQ) au sein du domaine général de la génération automa-tique de textes (GAT), nous décrivons ici le fonctionnement global d’un outil.Cependant, aucune méthodologie généraliste n’ayant jamais été décrite, nous 57
  54. 54. procédons de manière empirique. Nous partons de la présentation d’outils exis-tants, constituant « l’état de l’art » en génération automatique de questions, pourdégager une architecture générique, comme nous l’avons fait dans la sectionprécédente pour la génération automatique de textes. La section 2.3 confronteles deux méthodologies afin de situer le sous-domaine de la GAQ au sein du do-maine principal et de déceler les points communs et divergents de leur mode defonctionnement. Si des grammaires de règles pour générer des questions existent pour le fran-çais (Danjoux-Flaux et Dessaux, 1976 ; Langacker, 1965), comme celle exposéeà la section 1.3, aucun outil complet n’a jamais été implémenté, à l’exceptiond’un travail d’étudiant (Brette et Lescuyer, 2006), extrêmement basique et peuflexible : il s’applique à des phrases très simples et les contraintes sur les entréesdu programme sont lourdes. Face à cette absence de ressources suffisantes pour le français, nous avonsexploré les outils existants pour l’anglais. Dans ce chapitre, nous exposons quatreméthodologies développées pour générer des questions en anglais dont nousdégageons les spécificités et les limites.2.2.1 Les débuts : Les travaux de John Wolfe Wolfe (1976) pose les bases de la génération automatique de questions. Lebut de l’outil qu’il a développé est pédagogique. Il s’agit d’aider des apprenantsà étudier des textes de manière indépendante. Le principe est le suivant : untexte est soumis à un programme qui va le segmenter en phrases et retournerà l’étudiant des questions auxquelles il doit répondre. Le programme vérifie laréponse donnée, l’accepte ou la refuse. Dans cette méthode, seule la forme dela phrase est traitée et son sens n’est pas pris en compte, ce qui présente deuxinconvénients : la réponse de l’étudiant doit parfaitement correspondre avec laréponse attendue par le programme et certaines ambiguïtés ne sont pas résoluesdans l’analyse de la phrase, ce qui engendre des erreurs dans la génération desquestions. 58
  55. 55. Fonctionnement du système Un paragraphe est soumis à la lecture de l’étudiant. Une phrase de ce para-graphe est sélectionnée aléatoirement par l’ordinateur 8 qui génère une questionà partir de celle-ci. Cette question est ensuite renvoyée à l’étudiant qui doit yrépondre correctement. Le système procède en quatre étapes : 1. Analyse morphologique : le programme étiquète les mots de la phrase en catégories grammaticales à l’aide d’un dictionnaire de verbes, conjonctions, pronoms, prépositions, articles et adverbes. Tout ce qui ne se retrouve pas dans le dictionnaire est alors automatiquement étiqueté comme nom. Le dictionnaire contient pour les verbes des informations morphologiques du type transitif, intransitif, régulier, irrégulier... 2. Génération d’une question à partir d’une table de patrons : le programme dispose d’une liste de patrons de phrases, chacun correspondant à un type de réponse à une question. Si un patron est retrouvé dans la phrase entrée au programme, le système peut donc générer la question correspondante. Exemple : I have a dog so that I walk everyday correspondant au pa- tron P1 so that P2 – Repérage et analyse des caractéristiques morphologiques du verbe de P1 pour générer une bonne forme du do et transformation en P1’ do I have a dog – Génération d’une question à partir de P1’ : Why do I have a dog ? – Génération d’une réponse attendue : so that + P2 (so that I walk everyday) 3. Post-traitements : le programme rejette les paires question-réponse qui ne satisfont pas certaines conditions (phrases trop longues, présence d’une virgule dans la question...). 4. Vérification de la réponse de l’étudiant : si plus de 50% des mots de plus de quatre lettres de la réponse attendue sont contenus dans la réponse donnée, celle-ci est acceptée (les mots-outils sont de cette manière éliminés dans l’évaluation). 8. Les phrases trop complexes ou trop longues sont d’emblée éliminées par le système 59
  56. 56. Résultats Le système a été évalué sur 50 questions générées. Parmi celles-ci, 34 ont étéjugées satisfaisantes. Les 16 autres ont été classées selon quatre types d’erreurs :les erreurs syntaxiques (11 occurrences), sémantiques (3 occurrences), pédago-giques (1 occurrence) et « bug du programme » (1 occurrence). Parmi les erreurssyntaxiques, beaucoup étaient liées à une mauvaise reconnaissance du verbeprincipal de la phrase. Notons que l’idée première de l’implémentation était de fonctionner sur labase d’une analyse syntaxique de la phrase, mais que celle-ci était beaucoup tropcoûteuse en mémoire et en temps 9 .2.2.2 Une étude de Donna Gates À l’instar de John Wolfe, Donna Gates (2008) envisage la fonction pédagogiquede la génération automatique de questions. Son but est d’offrir un outil d’aideà la compréhension à la lecture, en créant des questions factuelles à partir detextes. Les utilisateurs seraient donc contraints d’approfondir leur lecture dutexte et d’élargir leur compréhension de celui-ci pour être capable de répondreaux questions posées. Cette méthode de lecture se base sur ce qui se trouvedirectement dans le texte. Les questions générées sont uniquement des questionsfactuelles dont la réponse est intratextuelle (Gates, 2008 :10). Le procédé utiliséest le suivant : 1. Génération d’un arbre syntaxique grâce au Standford Syntactic Parser (Klein et Manning, 2003), augmenté d’informations sémantiques récupérées de Wordnet (Fellbaum, 1998) (animé-inanimé, personne, organisation, pays...). 2. En fonction de la phrase et des syntagmes qui la composent, plusieurs types de question sont possibles. Le système en traite quatre et génère un arbre par type de question accepté par la phrase (sujet, objet direct, complément d’agent, expressions temporelles). 9. Rappelons que l’article date de 1976... La puissance des ordinateurs était donc de loininférieure à celle de nos machines actuelles. 60
  57. 57. 3. Transformation de l’arbre à l’aide de règles Tsurgeon (voir 3.2) écrites à la main, le but étant de baliser la réponse à la future question et de transformer la structure de la phrase pour passer du mode déclaratif au mode interrogatif (inversion sujet-verbe, insertion d’un mot interrogatif...). 4. Phase de simplification (suppression des relatives et des syntagmes préposi- tionnels) 5. Règles pour affiner les mots interrogatifs en fonction d’informations séman- tiques 6. Transformation des arbres de questions (forme profonde) en format correct (forme de surface). A partir de l’arbre complexe et annoté, un script génère la question en recherchant les nœuds de surface (terminaux) et rend la phrase dans un anglais correct (bonne forme du « do », accord sujet-verbe...)Evaluation L’évaluation se base sur les paires question-réponse, à partir desquelles deuxévaluateurs attribuent une note à la question générée (parfaite, bonne, mauvaiseou très mauvaise) en regard de la réponse. Ces grades doivent être attribués à lalumière de deux critères : la pertinence sémantique et la grammaticalité. Pour cefaire, 693 questions, issues d’un corpus de 52 passages de CBC4Kids 10 ont étésoumises à l’évaluation. Sur toutes ces questions, 75% ont été retenues commeparfaites, 6% comme bonnes, 15% comme mauvaises et 4% comme très mauvaises.Ces résultats semblent corrects, mais sont à nuancer. Le corpus d’évaluation étantun corpus de textes destinés aux enfants, les passages traités et les phrases entréesau programme sont relativement simples, ce qui facilite l’analyse syntaxique etdonc la génération des questions.Limites L’auteur constate certaines limites dans son approche. Premièrement, l’outilse cantonne aux questions factuelles, au détriment des questions plus complexesde type comment ou pourquoi. En outre, l’auteur cite trois sources d’erreurs 10. www.cbc.ca/kids 61

×