Stratégies d’analysepour laCompréhension de la parole    Vers une approche    à base de Grammaires    d’Arbres Adjoints Le...
Objectif           Traitement de l’écrit                                parole                               reconnaissanc...
Cheminement                                            Analyse                                           squelette        ...
Interfaces Vocales…           Cadres applicatifs           Développer une interface vocale           2 expérimentations   ...
Cadres Applicatifs           Dialogue finalisé: Virtual Speaker 2 (+Coven)              aide au choix de programme TV     ...
Une interface vocale?           Quels composants?           Le problème de la reconnaissance           L’intégration      ...
Composants                Reconnaissance de Parole                                                                        ...
Pb de la reconnaissance                                RP                Explosion combinatoire                     modèle...
Intégration TALN «léger»                                RP              do you and an half                                ...
Sorties de reconnaissance                                                      Graphe de mots /                           ...
Graphe de mots           Holliwood                          Mike                                          a nice          ...
Composants                                             meilleures                           réponse                       ...
Traitement des énoncés                           enoncé oral                                                 réponse      ...
Couplage RP > TALN                                             meilleures                                   réponse       ...
Interfaces Vocales…           Cadres applicatifs           Développer une interface vocale           2 expérimentations   ...
Analyse fine                                               does-N0-deal-with-N1                                           ...
Boucle de prédiction                                                            ?    RP hyp                               ...
Boucle de prédiction                                             (exemple)   whom was the film                            ...
Boucle de prédiction                                             (avantages)                                              ...
Boucle de prédiction                                             (problèmes)                             ambiguïté        ...
Analyse légère                                 S                                         VP               NP              ...
Graphe de mots                                        hi-fi           Holliwood                                    hormon ...
Filtrage progressif                                           ngram        filtre             RP graphe                   ...
Filtrage progressif                                      (exemple)     I would like a video                  ngram        ...
Filtrage progressif                                             (avantages)    fusion de                                 n...
Filtrage progressif                                             (problèmes)    combinaison des                           n...
Interfaces Vocales…           Cadres applicatifs           Couplage RP-TALN           2 expérimentations           Conclus...
Cahier des Charges           Une analyse à la fois...            filtrante                                                ...
Adéquation des LTAG?                                          lexicalisation                                  schémas     ...
Analyse TAG efficace...           Introduction aux grammaires LTAG           Analyser un énoncé...           Trois techniq...
Grammaire de la langue           Substitution - argument                                                               S  ...
Formalisme TAG               X                                               substitution                                 ...
Grammaire de la langue           Adjonction - modifieurs                                     N                     le bon ...
Formalisme TAG               X                   X           adjonction                                                   ...
Grammaire de la langue           Adjonction prédicative                                  S             Paul pourrait mange...
Propriétés TAG           Adjonction englobante                                                  Paul ne mange pas ce pain ...
Propriétés TAG           Localisation des dépendances                                 Quel pain pensez-vous que Paul pourr...
Propriétés TAG           Factorisation des récursions                                                            S        ...
Analyse TAG efficace...           Introduction aux grammaires LTAG           Analyser un énoncé...           Trois techniq...
Enoncés reconnus                                                            feature                                   a   ...
Ambiguïté lexicale                                                                     ...                                ...
Trois approches graduelles                                                                        N           Parsage Tabu...
Parsage tabulaire           Mémorisation / factorisation                       • garder les sous-analyses trouvées        ...
Parsage probabiliste           Probabilité incrémentale « interne »           Critère d’élagage                       • co...
Superétiquetage                  ...                α4                             ...                                    ...
Ambiguïté lexicale                                                                     ...                                ...
Prédiction contextuelle                 α1                     α14              α16                    α34                ...
Prédiction contextuelle                α1                      α14              α16                    α34                ...
Analyse TAG efficace...           Introduction aux grammaires LTAG           Analyser un énoncé...           Trois techniq...
Type linéaire d’arbre (ltt)                       S                           N                                           ...
Superétiquetage étendu                                                                           prédiction               ...
Prédiction contextuelle de ltt                                  <[S] Adj>                          <[S] N>                ...
Localité croissante                       Dépendances de plus en plus locales               S                        V    ...
Localité croissante                       Dépendances de plus en plus locales                            S                ...
Localité croissante                                Dépendances de plus en plus locales                            S       ...
Localité croissante                                   Dépendances de plus en plus locales                                 ...
Localité croissante                                              Dépendances de plus en plus locales                      ...
Généralisation contextuelle                       Comportements contextuels               S                               ...
Généralisation contextuelle                       Comportements contextuels analogues                                après...
Généralisation contextuelle                       Comportements contextuels analogues                                après...
Généralisation contextuelle                     Comportements contextuels                                                 ...
Généralisation contextuelle                   Comportements contextuels analogues                            après dérivat...
Généralisation contextuelle                   Comportements contextuels analogues                            après dérivat...
Un modèle «tout-terrain»           Améliore superétiquetage                     • ajouter 1 ou 2 étapes de parsage        ...
Implémentation           parseur tabulaire LTAG bidirectionel                     •   fondé sur le ltt                    ...
Perspectives           Tests en grandeur réelle           Intégration dans des stratégies de rattrapage                  r...
Conclusion           Traitement de l’écrit                                parole                               reconnaissa...
Prochain SlideShare
Chargement dans…5
×

Soutenance7dec[1]

167 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
167
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Notre travail s’inscrit d ’abord dans une problématique applicative, celle des interfaces vocales, qui va occuper la première partie de notre exposé. Le développement d ’une interface vocale passe par ce que j ’ai appelé ici le couplage RP-TALN, c ’est à dire le couplage entre reconnaissance de la parole et traitement du langage naturel. Nous expliquerons les modalités et les stratégies d ’un tel couplage. Cela nous amènera à un certain type de grammaire, qui présente, comme nous le verrons, de bonnes propriétés vis-à-vis de ce couplage: les grammaire TAG, pour Tree Adjoining Grammar, i.e grammaires d ’arbres adjoints (en fait nous nous intéressons aux LTAG, cad leur version lexicalisée, nous reviendrons sur tout cela bien sûr). D ’où une seconde problématique: comment mener une analyse efficace avec ces grammaires, qui, si elles ont nombre de qualités, souffrent aussi d’une certaine lourdeur d’analyse? Et oui on ne peut pas tout avoir.. Nous développons dans notre thèse deux techniques distinctes et complémentaires pour répondre à ce problème: d ’une part une technique qui vise l ’analyse du squelette syntaxique, c ’est elle que nous présenterons en détail, d ’autre part une technique pour gérer efficacement les équations de traits --d ’accord, de mode etc.-- entre les constituants syntaxiques, mais nous ne nous étendrons sur cette seconde technique, pour respecter la contrainte de temps de cet exposé.
  • Les interfaces vocales donc.. Nous allons présenter les deux applications principales sur lesquelles nous avons travaillé. Après une introduction générale au problème de couplage rp-taln, nous l’illustrons par deux stratégies que nous avons mises en œuvre. Nous passerons alors aux conclusions de cette partie expérimentale de la thèse.
  • Voici deux applications assez différentes, et qui illustrent bien le type d ’interfaces vocales que l’on cherche à développer aujourd’hui. Virtual Speaker est un projet qui a été conduit pour Thomson Multimédia. Il s’agit d ’une interface de dialogue, intégrée au téléviseur, sous la forme d’un présentateur virtuel, dont le but est d’aider l’utilisateur à choisir le programme tv qu’il désire regarder, programme à choisir parmi une vingtaine de chaînes et dans plusieurs langues. Le présentateur virtuel connaît les programmes et leur typologie, et l’utilisateur peut dialoguer librement avec lui --tant qu’il reste dans ce domaine bien particulier du moins-- et bénéficier de son aide. THISL est un projet Européen, qui s’attaque à la transcription automatique des programmes de la BBC. Ces programmes transcrits sont alors indexés dans une grande base de textes. Enfin on offre aux journalistes de faire leur recherche d ’archive audiovisuelle via une interface de requête en langage naturel parlé (par ex. par téléphone). Les programmes transcrits, notamment les flash d ’informations, sans parler des autres émissions, interviews etc., couvrent un domaine du langage qui est énorme, et pour lequel nous ne disposons pas a priori de description complète ni du point de vue de la syntaxe, ni du point de vue de la sémantique. L ’interaction offert peut en revanche rester très simple. Les deux applications se développent donc sur des terrains linguistiques et dialogiques très différents. Pourtant, pour toutes deux, se pose la même question de l’exploitation de ces données linguistiques dans le processus de reconnaissance et de compréhension de parole.
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé  l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
  • Les interfaces vocales donc.. Nous allons présenter les deux applications principales sur lesquelles nous avons travaillé. Après une introduction générale au problème de couplage rp-taln, nous l’illustrons par deux stratégies que nous avons mises en œuvre. Nous passerons alors aux conclusions de cette partie expérimentale de la thèse.
  • Il y a toute sorte de manière de coupler RP et TALN, nous avons expérimenté deux stratégies. Le première est une boucle de prédiction, ou la grammaire traite le meilleur énoncé (ou un petit nombre, filtrés préalablement pour noter les mots soupçonnés d ’erreur) puis suggère des éléments manquants ou erronés, et sélectionne alors d ’autres mots candidats parmi les hypothèses de reconnaissance.
  • « Whom was the film shot (die) » par exemple donnera lieu à une analyse qui reconnaît l’usage interrogatif, passif, participe de N0-shoot-N1, l ’arbre wh-aux-N0-shot-by et propose la préposition « by » comme candidate, qui est alors recherchée dans les hypothèses de mots. Cet exemple illustre également le type de grammaire que nous avons utilisée, et qui est particulièrement adaptée à ce type d’analyse partielle et prédictive: il s’agit d’une grammaire d ’arbre lexicalisée, par opposition à une grammaire de constituants hors contexte, par exemple, pour qui il est moins naturel de coder directement des schémas de verbe comme wh-aux-N0-shot-by , décomposé plutôt en une cascade de sous-règles. Au total, on risque d ’avoir trop de sous-règles incomplètes en fin d’analyse pour savoir quelle règle doit fonder la prédiction. Avec une grammaire d ’arbres, un critère simple est celui de la couverture obtenue avec le schéma incomplet. Is the film about UFOs..
  • Les interfaces vocales donc.. Nous allons présenter les deux applications principales sur lesquelles nous avons travaillé. Après une introduction générale au problème de couplage rp-taln, nous l’illustrons par deux stratégies que nous avons mises en œuvre. Nous passerons alors aux conclusions de cette partie expérimentale de la thèse.
  • Soutenance7dec[1]

    1. 1. Stratégies d’analysepour laCompréhension de la parole Vers une approche à base de Grammaires d’Arbres Adjoints Lexicalisées Soutenance de thèse Ariane Halber ENST 7 décembre 1999
    2. 2. Objectif Traitement de l’écrit parole reconnaissance / compréhension de parole Grammaires techniques LTAG d’intégration techniques d’analyse Instanciations linguistiques 2Position État de l’art Contribution Expérimentation Evaluation Conclusion
    3. 3. Cheminement Analyse squelette Unification de traits Analyse TAG Couplage RP-TALN Interfaces Vocales 3Position État de l’art Contribution Expérimentation Evaluation Conclusion
    4. 4. Interfaces Vocales… Cadres applicatifs Développer une interface vocale 2 expérimentations Conclusions 4Position État de l’art Contribution Expérimentation Evaluation Conclusion
    5. 5. Cadres Applicatifs Dialogue finalisé: Virtual Speaker 2 (+Coven) aide au choix de programme TV 800 mots / énoncés libres / domaine bien décrit / dialogue fin Requêtes à une base de textes: THISL recherche d’archives audiovisuelles BBC 40 000 mots / énoncés libres / domaine non décrit / interaction faible 5Position État de l’art Contribution Expérimentation Evaluation Conclusion
    6. 6. Une interface vocale? Quels composants? Le problème de la reconnaissance L’intégration 6Position État de l’art Contribution Expérimentation Evaluation Conclusion
    7. 7. Composants Reconnaissance de Parole réponse RP TALN système Traitement Automatique du Langage Naturel composant application 7Position État de l’art Contribution Expérimentation Evaluation Conclusion
    8. 8. Pb de la reconnaissance RP Explosion combinatoire modèle acoustiqu e do you hum.. have information on this election ? 8Position État de l’art Contribution Expérimentation Evaluation Conclusion
    9. 9. Intégration TALN «léger» RP do you and an half in four mention on this election ? modèle langage stat. acoustiqu (ngram) e règles de grammaire do you hum.. have information on this election ? 9Position État de l’art Contribution Expérimentation Evaluation Conclusion
    10. 10. Sorties de reconnaissance Graphe de mots / N-meilleures hypothèses RP 100 do you and an half in four mention on this election 94 do the sum in have information on this election 80 the you sum and have modèle langage stat. a for mention and is ale action ? acoustiqu (ngram) e règles de grammaire do you hum.. have do you and an half information on this election ? in four mention on this election ? 10Position État de l’art Contribution Expérimentation Evaluation Conclusion
    11. 11. Graphe de mots Holliwood Mike a nice good is and Anna die suede in I like a video Diana’s would on wedding hi-fi my the Woody hormon 11Position État de l’art Contribution Expérimentation Evaluation Conclusion
    12. 12. Composants meilleures réponse RP hypothèses TALN système Traitement Automatique du Langage Naturel composant application 12Position État de l’art Contribution Expérimentation Evaluation Conclusion
    13. 13. Traitement des énoncés enoncé oral réponse TALN système Do you hum.. have information on this film? analyse interaction interprétation dialogue No, not that one… composant I mean, Spielberg’s, application you bummer! 13Position État de l’art Contribution Expérimentation Evaluation Conclusion
    14. 14. Couplage RP > TALN meilleures réponse RP hypothèses TALN système modèle analyse interaction langage stat. interprétation dialogue acoustiqu (ngram) e règles de grammaire do you hum.. have do you and an half information on this election ? in four mention on this election ? 14Position État de l’art Contribution Expérimentation Evaluation Conclusion
    15. 15. Interfaces Vocales… Cadres applicatifs Développer une interface vocale 2 expérimentations Conclusions 15Position État de l’art Contribution Expérimentation Evaluation Conclusion
    16. 16. Analyse fine does-N0-deal-with-N1 S VP V V PP N Prep it does N0 deal with N1 [type : film-entity] [type : film-topic] 16Position État de l’art Contribution Expérimentation Evaluation Conclusion
    17. 17. Boucle de prédiction ? RP hyp dialogue.. filtre parseur paramètres grammaire acquis 17Position État de l’art Contribution Expérimentation Evaluation Conclusion
    18. 18. Boucle de prédiction (exemple) whom was the film wh-aux-N0-shot-(by) shot (die/by/bye/..) ? Does it deal with ? does-N0-deal-with-(N1) (you foes/UFOs/..) ? what time does it (smart/art/start/..) at? dialogue.. filtre parseur paramètres grammaire acquis 18Position État de l’art Contribution Expérimentation Evaluation Conclusion
    19. 19. Boucle de prédiction (avantages) prédictions retour vers la ? contextuelles reconnaissance analyse partielle (robuste) dialogue.. filtre parseur paramètres grammaire grammaire fine acquis du domaine 19Position État de l’art Contribution Expérimentation Evaluation Conclusion
    20. 20. Boucle de prédiction (problèmes) ambiguïté lexicale surgénération ? dialogue.. filtre parseur paramètres grammaire acquis (développement) (insuffisant) 20Position État de l’art Contribution Expérimentation Evaluation Conclusion
    21. 21. Analyse légère S VP NP Vaux NP NP PP Aux V Det N Prep KW I would like a video on Diana’s wedding Formulation KW 21Position État de l’art Contribution Expérimentation Evaluation Conclusion
    22. 22. Graphe de mots hi-fi Holliwood hormon the a nice Mike good is and Anna die suede in I like a video Diana’s would on wedding my Woody 22Position État de l’art Contribution Expérimentation Evaluation Conclusion
    23. 23. Filtrage progressif ngram filtre RP graphe moteur de parseur recherche.. grammaire règles sous-règles mots-clefs robustes 23Position État de l’art Contribution Expérimentation Evaluation Conclusion
    24. 24. Filtrage progressif (exemple) I would like a video ngram filtre on Diana’s wedding I would like a video on <> Diana’s wedding moteur de parseur recherche.. 24Position État de l’art Contribution Expérimentation Evaluation Conclusion
    25. 25. Filtrage progressif (avantages) fusion de ngram filtre connaissances moteur de parseur recherche.. grammaire légère analyses partielles (robustes) 25Position État de l’art Contribution Expérimentation Evaluation Conclusion
    26. 26. Filtrage progressif (problèmes) combinaison des ngram filtre critères ? moteur de parseur recherche.. rapidité / efficacité du statut et parsage parcours de ces règles ? (descendant) 26Position État de l’art Contribution Expérimentation Evaluation Conclusion
    27. 27. Interfaces Vocales… Cadres applicatifs Couplage RP-TALN 2 expérimentations Conclusions 27Position État de l’art Contribution Expérimentation Evaluation Conclusion
    28. 28. Cahier des Charges Une analyse à la fois... filtrante fine hypothèses de reconnaissance interprétation robuste oralité, erreurs RP, couverture grammaire rapide contrainte temps réel La quadrature du cercle? 28Position État de l’art Contribution Expérimentation Evaluation Conclusion
    29. 29. Adéquation des LTAG? lexicalisation schémas unités syntaxiques sémantiques filtrante fine analyse lexicale finesse syntaxique + sémantique robuste schémas oraux / analyse partielle / dépendances heuristiques rapide C’est par ici 29Position État de l’art Contribution Expérimentation Evaluation Conclusion
    30. 30. Analyse TAG efficace... Introduction aux grammaires LTAG Analyser un énoncé... Trois techniques Un cadre pour les unifier Applications 30Position État de l’art Contribution Expérimentation Evaluation Conclusion
    31. 31. Grammaire de la langue Substitution - argument S V Paul aime le bon pain N0 aime N1 N N N Det Adj Paul le bon pain 31Position État de l’art Contribution Expérimentation Evaluation Conclusion
    32. 32. Formalisme TAG X substitution X X 32Position État de l’art Contribution Expérimentation Evaluation Conclusion
    33. 33. Grammaire de la langue Adjonction - modifieurs N le bon petit pain N N Det N N Adj Adj N bon N* Det le petit pain Adj N Adj N le bon petit pain 33Position État de l’art Contribution Expérimentation Evaluation Conclusion
    34. 34. Formalisme TAG X X adjonction X X X* 34Position État de l’art Contribution Expérimentation Evaluation Conclusion
    35. 35. Grammaire de la langue Adjonction prédicative S Paul pourrait manger ce pain V V N0 V N1 S pourrait V* Det N Paul manger ce pain N0 V N1 V V Det N Paul pourrait manger ce pain 35Position État de l’art Contribution Expérimentation Evaluation Conclusion
    36. 36. Propriétés TAG Adjonction englobante Paul ne mange pas ce pain S V N0 V N1 Det N Conj Conj ne V* pas Paul mange ce pain 36Position État de l’art Contribution Expérimentation Evaluation Conclusion
    37. 37. Propriétés TAG Localisation des dépendances Quel pain pensez-vous que Paul pourrait manger? quN S Qu N V quel pain S quN1 N0 manger V V N C N Conj V pensez vous que S* Paul pourrait V* 37Position État de l’art Contribution Expérimentation Evaluation Conclusion
    38. 38. Propriétés TAG Factorisation des récursions S Marie pense que Jean pense que .. Paul mange le S bon petit .. pain noir .. N0 V N1 V N C Det N S N Conj Paul mange le pain Adj Marie pense que S* N V C N .. N* noir N Conj Adj Jean pense que S* Adj bon N* petit 38N*Position État de l’art Contribution Expérimentation Evaluation Conclusion
    39. 39. Analyse TAG efficace... Introduction aux grammaires LTAG Analyser un énoncé... Trois techniques Un cadre pour les unifier Application 39Position État de l’art Contribution Expérimentation Evaluation Conclusion
    40. 40. Enoncés reconnus feature a at this this what end film and that is on is the if done graphe de mots hypothèses 40Position État de l’art Contribution Expérimentation Evaluation Conclusion
    41. 41. Ambiguïté lexicale ... N α17 ... ... N* C ... α15 Conj Conj V N N β34 α2 S α3 S V N N Wh V PP α14 N N β16 PP Pron N* Prep N1 N1 N* α1 S α4 S N PP α34 β14 α16 α35 V N Adj N V PP Det N* N Adj Prep N1 is that film on ? (ce film est-il en cours [de diffusion]?) 41Position État de l’art Contribution Expérimentation Evaluation Conclusion
    42. 42. Trois approches graduelles N Parsage Tabulaire factorisation des analyses is really that film on Parsage probabiliste N 0.3 C 0.04 sélection dynamique des items dérivés is that film on Superétiquetage 0.02 pré-sélection des arbres élémentaires is that film on 42Position État de l’art Contribution Expérimentation Evaluation Conclusion
    43. 43. Parsage tabulaire Mémorisation / factorisation • garder les sous-analyses trouvées • # exponentiel de dérivations mais parsage polynomial Heuristiques de parcours np vp s-conj-... comp-……. vp sp s det n adj adv wh conj v v prep n tell me when that film is on tomorrow 43Position État de l’art Contribution Expérimentation Evaluation Conclusion
    44. 44. Parsage probabiliste Probabilité incrémentale « interne » Critère d’élagage • cohérence interne + capacité de combinaison future ? np 0.03 vp s-conj-... comp-……. 0.02 sp s det n wh v adj adv conj v prep n tell me when that film is on tomorrow 44Position État de l’art Contribution Expérimentation Evaluation Conclusion
    45. 45. Superétiquetage ... α4 ... ... ... α3 α4 α17 α34 prédiction α2 α14 β16 β34 contextuelle (bigram) α1 β14 α16 α35 émission <s> is that film on </s> lexicale 45Position État de l’art Contribution Expérimentation Evaluation Conclusion
    46. 46. Ambiguïté lexicale ... N α17 ... ... N* C ... α15 Conj Conj V N N β34 α2 S α3 S V N N Wh V PP α14 N N β16 PP Pron N* Prep N1 N1 N* α1 S α4 S N PP α34 β14 α16 α35 V N Adj N V PP Det N* N Adj Prep N1 is that film on ? (ce film est-il en cours [de diffusion]?) 46Position État de l’art Contribution Expérimentation Evaluation Conclusion
    47. 47. Prédiction contextuelle α1 α14 α16 α34 S N PP V N Adj Pron N Prep N1 is that film on 47Position État de l’art Contribution Expérimentation Evaluation Conclusion
    48. 48. Prédiction contextuelle α1 α14 α16 α34 S N PP V N Adj Pron N Prep N1 <(V) N Adj> <(N)> <(N)> <(Prep) N> <(V) N N> <(Det) N*> <(Adj)> <N (V) PP> <(Conj)> <Conj (V) N> <N* (Prep) N> 48Position État de l’art Contribution Expérimentation Evaluation Conclusion
    49. 49. Analyse TAG efficace... Introduction aux grammaires LTAG Analyser un énoncé... Trois techniques Un cadre pour les unifier Application 49Position État de l’art Contribution Expérimentation Evaluation Conclusion
    50. 50. Type linéaire d’arbre (ltt) S N Det N V N Adj Forme finale: (that) (film) (is) S (S <> S ) (S °V<>N Adj S° S ) (N <> N ) V N Adj S (S °V<> Adj S° S ) V N Adj Det N (is) (that) (film) (on) Det N (is) (that) (film) 50Position État de l’art Contribution Expérimentation Evaluation Conclusion
    51. 51. Superétiquetage étendu prédiction contextuelle α2 α14 α17 β34 (bigram) α1 β14 α16 α35 émission <s> is that film on </s> lexicale 51Position État de l’art Contribution Expérimentation Evaluation Conclusion
    52. 52. Prédiction contextuelle de ltt <[S] Adj> <[S] N> <[*N] N> <[S] N Adj> <°V [S] V° N Adj> <°N [N] N°> <[Adj]> <°V [S] V° N N> <°N [N*]> <°N [N] N°> <[PP] N> <N °V [S] V° PP> <[Conj]> <Conj °V [*N] V° N> <[N*] °PP N PP°><s> is that film on </s> 52Position État de l’art Contribution Expérimentation Evaluation Conclusion
    53. 53. Localité croissante Dépendances de plus en plus locales S V N N Adj V Adv Det (is) N Adj V* (really) (that) N* (film) (violent) 53Position État de l’art Contribution Expérimentation Evaluation Conclusion
    54. 54. Localité croissante Dépendances de plus en plus locales S N V N Adj V Adv Det (is) (really) N Adj (that) N* (film) (violent) 54Position État de l’art Contribution Expérimentation Evaluation Conclusion
    55. 55. Localité croissante Dépendances de plus en plus locales S N V Adj V Adv Det N (is) (really) N Adj (that) (film) (violent) 55Position État de l’art Contribution Expérimentation Evaluation Conclusion
    56. 56. Localité croissante Dépendances de plus en plus locales S V N Adj V Adv Det N (is) (really) (that) (film) Adj (violent) 56Position État de l’art Contribution Expérimentation Evaluation Conclusion
    57. 57. Localité croissante Dépendances de plus en plus locales S V N Adj V Adv Det N (is) (really) (that) (film) (violent) 57Position État de l’art Contribution Expérimentation Evaluation Conclusion
    58. 58. Généralisation contextuelle Comportements contextuels S S V V (is) N Adj N (is) Adj 58Position État de l’art Contribution Expérimentation Evaluation Conclusion
    59. 59. Généralisation contextuelle Comportements contextuels analogues après dérivation S S V V (is) N Adj N (is) Adj S S N N V Det N Det N V (is) (that) (film) Adj (that) (film) (is) Adj 59Position État de l’art Contribution Expérimentation Evaluation Conclusion
    60. 60. Généralisation contextuelle Comportements contextuels analogues après dérivation S S V V (is) N Adj N (is) Adj S S N Adj N Adj V Det N Det N V (is) (that) (film) Adj (on) (that) (film) (is) Adj (on) 60Position État de l’art Contribution Expérimentation Evaluation Conclusion
    61. 61. Généralisation contextuelle Comportements contextuels S V V N0 (give) N2 N1 S V V N0 (watch) N1 61Position État de l’art Contribution Expérimentation Evaluation Conclusion
    62. 62. Généralisation contextuelle Comportements contextuels analogues après dérivation S V V N0 (give) N2 N1 S S V V V V N2 N0 (watch) N1 N0 (give) (me) N1 62Position État de l’art Contribution Expérimentation Evaluation Conclusion
    63. 63. Généralisation contextuelle Comportements contextuels analogues après dérivation S V V N0 (give) N2 N1 S S N V N V N N V Det N V N2 Det N (they) N0 (watch) N1 (the) (program) (they) N0 (give) (me) N1 (the) (program) 63Position État de l’art Contribution Expérimentation Evaluation Conclusion
    64. 64. Un modèle «tout-terrain» Améliore superétiquetage • ajouter 1 ou 2 étapes de parsage Intermédiaire étiquetage/parsage • arbres élémentaires + qques dépendances Intègre étiquetage dans parsage • choix avant/pendant parsage ratio tp/précis. Optimise parsage probabiliste • apporte facteur contextuel «outside» 64Position État de l’art Contribution Expérimentation Evaluation Conclusion
    65. 65. Implémentation parseur tabulaire LTAG bidirectionel • fondé sur le ltt • algo correct & complet • complexité O(n6) + distinction CF / CS • codé en PROLOG Modèle statistique • probabilités internes dans le parseur tabulaire • calcul de lissage pour le modèle contextuel • apprentissage et élagage encore à valider 65Position État de l’art Contribution Expérimentation Evaluation Conclusion
    66. 66. Perspectives Tests en grandeur réelle Intégration dans des stratégies de rattrapage recherche de dépendances prise en compte de l’oralité Outil paramétrable pour interfaces vocales 66Position État de l’art Contribution Expérimentation Evaluation Conclusion
    67. 67. Conclusion Traitement de l’écrit parole reconnaissance / compréhension de parole Grammaires unifications LTAG de traits oralité élagage statistique sémantique techniques linguistique d’analyse 67Position État de l’art Contribution Expérimentation Evaluation Conclusion

    ×