Investigating the evaluation                    Étude de LÉVALUATION DESof spoken dialogue systems                    SYST...
Ioannis              KANELLOS	  Philippe                     MarianneBRETIER	                    LAURENT	                 ...
Automates                 Vocaux                            évaluationProblématique                                       ...
Problématique
Serveurs vocaux interactifs      automates vocaux                                  répondeurs automatiquessystèmes de dial...
Architecture        Je ne peux    RECONNAISSANCE          pas me       connecter à        VOCALE       COMPRÉHENSION DU   ...
Des pratiques d’évaluation                                                                                                ...
http://www.speech.cs.cmu.edu/letsgo/                                                   DonnéesLogs systèmes   Annotations ...
Evanini et al., 2008 Le système reconnaît-il avec précision les énoncés de l’utilisateur ? Les réponses du système sont ...
ITU-T P.851                                                   DonnéesLogs systèmes   Annotations   questionnaires         ...
 Fréquence	  cardiaque	                                                                    	                             ...
Démarche Compositionnelle	                                                                            PARADISE	           ...
L’évaluation	  Définition             est un processus ajustable qui englobe :                                            ...
Elle Est sous influences	                  Objet évalué                              Groupe d’influenceNature de la       ...
Un support   d’argumentation et de justificationà la prise de décision                         9
Cohabitation de formes    Adaptées à des contextes ded’évaluation différentes    mise en œuvre particuliers    Coordonner ...
1Coordonner
Pas de méthodologie standardHomonymie                                          Accomplissement de la tâche,               ...
Pas de méthodologie standardHomonymiesynonymie                          Efficacité                                 Pourcen...
Pas de méthodologie standardHomonymiesynonymie            Communication difficile entre acteurs                           ...
Alignement des pratiques d’évaluation (≠ standardisation)	  Démarche système d’informationSolution informatique décisionne...
Tableaux                    Analyses                                                                                    Ta...
1215
1216
Point  de vue                          Tableaux                           de bord                                         ...
2décrire
alphabet opérateurs         formules bien formées                                 12                                 18   ...
Alphabet Un corpus de dialogues est une suite ordonnée d’échantillons temporels auxquels on associe        Ex : « l’utilis...
Opérateurs                                                      non, ou, et,                                              ...
E	   ensemble des échantillons temporels                            F	   ensemble des fonctions de E → {0,1}Une descriptio...
Le système comprend le mot « horaire »                                             Limitation                       (1,0,0...
le système comprend le mot « horaire »	          cl’utilisateur énonce le mot « horaire »	         hle mot « horaire » pro...
Hiérarchie de référentiels                                             Nombre moyen de tours                              ...
Durée du dialogueDurée d’un tour de parole                                                                     Vérifié sur...
Durée du dialogueDurée d’un tour de paroleNombre de tours de parolesDélai de réponse du systèmeNombre de demandes daide pa...
Durée du dialogueDurée d’un tour de parole système                                    f = S  + U. f1 ou f = ¬US  + U. f1No...
Efficience               Mesure	  de	  la	  précision	  et	  de	  la	              Quan,té	  de	  ressources	  u,lisées	  ...
Système de description	                 Objectifsd’un corpus de dialogues               d’évaluation                      ...
Efficience                                                                                                                ...
Applicable à tout KPINon unicité des   Extensible   Capable de distinguer                                 deux KPI par leu...
3Choisir
communautésDe pratiques      Quels     Type de solution                  KPI                  choisir                     ...
Caractériser les communautéspar distribution des niveaux hiérarchiques                       Appel      Phase      Tour   ...
calcul de distance                                                                                                        ...
calcul de distance                                                            Efficience        Mesure	  de	  la	  précisi...
Prendre du recul       Idiolecte   Méthodologies d’évaluation ( Instanciation )      Sociolecte   Contexte d’évaluation   ...
Conclusion
Appréhender	            Coordonner	  Étude sur l’évaluation en                            Approche systèmegénéral, et des ...
PErspectives    Enrichir le modèle formelAppliquer à davantage de domaines   Intégrer les contributions                   ...
?Merci       20            25            27            39            36            12
Prochain SlideShare
Chargement dans…5
×

Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"

889 vues

Publié le

This thesis tackles the issue of evaluation in the field of Spoken Dialogue Systems (SDS). Faced with a great disparity of evaluation needs and methods, this work is an attempt to unification between distinct forms of evaluation, locally adjusted according to contextual and applicative factors. It develops the fundamental idea that: evaluation is an argumentative and justificative support process to decision-making. We propose two main contributions, based on an original compositional definition of evaluation metrics. First, observing that the absence of common conceptual foundations for evaluation hinders cooperation within projects, we present an application framework tailored to rationalize the design of evaluation instruments inside and across the project teams. And second, we set up a formal description scheme for SDS evaluation metrics that permits to better discern their construction structures, and endeavour varied comparison exercises.


Design librement inspiré de Erik KLIMCZK (http://noteandpoint.com/documents/pdf/eclimczak-designtalk.pdf)

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
889
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Merci monsieur le président, … J’ai l’honneur de vous présenter aujourd’hui les résultats de mon travail de ces trois dernières années, concrétisés dans la thèse que j’ai rédigé en anglais sous le titre de « … ». Pour des raisons évidentes je ferai aujourd’hui la présentation en Français. Il s’agit donc d’une étude de l’évaluation des systèmes de dialogue parlé, suite à laquelle nous proposons : d’une part un modèle conceptuel pour aider à une meilleure appréhension des différentes pratiques d’évaluation, et, d’autre part, un support applicatif pour favoriser la création de synergies entre des pratiques hétérogènes.
  • Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"

    1. 1. Investigating the evaluation Étude de LÉVALUATION DESof spoken dialogue systems SYSTÈMES DE DIALOGUE PARLÉTowards  a  coordina,on  of   Pour  une  coordina,on  de  pra,ques  heterogeneous  prac,ces   d’évalua,on  hétérogènes   Soutenance  de  thèse  de  Doctorat   Marianne  Laurent,  Brest,  le  29/11/2011  
    2. 2. Ioannis KANELLOS  Philippe MarianneBRETIER   LAURENT   1
    3. 3. Automates Vocaux évaluationProblématique Coordination   0 Modèle de description Exercices de Conclusions   Comparaison 2
    4. 4. Problématique
    5. 5. Serveurs vocaux interactifs automates vocaux répondeurs automatiquessystèmes de dialogue 4
    6. 6. Architecture Je ne peux RECONNAISSANCE pas me connecter à VOCALE COMPRÉHENSION DU Internet ! LANGAGE NATUREL GESTIONNAIRE DE DIALOGUES Avez-vous GÉNÉRATION DU SYNTHÈSE LANGAGE NATUREL vérifié vos filtres ? VOCALE 5
    7. 7. Des pratiques d’évaluation variés … dans un processus d’ajustement continu Faisabilité   Correc,ons   Ajustements   Supervision   Études & Tests Phase Mise en Réalisationspécifications utilisateurs pilote Exploitation Ajustement itératif de la solution 6
    8. 8. http://www.speech.cs.cmu.edu/letsgo/ DonnéesLogs systèmes Annotations questionnaires physiométriques 5 6
    9. 9. Evanini et al., 2008 Le système reconnaît-il avec précision les énoncés de l’utilisateur ? Les réponses du système sont telles appropriées et utiles ? Le système identifie-t-il le motif d’appel et y répond-il de manière adéquate ? Données Logs systèmes Annotations questionnaires physiométriques 5 6
    10. 10. ITU-T P.851 DonnéesLogs systèmes Annotations questionnaires physiométriques 5 6
    11. 11.  Fréquence  cardiaque      Conductance  cutanée      Fréquence  respiratoire      Température  corporelle      Diamètre  pupillaire     DonnéesLogs systèmes Annotations questionnaires physiométriques 5 6
    12. 12. Démarche Compositionnelle   PARADISE   SERVQUAL   WoZ  GOLD  Standard   …   Tableau de bord Métriques haut niveau Efficience   Facilité  d’u,lisa,on   Agréga,on   …   Durée  du  dialogue   Métriques de base Nombre  de  tours  de  parole   Nombre  de  demande  d’assistance   Temps  de  réponse  du  système   Données Nombre  de  raccrochés  prématurés  Logs systèmes Annotations questionnaires Ra,o  d’appels  abou,s     physiométriques Taux  d’erreur  de  la  reconnaissance  vocale   Sa,sfac,on  u,lisateur   Description Jugement, comportement …   Recommandations UIT-T P.851 et P. Supp24 Etude d’usages, Orange Labs 5 6
    13. 13. L’évaluation  Définition est un processus ajustable qui englobe : 1 la capture et   2 le traitement d’informations Pertinentes pour   3 comparer des alternatives entre elles ou à une référence 7
    14. 14. Elle Est sous influences   Objet évalué Groupe d’influenceNature de la traditions & décision situation Figures normes évaluation Ressources & d’évaluation d’identification Dynamique contraintes de groupe Pas de méthodologie d’évaluation universelle ! 8 5
    15. 15. Un support d’argumentation et de justificationà la prise de décision 9
    16. 16. Cohabitation de formes Adaptées à des contextes ded’évaluation différentes mise en œuvre particuliers Coordonner (2) Décrire et les pratiques (1) Choisir (3) 10 5
    17. 17. 1Coordonner
    18. 18. Pas de méthodologie standardHomonymie Accomplissement de la tâche, Satisfaction utilisateur, etc.synonymie Capacité à produire un résultat Efficience = Moyens engagés Durée du dialogue, Mesure de l’effort cognitif, etc. 12
    19. 19. Pas de méthodologie standardHomonymiesynonymie Efficacité Pourcentage de tâches résolues Efficience = Durée moyenne des dialogues Performance 12
    20. 20. Pas de méthodologie standardHomonymiesynonymie Communication difficile entre acteurs 12
    21. 21. Alignement des pratiques d’évaluation (≠ standardisation)  Démarche système d’informationSolution informatique décisionnelle 12 13
    22. 22. Tableaux Analyses Tableaux de bord de bord détaillées personnalisésDurée du Ratio Appelsdialogue d’erreurs aboutis Des métriques de base Requêtes SQL   communes DataMart   (MySQL)   Routines python   Un unique corpus de données Fichier  de  log   Fichier  de  log   système  a     système  b     (XML,  HTML,  …)   (XML,  HTML,  …)   14 12
    23. 23. 1215
    24. 24. 1216
    25. 25. Point de vue Tableaux de bord Analyses détaillées Multi Durée du Ratio Appels Point Of dialogue d’erreurs aboutisTraitement vieW DataMart   (MySQL)   Evaluation Refinement Capture Fichier  de  log   système  a     (XML,  HTML,  …)   Fichier  de  log   système  b     (XML,  HTML,  …)   Studio 12 17
    26. 26. 2décrire
    27. 27. alphabet opérateurs formules bien formées 12 18 19
    28. 28. Alphabet Un corpus de dialogues est une suite ordonnée d’échantillons temporels auxquels on associe Ex : « l’utilisateur parle » ou non une propriété 1   0   0   500   Temps  (ms)   20 5
    29. 29. Opérateurs non, ou, et, ou exclusif, ... Ex : Construction d’une fonction « silence »L’utilisateur parle   U   Le système parle   S   U + S  «  silence »    (U + S) 21 5
    30. 30. E   ensemble des échantillons temporels F   ensemble des fonctions de E → {0,1}Une description formelle des propriétés est alors possible dans F 22 20 12
    31. 31. Le système comprend le mot « horaire » Limitation (1,0,0,…,  0)   0   500ms   (0,1,0,…,  0)   0   500ms   (0,0,1,…,  0)   0   500ms   Comment créer des référentiels adaptés à chaque propriété ? 20 12 21 23
    32. 32. le système comprend le mot « horaire »   cl’utilisateur énonce le mot « horaire »   hle mot « horaire » prononcé par Ph(c)l’utilisateur est compris par le système   0   500   Ph(c) h1   h2   h3   Occurrences  «  horaire  »  prononcés  par  l’u,lisateur   ProjectionRééchantillonnage 24 5
    33. 33. Hiérarchie de référentiels Nombre moyen de tours de parole nécessaires àDélai de réponse la compréhension d’un Satisfaction du système concept par le système utilisateur Milliseconde   Mot   Concept   Tour de parole Phase   Dialogue   Métrique bas niveau… … haut niveau 23 20 25 12
    34. 34. Durée du dialogueDurée d’un tour de parole Vérifié sur les 69 KPINombre de tours de paroles de la recommandation UIT-T P. Supp.24Délai de réponse du systèmeNombre de demandes daide par l’utilisateurNombre de rejets de la reconnaissance vocale Paramètres décrivant linteractionNombre de répliques où TOUS les concepts énoncés par l’utilisateursont compris par le système avec les dialogueurs automatiquesNombre de répliques où AU MOINS UN des concepts énoncés parl’utilisateur est comprisNombre d’énoncés incompréhensibles s (PU (UCi • SCi ))Ratio de concepts correctement interprétés f =∑ i s (PU (UCi ))... 20 25 27 12 €
    35. 35. Durée du dialogueDurée d’un tour de paroleNombre de tours de parolesDélai de réponse du systèmeNombre de demandes daide par l’utilisateurNombre de rejets de la reconnaissance vocaleNombre de répliques où TOUS les concepts énoncés par l’utilisateur UCi : l’utilisateur a SCi : le systèmesont compris par le système énoncé le concept i comprend le concept iNombre de répliques où AU MOINS UN des concepts énoncés parl’utilisateur est comprisNombre d’énoncés incompréhensibles s (PU (UCi • SCi ))Ratio de concepts correctement interprétés f =∑ i s (PU (UCi ))... U : L’utilisateur parle 20 25 27 12 €
    36. 36. Durée du dialogueDurée d’un tour de parole système f = S + U. f1 ou f = ¬US + U. f1Nombre de tours de parolesDélai de réponse du systèmeNombre de demandes daide par l’utilisateur € €Nombre de rejets de la reconnaissance vocale f = ∏i ¬[ pU (UCi ) ⊕ pU (SCi )]Nombre de répliques où TOUS les concepts énoncés par l’utilisateursont compris par le systèmeNombre de répliques où AU MOINS UN des concepts énoncés par f = ∑i ¬[ pU (UCi ) ⊕ pU (SCi )]l’utilisateur est comprisNombre d’énoncés incompréhensibles € s (PU (UCi • SCi ))Ratio de concepts correctement interprétés f = ∑i s (PU (UCi ))... € 20 25 27 12 €
    37. 37. Efficience Mesure  de  la  précision  et  de  la   Quan,té  de  ressources  u,lisées  pour   complétude  des  tâches  système   exécuter  les  différentes  tâches  du  système   80%   20%  R Complétude   Précision   Temps   Effort  humain   des  tâches   des  tâches   %  de  bonne   %  de  transac,ons   Durée  moyenne   compréhension  des   Mesure  de  l’effort   réalisées  avec  succès   d’un  dialogue   concepts  énoncés   s (PU (UCi • SCi ))F ∑i s (P (UC )) U i €
    38. 38. Système de description   Objectifsd’un corpus de dialogues d’évaluation KPIindicators   F key performance   24 20 26 12
    39. 39. Efficience Comparer Efficience Mesure  de  la  précision   Quan,té  de  ressources   Mesure  de  la   Temps  nécessaire   et  de  la  complétude   u,lisées  pour  exécuter   précision  des   pour  exécuter  les   des  tâches  système   les  tâches  du  système   tâches  système   tâches  du  système   Comparaison Complétude   Précision   Temps   Effort  humain   Précision   Temps   d’arbres de des  tâches   des  tâches   des  tâches   construction%  de  transac,ons   %  de  bonne   Durée  moyenne   Mesure  de   %  de  bonne   Nombre  de   réalisées  avec   compréhension  des   d’un  dialogue   l’effort   compréhension  des   tours  de  parole   succès   concepts  énoncés   concepts  énoncés   s (P (UCi • SC )) par appel : f a = ∑ s (PU (UCi • SCi )) mesures de ∑i sU(P (UC )) i s (PU (UCi )) similitude entre i U i ∑ fa vecteurs de F28   a∈ A Moyenne sur corpus A : A 20 25 26 12 € €
    40. 40. Applicable à tout KPINon unicité des Extensible Capable de distinguer deux KPI par leurreprésentations discernant constructionContre-intuitif Flexible Référentiels adaptés au niveau d’intérêt de chaque KPI 20 25 29 27 12
    41. 41. 3Choisir
    42. 42. communautésDe pratiques Quels Type de solution KPI choisir ObjectifsPhase du projet ? 20 25 29 27 12 31
    43. 43. Caractériser les communautéspar distribution des niveaux hiérarchiques Appel Phase Tour Concept Mot Ms Appel Phase tour Concept Mot Ms Marketing 0,86   0,14   -­‐   -­‐   -­‐   -­‐   Maîtrise d’ouvrage 0,55   0,15   0,18   0,09   -­‐   0,03   Métier 0,52   0,05   0,26   0,11   -­‐   0,02   Ergonomie 0,36   0,31   0,16   0,09   0,04   -­‐   Technique 0,30   0,24   0,12   0,16   0,15   -­‐   Expert Parole 0,22   0,20   0,18   0,16   0,22   -­‐   Corpus de KPI en usage au sein des équipes Orange Labs 32 20 30 25 27 12
    44. 44. calcul de distance Distance ( MOA, Efficience ) Appel Efficience = Distribution ( MOA, appel ) 0,55 Phase Appel + 0,5 * [ D ( MOA, phase) 0,15 Mesure  de  la  précision  et  de  la   Quan,té  de  ressources  u,lisées  pour   + 0,5 D ( MOA, phase) complétude  des  tâches  système   exécuter  les  différentes  tâches  du  système   + 0,5 D ( MOA, concept ) ] 80%   20%   Phase Concept Appel Appel + 0,5 * [ D ( MOA, appel ) Complétude   Précision  des   + 0,2 D ( MOA, appel ) Temps   Effort  humain   des  tâches   tâches   + 0,8 D ( MOA, appel) ] %  de  transac,ons   %  de  bonne   Durée   = 1.265 compréhension   Mesure  de   réalisées  avec   moyenne  d’un   des  concepts   l’effort   succès   dialogue   énoncés   33 20 25 27 12 31
    45. 45. calcul de distance Efficience Mesure  de  la  précision  et  de  la   Quan,té  de  ressources  u,lisées  pour   MArketing 1,821 complétude  des  tâches  système   exécuter  les  différentes  tâches  du  système   MOA 1,265 80%   20%   Métier 1,258 Complétude   Précision  des   Temps   Effort  humain   Ergonomie 0,982 des  tâches   tâches   %  de  bonne   Technique 0,817 %  de  transac,ons   Durée   compréhension   Mesure  de   réalisées  avec   des  concepts   moyenne  d’un   l’effort   SLU 0,633 succès   dialogue   énoncés   Appel Phase tour Concept Mot Ms 34 20 25 27 12 31
    46. 46. Prendre du recul Idiolecte Méthodologies d’évaluation ( Instanciation ) Sociolecte Contexte d’évaluation Dialecte Communauté de pratiques langage Système formel 32 20 25 35 27 12
    47. 47. Conclusion
    48. 48. Appréhender   Coordonner  Étude sur l’évaluation en Approche systèmegénéral, et des automates d’information vocaux en particulier Comparer  Caractérisation formelle Décrire   Modèle formel de formes de pratiques 34 20 25 27 37 12
    49. 49. PErspectives Enrichir le modèle formelAppliquer à davantage de domaines Intégrer les contributions 38 20 25 35 27 12
    50. 50. ?Merci 20 25 27 39 36 12

    ×