Rapport davancement de thèseDoctorant: LE Quoc AnhEmail: quoc-anh.le@telecom-paristech.frTitre de la thèse: Modèle de gest...
Divers:- Participation à la formation Atala sur lannotation de corpus vidéo le 21 janvier 2011 à Paris.- Participation à l...
Modèle de gestes expressifs1. ObjectifsL’objectif de la thèse est de développer des agents capables de produire des gestes...
d’exécution, leur fluidité et leur rapidité. Nous implémenterons un tel modèle pour le       robot NAO.2. MéthodologieLe s...
co-verbaux des bras et mains ainsi que de la tête. Les gestes du visage (i.e. expressions faciales)et de la posture ne son...
caractéristique différente de ces gestes est que tandis que les gestes déictiques, iconiques etmétaphoriques accompagnent ...
système de carrés concentriques centrés sur l’acteur. Dans ce schéma (voir Figure 1), il estdivisé en petits secteurs dont...
3. Les travaux récents sur le contrôle des gestes expressifs de robot humanoïdePlusieurs initiatives ont été proposées réc...
4. Architecture du systèmeL’approche proposée dans cette thèse est de sappuyer sur le système dagent conversationnelanimé ...
dintentions et démotions à transmettre, le système GRETA calcule, grâce à la planification descomportements, la séquence c...
celui qui na pas de gestes avec lorientation du poignet vers lintérieur. Le deuxième exempleest particulièrement important...
Dans lexemple ci-dessus, la configuration dun geste de négation est décrit au moment dustroke: la main droite est levée et...
gestes de la main. Dans le cas particulier du robot, le message BML ne contient que les signauxdes gestes de la tête et de...
reçoit les keyframes du processus précédent et calcule les valeurs des paramètres delanimation. Pour lagent virtuel Greta,...
Références[1] http://perso.telecom-paristech.fr/~pelachau/Greta/[2] Heylen, D., Kopp, S., Marsella, S., Pelachaud, C., Vil...
[17] Wallbott, H G. Bodily expression of emotion. In European Journal of Social Psychology, 28,879-896, (1998).[18] Kipp, ...
Prochain SlideShare
Chargement dans…5
×

Mid-term thesis report

695 vues

Publié le

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
695
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Mid-term thesis report

  1. 1. Rapport davancement de thèseDoctorant: LE Quoc AnhEmail: quoc-anh.le@telecom-paristech.frTitre de la thèse: Modèle de gestes expressifsDirecteurs de thèse: Prof. Catherine Pelachaud et Ass. Prof. Tamy BoubekeurDate de début de la thèse: 16/09/2009Date de soutenance envisagée: Fin 2012Date de soumission: 02/03/2011Cours de la formation doctorale suivis (proposés par EDITE de Paris): 1. Simplifier la rédaction darticles et de présentations avec LaTeX (2 points) 2. Communication scientifique en anglais (3 points) 3. Français Langue Etrangère (5 points)Publications: 1. Quoc Anh Le, Catherine Pelachaud. Generating co-speech gestures for the humanoidrobot NAO through BML. The 9th International Gesture Workshop on Gesture in EmbodiedCommunication and Human-Computer Interaction. GW2011, May 25-27, 2011, Athens, Greece. 2. Quoc Anh Le, Catherine Pelachaud. Expressive Gesture Model for StorytellingHumanoid Agent. Le quatrième Workshop sur les Agents Conversationnels Animés. WACA2010,25-26 novembre 2010, Lille, France. 3. Catherine Pelachaud, Rodolphe Gelin, Jean-Claude Martin, Quoc Anh Le. ExpressiveGestures Displayed by a Humanoid Robot during a Storytelling Application. Second InternationalSymposium on New Frontiers in Human-Robot Interaction. AISB 2010, 31 March - 1 April 2010,De Montfort University, Leicester, United Kingdom. 4. R. Gelin, C. dAlessandro, Q. Anh Le, O. Deroo, D. Doukhan, J.C. Martin, C. Pelachaud,A. Rilliard, S. Rosset. Tales Nao: towards a storytelling humanoid robot. Dialog with Robots -2010 AAAI Fall Symposium, November 11-13, 2010 Arlington, VA, USA.
  2. 2. Divers:- Participation à la formation Atala sur lannotation de corpus vidéo le 21 janvier 2011 à Paris.- Participation à la formation internationale "3rd COST 2102 International Training School onToward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces: Theoretical andPractical Issues", 15 - 19 Mars 2010, Caserta, Italy.- Présentation de la thèse à la journée Inter-GDR ISIS et Robotique: Interaction Homme-Robot,le 14 juin 2010 à Paris.- Participation aux journées de la formation aux outils de développement sur le robot NAO le02/02/2010 et le 22/10/2010 à la société robotique Aldebaran, Paris.
  3. 3. Modèle de gestes expressifs1. ObjectifsL’objectif de la thèse est de développer des agents capables de produire des gestes expressifscommunicatifs. De nombreux travaux ont montré l’importance du comportement nonverbaldans la communication. Celui-ci est nécessaire au locuteur ; il l’aide à formuler sa pensée. Il estaussi important pour linterlocuteur en lui fournissant des informations; informations quipeuvent être aussi bien complémentaires que redondantes, voire même contradictoires.Plutôt que de développer un nouveau modèle de comportent nous nous appuyons sur unmodèle existant. Depuis plusieurs années des travaux ont été menés pour doter les agentsvirtuels de capacité expressive. Notre approche utilise la plateforme d’agent conversationnelanimé GRETA [1].Ainsi nous nous proposons de contrôler le comportement nonverbal du robot par un langagesymbolique. L’idée est d’utiliser le même langage de représentation pour l’agent virtuel etl’agent physique, ici le robot NAO. Cela nous permet d’une part de contrôler le comportementdu robot par le système GRETA et de moduler son exécution en vue de le synchroniser avec laparole et de le rendre plus expressif.Cependant plusieurs issues doivent être abordées : 1. Les deux systèmes d’agents, virtuels et physiques, n’ont pas les mêmes degrés de liberté. Etant donné des intentions et états émotionnels à transmettre, le système Greta calcule un ensemble de comportements. Il faut donc le robot et l’agent virtuel communiquent des informations similaires mais pas forcement en utilisant des comportements identiques. Nous utilisons la notion d’invariant et de variant du geste introduit par Geneviève Calbris [6]. 2. La synchronisation du comportement verbal et nonverbal est une propriété essentielle. De même que pour le point précédent, le robot et l’agent virtuel ont des propriétés physiques très différentes. Le robot est une entité physique avec une masse corporelle, des articulations physiques avec une limite de vitesse et de déplacement. Ce n’est pas le cas de l’agent virtuel. Un mécanisme de synchronisation pour le comportement du robot sera développé en tenant compte de ses caractéristiques physiques. 3. L’expressivité gestuelle a plusieurs fonctions telles que transmettre des émotions [17, 18], attirer l’attention du locuteur or contraster des éléments [19]. Elle se traduit par un ensemble de dimensions, l’ampleur des comportements, leur vitesse et puissance
  4. 4. d’exécution, leur fluidité et leur rapidité. Nous implémenterons un tel modèle pour le robot NAO.2. MéthodologieLe système Greta calcule le comportement nonverbal que l’agent doit montrer pourcommuniquer un texte d’une certaine manière. Les gestes de l’agent sont stockés dans unelibrairie de comportements, appelée Lexicon. Ils sont décrits par une représentationsymbolique. La sélection et la planification des gestes sont basées sur les informations quienrichissent le texte d’entrée. Une fois sélectionnés, les gestes sont synchronisés avec laparole, puis ils sont réalisés. Pour calculer leur animation les gestes sélectionnés sonttransformés en keyframes où chaque keyframe contient les valeurs des articulations de l’agent,et la vitesse du mouvement. L’animation de l’agent est spécifiée par des scripts décrits avec lelangage de représentation Behavior Markup Language BML [3]. Comme le robot et l’agentvirtuel n’ont pas les mêmes capacités, les scripts doivent être fournis de façons utilisables parles deux agents. Les travaux de la thèse se concentrent principalement sur l’animation du robotNao et de l’agent virtuel Greta. En détails, ils sont : 1) Développer un réalisateur de comportements dont les informations dentrée sont lesdescriptions des comportements encodées avec langage de représentation BML. 2) Augmenter lexpressivité des gestes en ajoutant les paramètres de dimensionsgestuelles tels que lextension spatiale, lextension temporelle, la fluidité, la force et larépétition. 3) Elaborer les répertoires des gestes expressifs qui sont utilisables par le robot et parlagent virtuel. Le langage BML devra être étendu pour encoder les descriptions de ces gestes. 4) Evaluer le système implémenté pour 1) sassurer que les deux agents (physiques etvirtuels) transmettent des informations similaires pour un ensemble dintentions, 2) vérifier etcomparer la capacité des deux agents à lire une histoire expressivement (i.e. Nao et Greta).Les résultats de ces recherches seront tout d’abord appliqués au projet ANR GV-LEX dont l’idéeest d’utiliser le robot NAO [8] et l’avatar Greta [1] pour raconter une histoire expressivementpour les enfants.2. Revue de la littérature sur le sujet de gestes expressifsSelon le dictionnaire Le Robert, le geste est défini par un « Mouvement du corps(principalement des bras, des mains, de la tête), révélant un état d’esprit ou visant à exprimer,à exécuter quelque chose ». Cette définition ne fait aucun lien entre la parole et les gestes. Ellenest pas spécifique aux gestes communicatifs. Dans cette thèse, on se concentre sur les gestes
  5. 5. co-verbaux des bras et mains ainsi que de la tête. Les gestes du visage (i.e. expressions faciales)et de la posture ne sont pas étudiés ici. Notre modèle s’appuie principalement sur les travauxthéoriques de la communication gestuelle d’Adam Kendon [11], de David McNeill [12] et deGeneviève Calbris [6].Les sections suivantes abordent la hiérarchie gestuelle développée par Kendon, la classificationdes gestes et le codage descriptible de la forme d’un geste proposé par McNeill, ainsi que lataxonomie des gestes de Calbris. La relation de synchronisation entre la parole et les gestes estune partie importante ; elle sera présentée par les observations des chercheurs listés au-dessuset des autres chercheurs.2.1. La hiérarchie gestuelleSelon la hiérarchie de Kendon (2004, p.108-126), une action gestuelle peut être divisée enplusieurs phases de mouvement, dans laquelle la phase obligatoire est appelé stroke (apogée) -elle transmet la signification d’un geste. Le stroke peut être précédé par une phasepréparatoire qui met les articulations corporelles (i.e. la main et le poignet) à la position oùaura lieu le stroke. Il peut être suivi par une phase de rétraction qui apporte les articulations aupoint de départ ou à la position initiale du geste suivant. La combinaison de la phasepréparatoire et de la phase stroke est appelé phrase gestuelle. Une phrase gestuelle peutéventuellement avoir des moments dans lesquels les articulations sont tenus (i.e. holds) avantet après le stroke ; Ces phases permettent d’attirer l’attention des interlocuteurs et desynchroniser la parole et les gestes. Une unité gestuelle est définie comme une série de phrasesgestuelles qui se suivent l’une après l’autre et sont terminées par une phase de rétraction. Enfait, la phase de rétraction n’est pas considérée comme une partie de la phrase gestuelle, bienqu’elle appartienne à l’unité gestuelle qui contient la phrase gestuelle.2.2. Classification des gestesLes gestes communicatifs sont classifiés suivant la taxonomie de McNeill (1992, p.12-18). Il y aquatre types de gestes : 1) les gestes iconiques représentent une idée ou un objet concret. Parexemple les doigts des deux mains forment un cercle lorsqu’on parle de la pleine lune ; 2) Lesgestes métaphoriques représentent plutôt une idée abstraite qu’un objet ou événementconcret. Un exemple est lorsque le locuteur utilise ses mains ouvertes et enlevées lorsqu’il dit« c’est mon idée. » ; 3) Les gestes déictiques sont les mouvements corporels de pointageidentifiant un objet concret ou abstrait dont on est en train de parler. 4) Les gestes bâtons sontdes mouvements de bras ou des mains synchronisés avec la parole. Souvent ils coïncident avecles syllabes accentuées de la parole. Un propriété distinct des bâtons est qu’ils n’ont que deuxphases de mouvements (typiquement haut/bas) par rapport aux types iconiques etmétaphoriques qui ont normalement trois phases (préparation-stroke-rétraction). Une autre
  6. 6. caractéristique différente de ces gestes est que tandis que les gestes déictiques, iconiques etmétaphoriques accompagnent une parole qui parle souvent d’une proposition (e.g. un objet,une idée, une position, etc.); la parole avec qui les bâtons accompagne n’en donne aucun.2.3. La relation entre les gestes et la paroleA partir des observations que la phase stroke du geste coïncide avec ou juste avant les syllabesaccentuées de la parole, Kendon (2004, p.127-157) conclut que les gestes ne sont pas inspirésde la parole, mais plutôt que les gestes et la parole viennent dune même origine commune.Cest à dire que les gestes et la parole sont les deux aspects de même processus dans la quel lesgestes se produisent légèrement avant la parole. Il y a une adaptation mutuelle de leurproduction : i) La performance des gestes est adaptée à la structure du discours. Par exempleles mouvements sont arrêtés, i.e. les mains et les bras maintiennent leurs positions; pendantque la phrase (du discours) entre parenthèse est parlée; et puis les mouvements sont repris. Unautre exemple est qu’un maintien des articulations (post-stroke-hold) peut être ajouté pour legeste couvre toute la phrase soulignée; ii) La performance de la parole est adaptée à l’exigencede l’expression gestuelle dans temps réel. Par exemple, la parole attend un instant pour que laphase préparatoire du geste rattrape la parole afin que le phase stroke coïncide la phraseaccentuée de la parole.McNeill (1992, p.24-25) introduit le phénomène danticipation gestuelle. Ce phénomène a étéconfirmé par une recherche récente de Ferré, 2010 [23]. L’anticipation a lieu dans la phasepréparatoire. La durée de réaliser la phase préparatoire doit être prévu avant dexécuter pourque le stroke puisse se produire au même temps avec la phrase accentuée de la parole. McNeill(1992, p.26-35) propose trois règles de synchronisation. Ces règles montrent comment lesgestes et la parole sont synchronisés. Les deux premières, règle synchrone sémantique et règlesynchrone pragmatique, spécifient que si les gestes et la parole se co-produisent, ils doiventprésenter les mêmes informations sémantiques, ou effectuer la même fonction pragmatique.La troisième règle dit que le phase stroke du geste précède, ou coïncide avec, mais ne suit pas,la syllabe accentuée de la parole.En conclusion, les gestes et la parole sont deux aspects de l’énonciation, l’aspect imaginé etl’aspect linguistique. Ils ont une relation constante dans le temps pour transmettre ensynchronisant le même contenu. Le locuteur adapte le temps de ses gestes en ajustant unetenue (i.e. hold) avant ou après le stroke pour assurer la synchronisation avec la parole.2.4. Spécification et codage des gestesLes gestes sont spécifiés par plusieurs paramètres : la forme de la main, l’orientation de lapaume et du poignet, la forme de la trajectoire, la direction du mouvement, et la position desmains dans l’espace gestuel (McNeill 1992, p78-89). Cet espace gestuel est défini comme un
  7. 7. système de carrés concentriques centrés sur l’acteur. Dans ce schéma (voir Figure 1), il estdivisé en petits secteurs dont chacun peut être la cible pour la position du bras. McNeill atrouvé empiriquement que les gestes sont exécutés principalement dans ces secteurs. EXTREME PERIPHERY upper upper right upper left PERIPHERY CENTER right CENTER- left CENTER lower right lower left lower Figure 1. Carrés concentriques de Mc Neill.(André-Marie Pez)2.5. Variantes des gestesCalbris (1983) a étudié dans sa thèse un répertoire de familles des gestes avec variantes.Chaque famille gestuelle englobe plusieurs cas de comportements, qui peuvent se différencieren forme, mais véhiculer un message similaire. Par exemple on a huit variantes gestuelles pourla famille de négation : « mouvement transversal répété, autrement dit secouement latéral dela tête (…), de la main (…), de l’index (…). Mouvement transversal simple de la main en planhorizontal (…) ou en plan frontal (…). Le mouvement transversal n’est pas nécessaire : pourarrêter, la main est brusquement avancée à l’horizontale (…) ou bien levée, paume contrel’extérieur ( …) . Enfin, substitut de la main, l’index est levé contre l’extérieur en signed’opposition (…) » (Calbris 1983, p.398) .Le travail de Calbris est utile pour élaborer les librairies des gestes pour les agents qui ontcapacités différentes tels que le robot Nao et l’agent virtuel Greta. Ils peuvent utiliser unélément d’une famille de geste pour transmettre un même message, même si les gestes ils sontdifférents dans leur forme.
  8. 8. 3. Les travaux récents sur le contrôle des gestes expressifs de robot humanoïdePlusieurs initiatives ont été proposées récemment pour contrôler les comportements dunrobot physique humanoïde. Salem et al [10] utilise le moteur de gestes de lagent virtuel Maxpour contrôler le robot humanoïde ASIMO. Holroyd et al [9] ont mis en place un systèmesuivant une architecture évènementielle pour résoudre le problème d’imprévisibilité de laperformance de leur robot humanoïde Melvin. Ng-Thow-Hing et al [13] développe un systèmequi prend un texte quelconque et puis sélectionne et produit les gestes correspondants àréaliser par le robot ASIMO. Shi et al al [14] propose un système qui produit les comportementspour un robot correspondant des informations reçues de l’environnement. Nozawa et al. [15,24]dotent leur robot de capacités de production des gestes déictiques lorsque le robot donne uneprésentation sur l’écran.Ces systèmes ont plusieurs caractéristiques communes. Par exemple, ils calculent lesparamètres d’animation du robot à partir d’une description symbolique des comportementsencodée avec un langage de représentation tels que BML (Holroyd et al.), MURML (Salem etal.), MPML-HR (Nozawa et al), « Simple Communicative-behavior Markup Language » (Shi etal.). La synchronisation des gestes avec la parole est assurée en adaptant les mouvements desgestes à la structure de la parole [10, 13, 14]. C’est aussi la méthode utilisée dans notresystème. Certains systèmes sont dotés avec un mécanisme de rétroaction pour recevoir ettraiter les informations en retour (i.e. feedback) du robot en temps réel. Les informations enretour sont utilisées pour améliorer les mouvements gestuels [10] ou pour sélectionner unaction suivante [14], ou pour synchroniser les gestes avec la parole [9].Notre système se différencie par rapport aux travaux proposés ci-dessus. Il suit unearchitecture standard de génération des comportements pour un agent conversationnel animé(i.e. SAIBA [3]). Les répertoires des gestes du système sont considérés comme un paramètre depersonnalisation pour l’usage externe. En modifiant ce paramètre, nous pouvons changer lescomportements ainsi qu’adapter les prototypes gestuels aux contraintes spécifiques de lagentsans intervenir dans les codes sources du programme. De plus, dans notre système,l’expressivité des gestes est augmentée en ajoutant les paramètres de dimensions gestuellestels que lextension spatiale, lextension temporelle, la fluidité, la force et la répétions dumouvement .Comme le système MAX [10] qui est utilisé pour deux agents qui ayant des capacités gestuellesdifférentes (Max vs. ASIMO), notre système est utilisé pour contrôler lagent virtuel Greta et lerobot physique Nao. Cependant, en divisant le système en deux parties séparées lors du calculdes paramètres danimation (une partie commune et l’autre spécifique), nous pouvonsappliquer notre système à un nouvel agent en réutilisant la plupart des modules de base.
  9. 9. 4. Architecture du systèmeL’approche proposée dans cette thèse est de sappuyer sur le système dagent conversationnelanimé Greta pour contrôler des comportements des agents. Le système GRETA suitlarchitecture de SAIBA (Figure 1). Il se compose de trois modules séparés: le premier module,la planification des intentions, définit les intentions communicatives que lagent vise àtransmettre. Le deuxième module, la planification des comportements, planifie lescomportements correspondants à réaliser. Le troisième module, la réalisation descomportements, réalise les comportements planifiés. Le résultat du premier module estlentrée du deuxième module via une interface décrite avec le langage de représentation FML,Function Markup Language [2]. La sortie du deuxième module est encodée avec un autrelangage de représentation BML, Behavior Markup Language [3], puis envoyée au troisièmemodule. Les deux langages FML et BML sont représentés sous forme de XML et ne font pasréférence aux paramètres danimation spécifique de lagent (e.g. articulation du poignet). Figure 1: Architecture de SAIBA [3]Nous voulons être en mesure dutiliser le même système pour contrôler les deux agents (i.e.lagent corporel virtuel Greta et lagent physique Nao). Cependant, le robot et lagent nont pasles mêmes capacités (par exemple, le robot peut bouger ses jambes et le torse, mais na pasdexpression du visage et a des mouvements de bras très limités; tandis que lagent virtuel napas la notion de la gravité). Pour cette raison, les comportements non-verbaux du robot nepeuvent pas être toujours identiques à ceux de lagent virtuel. Par exemple, le robot na quedeux configurations de la main, ouverte ou fermée, il ne peut pas étendre un seul doigt. Parconséquence, pour faire un geste déictique il doit étendre tout son bras vers une cible plutôtque dutiliser un index tendu comme le fait lagent virtuel. Pour contrôler les comportementscommunicatifs du robot humanoïde et ceux de lagent virtuel, tout en tenant compte de leurcontrainte physique, nous considérons deux lexicons (i.e. les dictionnaires des comportementsnon-verbaux), un pour le robot et lautre pour lagent. Du même fichier BML émis par laplanification des comportements, on instancie les balises de BML de lun ou lautre lexicon (cfFigure 2). Les autres parties du système GRETA restent les mêmes. Etant donné un ensemble
  10. 10. dintentions et démotions à transmettre, le système GRETA calcule, grâce à la planification descomportements, la séquence correspondante de comportements spécifiés avec BML. Figure 2: Une vue globale du système proposé5. LexiconDans le système GRETA, un lexicon est défini comme un dictionnaire de signaux multimodaux(e.g. la main, la tête, le regard, etc) que l’agent peut sélectionner, combiner et réaliser pourtransmettre une intention communicative donnée. Chaque élément du lexicon a deuxparamètres principaux: le nom dune intention et un ensemble de signaux multimodauxcorrespondants [Mancini et al, 2008]. Lexemple suivant montre un ensemble decomportements que lagent utilise lorsquil veut communiquer la tristesse. Une contrainte estdéfinie dans le tag core pour indiquer que lagent doit utiliser lexpression triste du visage : <behaviorset name="emotion-sadness"> <signals> <signal id="1" name="down" modality="head"/> <signal id="2" name="down" modality="gaze"/> <signal id="3" name="sadness" modality="face"/> </signals> <core> <item id="3"/> </core> </behaviorset>Tous les signaux multimodaux, qui sont associés à une intention communicative dans le lexicon,sont définis dans les répertoires externes. Chaque agent (virtuel or physique) peut êtrecaractérisé par son propre répertoire qui contient une description des signaux spécifiques. Parexemple, nous pouvons définir un agent qui montre des expressions asymétriques du visage ou
  11. 11. celui qui na pas de gestes avec lorientation du poignet vers lintérieur. Le deuxième exempleest particulièrement important lors de lélaboration dun geste pour le robot Nao en raison deses limites physiques.5.1. Elaboration des lexiconsUn lexicon propre doit être élaborés pour le robot NAO, ainsi que pour l’agent virtuel Greta.Pour sassurer quil ny ait pas de contradiction dans la transmission dun ensemble donné dintentions communicatives et détats émotionnels, chaque lexicon doit avoir un élémenttransmettant un message similaire. Autrement dit, les deux lexicons contiennent les mêmesentrées pour les intentions. Par contre les signaux multimodaux associés aux intentionspeuvent être différents. Le travail de Calbris (1983) sur les familles des gestes avec variantes estétudié pour élaborer ces lexicons.Dans le cardre du projet Gvlex les prototypes gestuels dans les répertoires des gestes sontélaborés à partir dinformations annotés du corpus de vidéos ContTact par Martin et al [20] .Dans ces vidéos, 6 sujets humains racontent une même histoire appelée « Trois petitsmorceaux de la nuit ». Ils ont été enregistrés avec deux caméras, une de face et une de profil.Les gestes expressifs et les profils individuels sont annotés avec un logiciel d’annotation devidéos (i.e. Anvil).5.3. Spécification des gestesLes gestes sont stockés symboliquement dans les répertoires des gestes en utilisant uneextension du langage de représentation BML. Nous nous basons sur la description du geste deMcNeill (1992, p78-89) et sur la hiérarchie gestuelle de Kendon (2004) pour spécifier un geste.Des notions sont aussi empruntées au système HamNoSys [21] et du langage de spécificationdes gestes de Greta [26]. Voici un exemple de description de geste avec BML. 1. <gesture id=”negation” type=”ICONIC”> 2. <description priority=”1” type=”GRETABML> 3. <phase type="STROKE " twohand="ASSYMMETRIC"> 4. <hand side="RIGHT"> 5. <vertical_location>UPPER</vertical_location> 6. <horizontal_location>CENTER</horizontal_location> 7. <location_distance>NEAR</location_distance> 8. <hand_shape>OPEN</handshape> 9. <wrist_orientation>UP</wrist_orientation> 10. <palm_orientation>AWAY</palm_orientation> 11. </hand> 12. </phase 13. </description> 14. </gesture>
  12. 12. Dans lexemple ci-dessus, la configuration dun geste de négation est décrit au moment dustroke: la main droite est levée et ouverte; la direction des doigts est vers le haut et la directionde la paume est vers lavant.6. Behavior RealizerLe tâche principale du Behavior Realizer (BR) est de générer lanimation de lagent (virtuel ouphysique) à partir dun message BML. Ce message contient les descriptions des signaux et leurinformation temporelle à réaliser. Le processus est divisé en deux étapes principales: lapremière étape, appelée Keyframes Generator (KG) peut être utilisée en commun pour les deuxagents tandis que la seconde, Animation Generator (AG) est spécifique à un agent donné. Lafigure 3 présente la structure de notre Behavior Realizer. Dans les sous-sections suivantes, jeprésente ces modules en détail. Figure 3. Architecture du module de la réalisation des comportements6.1. Keyframes GeneratorDans cette étape, les signaux décrits symboliques dans un message BML sont instanciés. Ilspeuvent être des expressions faciales, du regard, des mouvements de la tête, du torse ou des
  13. 13. gestes de la main. Dans le cas particulier du robot, le message BML ne contient que les signauxdes gestes de la tête et de la main. Le Keyframes Generator synchronise les comportementsnon-verbaux avec la parole. Dans notre système, la synchronisation entre des signauxmultimodaux est réalisée par ladaptation des signaux non-verbaux à la structure du discours.Cela signifie que linformation temporelle des comportements non-verbaux dans les balisesBML sont relatives à la parole; ils sont spécifiés par des marqueurs des temps (i.e. timemarkers). Dans le cas des gestes, linformation temporelle de chaque comportement corespondaux phases gestuelles. Comme illustré dans la Figure 4, ils sont encodés par sept points desynchronisation: start, ready, stroke-start, stroke, stroke-end, relax et end. Ils divisent un gesteen plusieurs phases de réalisation, dans lequel la partie la plus significative se produit entrestroke-start et stroke-end (i.e. la phase dapogée ou stroke). La phase préparatoire arrive destart à ready. Cette phase met les articulations corporelles (e.g. la main et le poignet) à laposition où aura lieu le stroke. Selon des observations de McNeill (1992), la phase de strokecoïncide ou précède la parole. Dans notre système, la synchronisation entre les gestes et laparole est assurée en calculant le temps de démarrage de la phase stroke pour quelle coïncideavec les syllabes accentuées. Donc, le système doit estimer le temps, t_pre, requis pour laréalisation de la phase préparatoire afin de sassurer que le stroke soit réalisé avec les syllabesaccentués. Cette estimation est faite en calculant la distance entre la position actuelle de lamain et la position prochaine souhaitée et en calculant le temps quil faut pour effectuer latrajectoire gestuelle (t_traj). Dans le cas où le temps disponible ne suffit pas pour faire la phasepréparatoire (t_pre<t_traj), tout le geste est annulé, ce qui laisse du temps libre pour préparerle geste suivant.Le résultat de Keyframes Generator est un ensemble de keyframes. Chaque keyframe contientune description symbolique de chaque phase dun geste (start, stroke-start, stroke-end, end). Figure 4. Les points de synchronisation du geste (SAIBA)6.2. Animation GeneratorPour calculer lanimation à partir des keyframes, nous avons besoin dutiliser un modulespécifique pour chaque agent. Tandis que le module Keyframes Generator est commun à tousles agents, les calculs dAnimation Generator sont dépendants de chaque agent. Le module
  14. 14. reçoit les keyframes du processus précédent et calcule les valeurs des paramètres delanimation. Pour lagent virtuel Greta, nous utilisons un module dinterpolation (i.e.Interpolation Module) et pour le robot Nao nous utilisons un module dinstanciation des valeursdarticulation (Joint Values Instantiation Module) (voir Figure 3).7. RésultatsLe premier résultat obtenu est que le robot peut être contrôlé en utilisant le système GRETA. Apartir d’une description des comportements en BML, GRETA planifie les gestes et retourne leskeyframes correspondantes à lanimation. Chaque keyframe contient linformation temporelleet les informations gestuelles du robot telles que la forme de la main, la position et la directiondu poignet. J’ai développé un module de Joint Values Instantiation (voir Figure 3) qui reçoit ceskeyframes et les traduit en valeurs darticulation du robot. Linformation temporelle et lesvaleurs darticulation sont envoyées au robot. Grâce à ces informations, lanimation estobtenue à laide d’un mécanisme dinterpolation disponible dans le robot.Jusquà présent j’ai implémenté deux paramètres d’expressivité gestuelle de Greta pour Nao: 1)lextension spatiale (SPC) pour changer lamplitude des mouvements (e.g. large vs. étroit) et 2)lextension temporelle pour changer la durée des mouvements (e.g. rapide vs. lent). Cesmodulations du mouvement sont faites lors de la transformation des gestes symboliques envaleurs d’articulation du robot.8. Les travaux dans le futurLa suite du travail se concentre sur l’animation expressive du robot dont la synchronisation desgestes avec la parole et l’implémentation des paramètres d’expressivité sont une priorité. Enfait, il est difficile de synchroniser les gestes du robot avec la parole. Les articulations du robotont des vitesses maximales limitées. On ne peut pas prévoir la durée exacte nécessaire poureffectuer une trajectoire de mouvements quelconques. Selon les travaux de recherche abordésci-dessus (cf. le phénomène observé par McNeill (1992, p.25-27) qui indique que tous les gestesanticipent et se synchronisent avec la parole). La phase stroke du geste doit se produire avantou juste avec les syllabes accentuées. La fin du mouvement de stroke est fixée par rapport auflux de la parole. La phase préparatoire doit calculer la durée nécessaire pour déplacer lesmains à la position où le stroke a lieu pour déterminer un point temporel pour commencer legeste.L’utilisation des différentes modalités sera étudié (e.g. tourner la tête au lieu de changer ladirection du regard), les lexicons sont augmentés et ces modalités seront animées.Enfin, les remarques et résultats de ce travail contribueront à développer le standard BML.
  15. 15. Références[1] http://perso.telecom-paristech.fr/~pelachau/Greta/[2] Heylen, D., Kopp, S., Marsella, S., Pelachaud, C., Vilhjalmsson, H., 2008. The Next StepTowards a Functional Markup Language, Intelligent Virtual Agents, IVA08, Tokyo.[3] Kopp, S., Krenn, B., Marsella, S., Marshall, A., Pelachaud, C., Pirker, H., Thorisson, K,Vilhjalmsson, H., 2006. Towards a Common Framework for Multimodal Generation in ECAs: TheBehavior Markup Language. 6th Int. Conf. on Intelligent Virtual Agents.[6] Calbris, G. 1983. Contribution à une analyse sémiologique de la mimique faciale et gestuellefrançaise dans ses rapports avec la communication verbale. PhD Thesis, Volume II.[7] Ech Chafai, N., Pelachaud, C., Pele, D., 2007. Towards the Specification of an ECA withVariants of Gestures. Intelligent Virtual Agents: 7the international conference, IVA 2007, Paris.[8] Gouaillier, D., Hugel, V. et al, 2009. Mechatronic design of NAO humanoid. IEEE Int. Conf. onRobotics and Automation, Kobe, Japan.[9] http://sourceforge.net/projects/ros-engagement/[10] Salem, M., Kopp, S., Wachsmuth, I., Joublin, F. Towards an Integrated Model of Speech andGesture Production for Multi-Modal Robot Behavior. Int. Symposium on Robot and HumanInteractive Communication, (ROMAN-2010).[11] Kendon, A. 2004. Gesture: Visible Action as Utterance. Cambridge University Press.[12] McNeill, D., 1992. Hand and mind: What gestures reveal about thought. Uni. of ChicagoPress.[13] Ng-Thow-Hing, V., Luo, P., Okita, S. Synchronized Gesture and Speech Production forHumanoid Robots. The 2010 IEEE/RSJ International Conference on Intelligent Robots andSystems. October 18-22, 2010, Taipei, Taiwan.[14] Shi, C., Kanda, T., Shimada, M., Yamaoka, F., Ishiguro, H., Hagita, N. Easy Development ofCommunicative Behaviors in Social Robots. The 2010 IEEE/RSJ International Conference onIntelligent Robots and Systems. October 18-22, 2010, Taipei, Taiwan.[15] Kushida, K., Nishimura, Y., Dohi, H., Ishizuka, M., Takeuchi, J., Tsujino, H. Humanoid RobotPresentation through Multimodal Presentation Markup Language MPML-HR. AAMAS’05. July25-29, 2005, Utrecht, Netherlands.[16] Vilhjalmsson, H., Cantelmo, N., Cassell, J., Ech Chafai, N., Kipp, M., Kopp, S., Mancini, M.,Marsella, S., Marshall, A. N., Pelachaud, C., Ruttkay, Z., Thorisson, K. R., Welbergen, H., Werf, RJ. The Behavior Markup Language: Recent Developments and Challenges. In C. Pelachaud et al.(Eds.): “Intelligent Virtual Agents 2007”, Lecture Notes in Artificial Intelligence 4722: 99-111,Springer-Verlag Berlin Heidelberg.
  16. 16. [17] Wallbott, H G. Bodily expression of emotion. In European Journal of Social Psychology, 28,879-896, (1998).[18] Kipp, M., Martin, JC. Gesture and emotion: Can basic gestural form features discriminateemotions?. In International Conference on Affective Computing and Intelligent Interaction (ACII-09). IEEE Press, (2009).[19] Chafai, NE., Pelachaud, C., Pelé, D. A case study of gesture expressivity breaks. InInternational Journal of Language Resources and Evaluation, Special issue on MultimodalCorpora for Modelling Human Multimodal Behavior, (2008).[20] Martin, J.-C. The contact video corpus, 2009.[21] Prillwitz, S. and Leven, R. and Zienert, H. and Hanke, T. and Henning, J. HamNoSys:Hamburg Notation System for Sign Languages: an Introductory Guide (1989).[22] Calbris, G. Anticipation du geste sur la parole. Actes du Colloque Verbal/Non Verbal : frèresjumeaux de la parole ?, oragnisé à Besançon par ANEFLE et CLA.[23] Ferré, G. Relation temporelles entre parole et gestualité co-verbale en français spontané.Journées d’Etude sur la Parole. Mons, Belgique (2010).[24] Nozawa, Y., Dohi, H., Iba, H., Ishizuka, M. Humanoid Robot Presentation Controlled byMultimodal Presentation Markup Language MPML. International Workshop on Robot andHuman Interactive Communication. ROMAN 2004.[25] Mancini, M., Pelachaud, C. 2008. Distinctiveness in multimodal behaviors. In Proceedingsof 7th Conference on Autonomous Agents and Multi-Agent Systems.[26] Hartmann, B. and Mancini, M. and Pelachaud, C., Formational parameters and adaptiveprototype instantiation for MPEG-4 compliant gesture synthesis. pp1087-4844, 2002. InComputer Animation02, Geneva, Switzerland, 2002

×