Implementation of DEvelopmentAl Learning (IDEAL) [email_address] http://liris.cnrs.fr/ideal ANR-RPDOC 2010 8 octobre 2010 ...
Plan de la pésentation <ul><li>Développement cognitif précoce? </li></ul><ul><li>Démonstration préliminaire </li></ul><ul>...
Développement cognitif précoce <ul><li>Développement &quot;à partir de zéro&quot; </li></ul><ul><ul><li>Pas d'ontologie de...
Organisation autonome des comportements <ul><li>Initialisation: </li></ul><ul><ul><li>Ensemble de possibilités d'interacti...
Ceci n'est pas un labirynthe …  C'est un environnement offrant des  régularités séquentielles hiérarchiques 5/20/2010
Ceci n'est pas un &quot;buffer perceptif&quot; Touch: Move: Turn: 0 -1 0 10 -10 0 0 0 -5 …  ce sont des schemes sensorimot...
Ceci n'est pas un mécanisme de récompense <ul><li>Inclination =  espérance de succès * Satisfaction </li></ul><ul><ul><ul>...
Légende 3D 5/20/2010
Démonstration Link Touch: Bump: Ouch! Oh! Surprise: Rub: 5/20/2010
Mécanisme d'apprentissage Turn, w Touch, w Turn S (0) Touch S (-1) Touch F (0) Schema Act Schema's context Schema's intent...
Trace   O     O  O            O  O O  O   O   O O  O        O   O O O   O     O ...
Apprentissage du context S7 S3, S S7,S Time S8 S10, 4 S8, S (3) S10,S S9, 6 S9,S S13,1 Current situation S6,S (5) Base sit...
Résultats <ul><li>Apprend à augmenter sa satisfaction/cycle. </li></ul><ul><li>Apprend à percevoir son environnement. </li...
Spécificités <ul><li>/ Modélisation cognitive. </li></ul><ul><ul><li>Pas de tâche prédefinie. </li></ul></ul><ul><ul><li>P...
Représentation alternative de la cognition Scheme Scheme Symbolic computation Perception Action Environment Time Scheme Sc...
Faiblesses <ul><li>Ca sert à rien! </li></ul><ul><ul><li>(A part comprendre les systèmes auto motivés) </li></ul></ul><ul>...
Challenges <ul><li>Simulation de &quot;cours d'action&quot; </li></ul><ul><ul><li>Par inhibition des actions </li></ul></u...
Projet IDEAL <ul><li>Objectifs : </li></ul><ul><ul><li>Produire des démonstrations en ligne interactives. </li></ul></ul><...
Déroulement <ul><li>Printemps 2011 </li></ul><ul><ul><li>2 stages de Master 2 en informatique </li></ul></ul><ul><ul><ul><...
Prochain SlideShare
Chargement dans…5
×

Implémentation de mécanismes de développement cognitif précoce dans des agents artificiels autonomes

461 vues

Publié le

Cette présentation introduit le projet IDEAL:
http://liris.cnrs.fr/ideal

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
461
Sur SlideShare
0
Issues des intégrations
0
Intégrations
11
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • I will first define what I mean by hierarchical behavior and give some examples Then the presentation will have two parts: the first half will be about analyst-driven hierarchical behavior learning. The second half will be about self-driven hierarchical behavior learning. The first par is situated in the framework of knowledge discovery from database. That is how an analyst learns something from data describing the activity of a subject. I will present a system that we have implemented for trace analysis I will give example analysis Then I will discuss how we can make this learning mechanism autonomous. It is situated in the domain of developmental learning. I will present an algorithm for self-motivated hierarchical sequence learning.
  • Implémentation de mécanismes de développement cognitif précoce dans des agents artificiels autonomes

    1. 1. Implementation of DEvelopmentAl Learning (IDEAL) [email_address] http://liris.cnrs.fr/ideal ANR-RPDOC 2010 8 octobre 2010 Implémentation de mécanismes de développement cognitif précoce dans des agents artificiels autonomes
    2. 2. Plan de la pésentation <ul><li>Développement cognitif précoce? </li></ul><ul><li>Démonstration préliminaire </li></ul><ul><li>Principes </li></ul><ul><li>Positionnement scientifique </li></ul><ul><li>Objectifs et déroulement du projet </li></ul>5/20/2010
    3. 3. Développement cognitif précoce <ul><li>Développement &quot;à partir de zéro&quot; </li></ul><ul><ul><li>Pas d'ontologie de l'environnement prédéfinie. </li></ul></ul><ul><ul><li>Mécanismes qui précèdent le raisonnement et la réflexion. </li></ul></ul><ul><li>Hypothèse &quot;émergentiste&quot; </li></ul><ul><ul><li>La cognition est un phénomène émergent des comportements (phénoménologie, Heidegger, 1927 ). </li></ul></ul><ul><ul><li>Implémenter des mécanismes d'organisation des comportements … pour observer des phénomènes cognitifs (connaissance, émotions, décision, etc.). </li></ul></ul><ul><li>Hypothèse &quot;constructiviste&quot; (Piaget, 1937) </li></ul><ul><ul><li>Epistémologie pragmatique (&quot;meaning is use&quot;, Wittgenstein, 1953). </li></ul></ul><ul><ul><li>Epistémologie évolutionniste (Popper, 1972). </li></ul></ul><ul><ul><li>Motivation intrinsèque. </li></ul></ul>5/20/2010
    4. 4. Organisation autonome des comportements <ul><li>Initialisation: </li></ul><ul><ul><li>Ensemble de possibilités d'interaction primitives </li></ul></ul><ul><ul><li>Tendances innées à certaines interactions </li></ul></ul><ul><li>Apprentissage de séquences d'interaction: </li></ul><ul><ul><li>Séquences non markoviennes </li></ul></ul><ul><ul><li>Séquences hiérarchiques (Jeff Hawkins, 2004) </li></ul></ul><ul><li>Challenges: </li></ul><ul><ul><li>Modélisation autonome de traces d'activité </li></ul></ul><ul><ul><li>Mémoire épisodique procédurale </li></ul></ul>5/20/2010
    5. 5. Ceci n'est pas un labirynthe … C'est un environnement offrant des régularités séquentielles hiérarchiques 5/20/2010
    6. 6. Ceci n'est pas un &quot;buffer perceptif&quot; Touch: Move: Turn: 0 -1 0 10 -10 0 0 0 -5 … ce sont des schemes sensorimoteurs (Piaget, 1937) 5/20/2010
    7. 7. Ceci n'est pas un mécanisme de récompense <ul><li>Inclination = espérance de succès * Satisfaction </li></ul><ul><ul><ul><li>Nombre de collisions (n) * Satisfaction (-10) </li></ul></ul></ul><ul><ul><ul><li>+ Nombre de déplacements (m) * Satisfaction (10) </li></ul></ul></ul><ul><ul><ul><li>= inclination à se déplacer dans ce contexte </li></ul></ul></ul><ul><li>Ceci est une motivation intrinsèque : </li></ul><ul><ul><li>Prédilection innée pour certains schèmes </li></ul></ul><ul><ul><li>Reconnaissance autonome du contexte </li></ul></ul><ul><ul><li>Auto organisation des comportements </li></ul></ul>5/20/2010
    8. 8. Légende 3D 5/20/2010
    9. 9. Démonstration Link Touch: Bump: Ouch! Oh! Surprise: Rub: 5/20/2010
    10. 10. Mécanisme d'apprentissage Turn, w Touch, w Turn S (0) Touch S (-1) Touch F (0) Schema Act Schema's context Schema's intention Act's schema Learning Move, w Move S (10) Bump F (-10) Touch-Move, w Touch-Move S (10) Touch-Move F(-1) Turn F (-5) 5/20/2010 Touch-Move-Turn, w Touch-Move-Turn S (10)
    11. 11. Trace   O     O  O            O  O O  O   O   O O  O        O   O O O   O     O    O  O    O  O  (  O )  O  O O((  O )  ) (  O )  O  O O  (  O )  O  O  ( O  )(O((  O )  ))    O  O  O  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50  51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 68 69 70 71 72 73 74 76 77 78 79 80 O 67 O 75 81 82 83 84 85 86 87 88 89 90 O  ( O  )(O((  O )  )) ( O  )(O((  O )  )) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) O   O  O  O  O  O   O  O (  O )  (  O )   O (  O )  O  (  O )   O O((  O )  ) O((  O )  ) O((  O )  ) O O((  O )  ) ( O  )(O((  O )  )) ( O  )(O((  O )  )) ( O  )(O((  O )  )) ( O  )(O((  O )  )) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) O((  O )  ) ( O  )(O((  O )  )) (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) O    X X Touch Forward Right Left Succeed Fail (  O )  O((  O )  ) ( O  )(O((  O )  )) ((( O  )(O((  O )  ))) (( O  )(O((  O )  )))) ((( O  )(O((  O )  ))) (( O  )(O((  O )  )))) ( O  )(O((  O )  )) 91 (( O  )(O((  O )  ))) (( O  )(O((  O )  ))) Control cycles S4 [S4,F] S5 [S5,S] S7 S6 [S6,F] S8 S7 S10 S8 S12 S10 [S2,S] 5/20/2010
    12. 12. Apprentissage du context S7 S3, S S7,S Time S8 S10, 4 S8, S (3) S10,S S9, 6 S9,S S13,1 Current situation S6,S (5) Base situation S6 S3,S 83 84 S12,1 S11 S11,S Enacted schema Enacted act S5, S S2, S 5/20/2010
    13. 13. Résultats <ul><li>Apprend à augmenter sa satisfaction/cycle. </li></ul><ul><li>Apprend à percevoir son environnement. </li></ul><ul><ul><li>Sans buffer perceptif prédéfini. </li></ul></ul><ul><ul><li>&quot;Compréhension pragmatique&quot; de la perception. </li></ul></ul><ul><li>Construit une &quot;Situation awareness&quot;. </li></ul><ul><ul><li>Inclut des anticipations et des &quot;affordances&quot;. </li></ul></ul><ul><li>Mémorise des épisodes d'interaction. </li></ul><ul><ul><li>Mémoire épisodique avec des &quot;temporal patterns&quot;. </li></ul></ul>5/20/2010
    14. 14. Spécificités <ul><li>/ Modélisation cognitive. </li></ul><ul><ul><li>Pas de tâche prédefinie. </li></ul></ul><ul><ul><li>Pas d'engagement ontologique préalable sur l'environnement. </li></ul></ul><ul><li>/ Apprentissage par renforcement </li></ul><ul><ul><li>Pas d'objectif final à atteindre ni de &quot;problem-space&quot; pré modélisé. </li></ul></ul><ul><ul><li>Satisfaction vs Reward </li></ul></ul><ul><li>/ Apprentissage de séquences </li></ul><ul><ul><li>Ne requiert pas l'hypothèse de Markov </li></ul></ul><ul><li>/ Schema mechanism </li></ul><ul><ul><li>Motivation Intrinsèque </li></ul></ul><ul><li>/ Robotique </li></ul><ul><ul><li>Pas de buffer perceptif prédéfini . </li></ul></ul><ul><li>/ Raisonnement à partir de trace </li></ul><ul><ul><li>Modélisation automatique des traces </li></ul></ul>5/20/2010
    15. 15. Représentation alternative de la cognition Scheme Scheme Symbolic computation Perception Action Environment Time Scheme Scheme Scheme Préserve l'unité perception/action (de nombreux auteurs) Ancre le sens dans l'activité (Harnad, 1990) Ouvre la voie vers d'autre mécanismes (Piaget, 1937) Elaboration 5/20/2010 De: Vers:
    16. 16. Faiblesses <ul><li>Ca sert à rien! </li></ul><ul><ul><li>(A part comprendre les systèmes auto motivés) </li></ul></ul><ul><li>Mécanismes de très bas niveau </li></ul><ul><li>Beaucoup de chemin à parcourir </li></ul>5/20/2010
    17. 17. Challenges <ul><li>Simulation de &quot;cours d'action&quot; </li></ul><ul><ul><li>Par inhibition des actions </li></ul></ul><ul><li>Perception distale </li></ul><ul><ul><li>Double processus? </li></ul></ul><ul><li>Apprentissage de régularités spatiales </li></ul><ul><ul><li>Représentations mentales </li></ul></ul><ul><li>Découverte d'objets persistants </li></ul><ul><li>Implémentation dans des robots </li></ul>5/20/2010
    18. 18. Projet IDEAL <ul><li>Objectifs : </li></ul><ul><ul><li>Produire des démonstrations en ligne interactives. </li></ul></ul><ul><ul><li>Anticipation d'un futur débat public d'éthique. </li></ul></ul><ul><li>Stratégie : </li></ul><ul><ul><li>Augmenter progressivement la complexité. </li></ul></ul><ul><ul><ul><li>Environnement de &quot;jeu&quot; 3D interactif </li></ul></ul></ul><ul><ul><ul><ul><li>Blender ? Ogre ? IrrLicht ? </li></ul></ul></ul></ul><ul><ul><ul><li>Enrichir les mécanismes d'apprentissage </li></ul></ul></ul>5/20/2010
    19. 19. Déroulement <ul><li>Printemps 2011 </li></ul><ul><ul><li>2 stages de Master 2 en informatique </li></ul></ul><ul><ul><ul><li>Outils d’analyse d’activité d’agents artificiels intelligents </li></ul></ul></ul><ul><ul><ul><li>Intégration d’agents artificiels intelligents dans des environnements de simulation interactifs </li></ul></ul></ul><ul><li>Automne 2011 </li></ul><ul><ul><li>1 doctorant (3 ans) </li></ul></ul><ul><li>2012 - 2013 </li></ul><ul><ul><li>2 autres stages de Master </li></ul></ul>5/20/2010

    ×