Reinforcement Learning Par Nicolas Richard Jimmy Perron
Quiz Nommer :  un des meilleurs joueur d’échec au monde un des meilleurs joueurs de BackGammon le contrôleur d’ascenseur le plus performant Une seule réponse    Tous ces programmes implémentent l’approche du  Reinforcement Learning
Motivation Développé dans les années 80 Simuler l’apprentissage animal (essais & erreurs) Résoudre les problèmes d’optimisation dans les systèmes de contrôle Explosion combinatoire des états possibles
Plan Problème Éléments du Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
1 - Problème…
2 - Éléments du RL Agent : Apprend Choisit des actions Maximise sa récompense Environnement : Définit les actions possibles Attribue les récompenses État : État de l’environnement à un moment t Retourné à l’agent suite à une action
Plan Problème Éléments du Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
3 - Schéma général Environnement donne  L’état courant Les actions possibles Agent choisit L’action Environnement fournie La récompense L’état suivant Actions possibles
3 - Schéma général Agent Environnement Action Récompense + État t + 1
Notre exemple Environnement :  Carte de la ville État :  Une position particulière dans la carte Actions possibles :  Déplacement d’une case dans une direction légal s a1 a2 S(s,a1) = s1’ S(s,a2) = s2’
Récompenses Attribution des récompenses (notre exemple) : Si S(s, a1) = but alors R(s, a1) = 100  sinon R(s, a1) = 0 Lorsque le but est atteint : Repositionnement de l’agent Redémarrage du processus 100 0 0
Apprentissage Maximiser ses récompenses Apprendre à choisir la meilleure action Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )
Apprentissage Environnement Agent Récompense Q( s, a ) But 100 100 90 81 90 81 81 72 72 81 81 90 But 100 0 0 0 0 0
Plan Problème Éléments du Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
4 – Q-Learning Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
A - Choisir l’action à exécuter Hasard ? L’action ayant la valeur de Q maximale ? Maximum local Combinaison des deux approches ? Exploration ou exploitation ? Probabilité d’une action pondérée selon Q
A – Choisir l’action à exécuter Probabilité de choisir une action  a i  dans un état  s P(a i  | s) = K Q(s, a i )    j  K Q(s, a j ) Si k = 1    Choix équiprobable Si k > 1    Favorise les actions ayant un Q élevé Si k < 1    Favorise les actions ayant un Q peu élevé
B – Recevoir la récompense Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
C – Observer le nouvel état s’ Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
D – Mettre à jour Q( s, a ) Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
D - Mettre à jour Q( s, a )  Affecter à Q la valeur de la récompense ? Persistance de l’information Moyenne des 10 dernières récompenses ? Plus de précision    explosion de l’espace mémoire
D - Mettre à jour Q( s, a ) Fonction  Q : Q( s, a )    r +    Max a’  ( Q( s’, a’ ) )  Où r = récompense reçue    = Constante de propagation temporelle ( 0 <    < 1) Max a’  ( Q(s’ , a’) )
Plan Problème Éléments du Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
Exemple : La Sim L’agent vs l’environnement Illustration du choix de l’action Illustration de l’atteinte d’un but (mise a jour de Q) Convergence de Q Variation de k  Tester avec 10 000 itérations avec k = 1.01 et k = 10 Équilibre entre : Certain de la connaissance sans avoir tout exploré Moins certain de la connaissance mais elle soit répandue
Plan Problème Éléments du Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
6 – Limitations Apprentissage supervisé ? Besoin de beaucoup d’exploration Pas de connaissance préalable du domaine La connaissance n’est pas transportable Adapté à l’environnement immédiat
6 – Limitations Le concept  taux d’erreur est  innaplicable Difficile de calculer le taux de confiance Adaptation des connaissances mais : C’est long!!! Aucune généralisation de l’apprentissage
Critiques Utilisation Environnement réactif Comparaison avec le « version space » Possible mais…inopportun Bien adapté pour les jeux de société
Conclusion Ni blanc, ni noir Dépend beaucoup du problème Apprentissage non supervisé Besoin de beaucoup d’itérations Apprentissage d’une fonction d’évaluation (exemple la fonction Q) Pas de généralisation de cette fonction

Apprentissage par renforcement

  • 1.
    Reinforcement Learning ParNicolas Richard Jimmy Perron
  • 2.
    Quiz Nommer : un des meilleurs joueur d’échec au monde un des meilleurs joueurs de BackGammon le contrôleur d’ascenseur le plus performant Une seule réponse  Tous ces programmes implémentent l’approche du Reinforcement Learning
  • 3.
    Motivation Développé dansles années 80 Simuler l’apprentissage animal (essais & erreurs) Résoudre les problèmes d’optimisation dans les systèmes de contrôle Explosion combinatoire des états possibles
  • 4.
    Plan Problème Élémentsdu Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
  • 5.
  • 6.
    2 - Élémentsdu RL Agent : Apprend Choisit des actions Maximise sa récompense Environnement : Définit les actions possibles Attribue les récompenses État : État de l’environnement à un moment t Retourné à l’agent suite à une action
  • 7.
    Plan Problème Élémentsdu Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
  • 8.
    3 - Schémagénéral Environnement donne L’état courant Les actions possibles Agent choisit L’action Environnement fournie La récompense L’état suivant Actions possibles
  • 9.
    3 - Schémagénéral Agent Environnement Action Récompense + État t + 1
  • 10.
    Notre exemple Environnement: Carte de la ville État : Une position particulière dans la carte Actions possibles : Déplacement d’une case dans une direction légal s a1 a2 S(s,a1) = s1’ S(s,a2) = s2’
  • 11.
    Récompenses Attribution desrécompenses (notre exemple) : Si S(s, a1) = but alors R(s, a1) = 100 sinon R(s, a1) = 0 Lorsque le but est atteint : Repositionnement de l’agent Redémarrage du processus 100 0 0
  • 12.
    Apprentissage Maximiser sesrécompenses Apprendre à choisir la meilleure action Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )
  • 13.
    Apprentissage Environnement AgentRécompense Q( s, a ) But 100 100 90 81 90 81 81 72 72 81 81 90 But 100 0 0 0 0 0
  • 14.
    Plan Problème Élémentsdu Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
  • 15.
    4 – Q-LearningAlgorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
  • 16.
    A - Choisirl’action à exécuter Hasard ? L’action ayant la valeur de Q maximale ? Maximum local Combinaison des deux approches ? Exploration ou exploitation ? Probabilité d’une action pondérée selon Q
  • 17.
    A – Choisirl’action à exécuter Probabilité de choisir une action a i dans un état s P(a i | s) = K Q(s, a i )  j K Q(s, a j ) Si k = 1  Choix équiprobable Si k > 1  Favorise les actions ayant un Q élevé Si k < 1  Favorise les actions ayant un Q peu élevé
  • 18.
    B – Recevoirla récompense Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
  • 19.
    C – Observerle nouvel état s’ Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
  • 20.
    D – Mettreà jour Q( s, a ) Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )
  • 21.
    D - Mettreà jour Q( s, a ) Affecter à Q la valeur de la récompense ? Persistance de l’information Moyenne des 10 dernières récompenses ? Plus de précision  explosion de l’espace mémoire
  • 22.
    D - Mettreà jour Q( s, a ) Fonction Q : Q( s, a )  r +  Max a’ ( Q( s’, a’ ) ) Où r = récompense reçue  = Constante de propagation temporelle ( 0 <  < 1) Max a’ ( Q(s’ , a’) )
  • 23.
    Plan Problème Élémentsdu Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
  • 24.
    Exemple : LaSim L’agent vs l’environnement Illustration du choix de l’action Illustration de l’atteinte d’un but (mise a jour de Q) Convergence de Q Variation de k Tester avec 10 000 itérations avec k = 1.01 et k = 10 Équilibre entre : Certain de la connaissance sans avoir tout exploré Moins certain de la connaissance mais elle soit répandue
  • 25.
    Plan Problème Élémentsdu Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion
  • 26.
    6 – LimitationsApprentissage supervisé ? Besoin de beaucoup d’exploration Pas de connaissance préalable du domaine La connaissance n’est pas transportable Adapté à l’environnement immédiat
  • 27.
    6 – LimitationsLe concept taux d’erreur est innaplicable Difficile de calculer le taux de confiance Adaptation des connaissances mais : C’est long!!! Aucune généralisation de l’apprentissage
  • 28.
    Critiques Utilisation Environnementréactif Comparaison avec le « version space » Possible mais…inopportun Bien adapté pour les jeux de société
  • 29.
    Conclusion Ni blanc,ni noir Dépend beaucoup du problème Apprentissage non supervisé Besoin de beaucoup d’itérations Apprentissage d’une fonction d’évaluation (exemple la fonction Q) Pas de généralisation de cette fonction