Apprentissage par renforcement

Reinforcement Learning Par Nicolas Richard Jimmy Perron

Quiz Nommer : un des meilleurs joueur d’échec au monde un des meilleurs joueurs de BackGammon le contrôleur d’ascenseur le plus performant Une seule réponse  Tous ces programmes implémentent l’approche du Reinforcement Learning

Motivation Développé dans les années 80 Simuler l’apprentissage animal (essais & erreurs) Résoudre les problèmes d’optimisation dans les systèmes de contrôle Explosion combinatoire des états possibles

Plan Problème Éléments du Reinforcement Learning Schéma général Q-learning Application Limitation Conclusion

2 - Éléments du RL Agent : Apprend Choisit des actions Maximise sa récompense Environnement : Définit les actions possibles Attribue les récompenses État : État de l’environnement à un moment t Retourné à l’agent suite à une action

3 - Schéma général Environnement donne L’état courant Les actions possibles Agent choisit L’action Environnement fournie La récompense L’état suivant Actions possibles

3 - Schéma général Agent Environnement Action Récompense + État t + 1

Notre exemple Environnement : Carte de la ville État : Une position particulière dans la carte Actions possibles : Déplacement d’une case dans une direction légal s a1 a2 S(s,a1) = s1’ S(s,a2) = s2’

Récompenses Attribution des récompenses (notre exemple) : Si S(s, a1) = but alors R(s, a1) = 100 sinon R(s, a1) = 0 Lorsque le but est atteint : Repositionnement de l’agent Redémarrage du processus 100 0 0

Apprentissage Maximiser ses récompenses Apprendre à choisir la meilleure action Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )

Apprentissage Environnement Agent Récompense Q( s, a ) But 100 100 90 81 90 81 81 72 72 81 81 90 But 100 0 0 0 0 0

4 – Q-Learning Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )

A - Choisir l’action à exécuter Hasard ? L’action ayant la valeur de Q maximale ? Maximum local Combinaison des deux approches ? Exploration ou exploitation ? Probabilité d’une action pondérée selon Q

A – Choisir l’action à exécuter Probabilité de choisir une action a i dans un état s P(a i | s) = K Q(s, a i )  j K Q(s, a j ) Si k = 1  Choix équiprobable Si k > 1  Favorise les actions ayant un Q élevé Si k < 1  Favorise les actions ayant un Q peu élevé

B – Recevoir la récompense Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )

C – Observer le nouvel état s’ Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )

D – Mettre à jour Q( s, a ) Algorithme Pour chaque paire ( s, a ), mettre Q( s, a ) à 0 Observer l’état courant s Faire pour toujours Choisir une action a et l’exécuter Recevoir la récompense Observer le nouvel état s’ Mettre à jour la valeur de Q( s , a )

D - Mettre à jour Q( s, a ) Affecter à Q la valeur de la récompense ? Persistance de l’information Moyenne des 10 dernières récompenses ? Plus de précision  explosion de l’espace mémoire

D - Mettre à jour Q( s, a ) Fonction Q : Q( s, a )  r +  Max a’ ( Q( s’, a’ ) ) Où r = récompense reçue  = Constante de propagation temporelle ( 0 <  < 1) Max a’ ( Q(s’ , a’) )

Exemple : La Sim L’agent vs l’environnement Illustration du choix de l’action Illustration de l’atteinte d’un but (mise a jour de Q) Convergence de Q Variation de k Tester avec 10 000 itérations avec k = 1.01 et k = 10 Équilibre entre : Certain de la connaissance sans avoir tout exploré Moins certain de la connaissance mais elle soit répandue

6 – Limitations Apprentissage supervisé ? Besoin de beaucoup d’exploration Pas de connaissance préalable du domaine La connaissance n’est pas transportable Adapté à l’environnement immédiat

6 – Limitations Le concept taux d’erreur est innaplicable Difficile de calculer le taux de confiance Adaptation des connaissances mais : C’est long!!! Aucune généralisation de l’apprentissage

Critiques Utilisation Environnement réactif Comparaison avec le « version space » Possible mais…inopportun Bien adapté pour les jeux de société

Conclusion Ni blanc, ni noir Dépend beaucoup du problème Apprentissage non supervisé Besoin de beaucoup d’itérations Apprentissage d’une fonction d’évaluation (exemple la fonction Q) Pas de généralisation de cette fonction

Apprentissage par renforcement

Contenu connexe

Tendances

En vedette

Similaire à Apprentissage par renforcement

Plus de NSim Technology

Apprentissage par renforcement