Reinforcement Learning - Apprentissage par renforcement
Introduction au RL et au MDP (Processus de décision markovien) et au algorithmes Q-Learning et TD-Learning
2. 1. INTRODUCTION
2. HISTORIQUE & ORIGINES
3. DÉFINITIONS
4. PRINCIPE DE FONCTIONNEMENT
1. Aperçu sur MDP
2. Fonctionnement du RL
5. LES TYPES DE RENFORCEMENT
6. TD-Learning & Q-Learning
7. LIMITES DU RL
8. CONCLUSION
Plan du travail
1
4. 3
• Le Machine Learning, fait partie de l’une des approches de
l’intelligence artificielle.
• C’est donc une discipline scientifique centrée sur le
développement, l’analyse et l’implémentation de méthodes
automatisables, qui offrent la possibilité à une machine
d’évoluer grâce a un processus d’apprentissage. Et ainsi
d’accomplir des tâches qui auraient été difficiles, voire
impossibles, de réaliser avec des algorithmiques plus
classiques.
• L’apprentissage automatique a comme objectif de créer des
programmes intelligents, au travers de processus
d’apprentissage et d’évolution.
Introduction
5. 4
Introduction
• Le Machine Learning est composé de plusieurs types
d’apprentissage qui sont : L’apprentissage supervisé,
L’apprentissage non-supervisé et L’apprentissage par
renforcement
8. Historique
& Origines
7
• Parmi les premiers algorithmes de RL, on compte le Temporal
difference learning (TD-learning), proposé par Richard Sutton
en 1988, et le Q-learning mis au point essentiellement lors
d'une thèse soutenue par Chris Watkins en 1989 et publié
réellement en 1992.
• Toutefois, son origine est plus ancienne. Elle dérive de
formalisations théoriques de méthodes de contrôle optimal,
visant à mettre au point un contrôleur permettant de minimiser
au cours du temps une mesure donnée du comportement d'un
système dynamique. La version discrète et stochastique de ce
problème est appelée un MDP et fut introduite par Bellman en
1957.
9. Historique
& Origines
8
• D'autre part, la formalisation des problèmes de RL s'est
aussi beaucoup inspirée de théories de psychologie
animale, comme celles analysant comment un animal
peut apprendre par essais-erreurs à s'adapter à son
environnement. Ces théories ont beaucoup inspiré le
champ scientifique de l’IA et ont beaucoup contribué à
l'émergence d'algorithmes de RL au début des années
1980.
13. Définitions
12
En effectuant des actions, on observe les récompenses qui en résultent,
afin de déterminer la meilleure action pour un état donné.
Finalement, si suffisamment d'états sont observés, une politique de
décision optimale sera générée et nous aurons une machine qui agit
parfaitement dans cet environnement particulier.
La machine ne sait pas quelles actions ou décisions prendre, comme
dans la plupart des formes d'apprentissage de la machine, mais il doit
découvrir quelles actions donnent le plus de récompenses en les
essayant.
15. 14
• Lorsqu’il y a un problème, la machine est censée décider de
la meilleure action à effectuer en fonction de son état actuel.
• Lorsque cette étape est répétée, le problème est connu
comme étant un processus de décision de Markov.
• De façon optimale, l’apprentissage par renforcement utilise
des processus de décision de Markov, mais l'idée de base
est tout simplement de saisir les aspects les plus importants
du vrai problème face à une machine en interaction avec
son environnement, pour atteindre un objectif.
• De toute évidence, un tel agent doit être capable de détecter
l'état de l'environnement dans une certaine mesure et doit
être capable de prendre des mesures qui affectent l'état.
Fonctionnement
16. 15
Fonctionnement
« MDP »
• Un MDP est un processus de contrôle stochastique discret. À chaque
étape, le processus est dans un certain état s et l'agent choisit une action
a La probabilité que le processus arrive à l’état s’ est déterminée par
l'action choisie. Plus précisément, elle est décrite par la fonction de
transition d’états T(s,a,s’) Donc, l’état s’ dépend de l'état actuel s et de
l’action a sélectionnée par le décideur. Cependant, pour un s et un a, le
prochain état est indépendant des actions et états précédents. On dit
alors que le processus satisfait la propriété de Markov.
• Quand le processus passe de l'état s à l'état s’ avec l'action a, l'agent
gagne une récompense R ( s , a , s’ ).
17. 16
Fonctionnement
« MDP »
• MDP est un modèle stochastique où un agent prend des décisions et où
les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour
étudier des problèmes d'optimisation à l'aide d'algorithmes de
programmation dynamique ou d'apprentissage par renforcement.Ils sont
utilisés dans de nombreuses disciplines, notamment la robotique,
l'automatisation, l'économie et l'industrie manufacturière.
• Les MDPs sont une extension des chaînes de Markov. La différence est
l'addition des actions choisies par l'agent et des récompenses gagnées
par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que
les récompenses sont égales, le processus de décision markovien est
une chaîne de Markov.
18. 17
Fonctionnement
« MDP »
Un MDP est un quadruplet { S , A , T , R } définissant:
• un ensemble d'états S, qui peut être fini, dénombrable ou continu; cet
ensemble définit l'environnement tel que perçu par l'agent;
• un ensemble d'actions A, qui peut être fini, dénombrable ou continu et
dans lequel l'agent choisit les interactions qu'il effectue avec
l'environnement;
• une fonction de transition T : S × A × S → [ 0 ; 1 ]; cette fonction
définit l'effet des actions de l'agent sur l’environnement: T(s, a, s')
représente la probabilité de se retrouver dans l'état s′ en effectuant
l'action a , sachant que l'on était à l'instant d'avant dans l'état s.
• une fonction de récompense R : S × A × S × R → [ 0 ; 1 ];elle définit
la récompense (positive ou négative) reçue par l'agent: R ( s , a , s′, v
) pour être passé de l'état s à s’ en ayant effectué l'action a.
20. 19
Fonctionnement
« MDP & RL»
Formellement, la base du modèle d'apprentissage par renforcement consiste
en :
1. un ensemble d'états S de l'agent dans l'environnement ;
2. un ensemble d'actions A que l'agent peut effectuer ;
3. un ensemble de valeurs scalaires "récompenses" R que l'agent peut
obtenir.
À chaque pas de l'algorithme, l'agent perçoit son état s ∈ S et l'ensemble
des actions possibles A. Il choisit une action a ∈ A et reçoit de
l'environnement un nouvel état s+1 et une récompense r+1. Fondé sur ces
interactions, l'algorithme d'apprentissage par renforcement doit permettre à
l'agent de développer une politique Π : S → A qui lui permette de maximiser
la quantité de récompenses.
21. 20
Fonctionnement
« MDP & RL»
Le scenario typique d'apprentissage par renforcement: un agent
effectue une action sur l'environnement, cette action est interprétée
en une récompense et une représentation du nouvel état, et cette
nouvelle représentation est transmise à l'agent.
22. 21
Fonctionnement
« MDP & RL»
• Le MDP peut être utilisé pour déterminer une séquence
optimale d'actions pour un agent dans un environnement
stochastique, c'est-à-dire un agent qui connaît le bon modèle
de l'environnement peut trouver des moyens pour obtenir
des récompenses positives et éviter les pénalités négatives.
• l'apprentissage par renforcement peut guider l'agent vers
une politique optimale même s'il ne sait rien des
récompenses lorsqu'il a commencé.
24. Les différents type
De
Renforcement
23
1. Apprentissage passif:
• Apprentissage passif = la politique π est fixe (Si état s’ exécute l’action
π(s))
• But : Déterminer la valeur de la politique π Apprendre la fonction d’utilité
U(s)
L’agent exécute une série d’essais,Il perçoit la séquence d’états et les
récompenses correspondantes. Ces deux éléments (état et récompenses)
sont gérés par l’environnement
• Utiliser les récompenses obtenues des séquences d’entraînement pour
apprendre les utilités espérées U(s). (Utilité espérée = la somme
moyenne des récompenses en suivant la politique)
25. Les différents type
De
Renforcement
24
2. Apprentissage actif:
• Apprentissage passif = la politique π n’est plus fixe
• Apprendre une politique afin de sélectionner la prochaine action en se
basant sur l’état courant
π : S —> A
• le Q-learning est une technique d'apprentissage par renforcement.
27. Q-Learning
&
TD-Learning
26
1. TD-Learning:
• Le Temporal Difference (TD) learning est une classe d'algorithmes
d'apprentissage par renforcement sans modèle.
• L’idée est d’utiliser les transitions observées s—>s’ durant l’entraînement
pour ajuster les valeurs des états observés (une approximation).
• Le but est d’ajuster la valeur des états en fonction des transitions
effectuées.
Notion de Mise à jour :
U(s) = U(s)+ α(R(s)+γU(s’) -U(s))
• Convergence : Si α décroit avec le temps, alors la convergence de U(s)
est assurée.
28. 27
2. Q-Learning
• Cette méthode d'apprentissage peut être appliquée pour trouver une
suite d'actions associées à des états (politique) d'un MDP quelconque.
• Consiste à apprendre la politique optimale c.-à-d. celle qui maximise la
somme des récompenses pour tous les états s.
• En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et
obtient une récompense (récompense 1);Il regarde ensuite, et voit que la
récompense maximale possible pour une action est en état 2;Il l'utilise
alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans
l'état 1.
Q-Learning
&
TD-Learning
31. 30
Limite du RL
• Tout d'abord, il est souvent trop coûteux en mémoire, car il doit stocker
des valeurs pour chaque État. Et, puisque les problèmes peuvent être
assez complexes, cela peut donc devenir très couteux en mémoire.
• Ensuite, l’élaboration de cette technologie consiste à mettre en place
des techniques d'approximation de valeur, tels que les arbres de
décision ou les réseaux de neurones.
• De plus, les problèmes sont aussi généralement très modulaires; des
comportements similaires réapparaissent souvent. Il est donc très
souvent impossible de déterminer entièrement l'état actuel. Cela affecte
ainsi la performance de l'algorithme.
33. Conclusion
32
• Nous avons pu voir comment fonctionne l’apprentissage par
renforcement : ses qualités comme ses défauts. Ainsi que la
différence entre cette méthode d’apprentissage et toutes les autres.
• Mais il n’y a pas une méthode d’apprentissage mieux que les autres.
L’efficacité de l’apprentissage ou encore, de sa méthode d’application
dépend essentiellement de son utilisation et du type de traitement
que l’on veut gérer.
• Le Machine Learning n’est pas un concept nouveau car cela fait 15
ans que des recherches sont menées sur le sujet. Cependant, avec
l’avènement du Big Data, et grâce à de récents progrès en
mathématiques fondamentales, il est sur le point de devenir
indispensable au business.
Mon exposé se centrera essentiellement sur ce dernier type d'apprentissage “L'apprentissage par renforcement", que je vais détailler par la suite
C’est quoi , d’ou il vient , comment fonctionne l’apprentissage par renforcement : ses qualités comme ses défauts. Ainsi que la différence entre cette méthode d’apprentissage et toutes les autres.
3°)
Cela imite la manière fondamentale dont les humains et les animaux apprennent. En tant qu'êtres humains, nous pouvons effectuer des actions et observer leurs résultats sur notre environnement…
Connue sous le nom de «cause à effet», c’est sans doute la clé de la construction de notre connaissance tout au long de notre vie.
Il y a beaucoup d’algorithmes qui abordent cette question.
En fait, l'apprentissage par renforcement est défini par un type spécifique de problème, et toutes les solutions à ces problèmes sont classées comme des algorithmes d’apprentissage par renforcement.
…
Donc on peut en déduire que toute méthode qui s’adapte à la résolution d’un problème est considérée comme une méthode d'apprentissage par renforcement.
L'exemple donné ci-contre représente un processus de Décision Markovien à trois états distincts { s0 , s1 , s2 } représentés en vert.
Depuis chacun des états, on peut effectuer une action de l'ensemble { a0 , a1 }.
Les nœuds rouges représentent donc une décision possible (le choix d'une action dans un état donné).
Les nombres indiqués sur les flèches sont les probabilités d'effectuer la transition à partir du nœud de décision.
Enfin, les transitions peuvent générer des récompenses (dessinées ici en jaune).
une politique π(s): c'est la définition de comment un agent se compportent dans un environement
On distingue deux types d’apprentissage par renforcement : actif, et passif.
α : le paramètre du taux d’apprentissage
γ : le facteur d’escompte.
R(s)+γU(s’) : Objectif TD.
Bien que L’apprentissage par renforcement semble être une technologie très efficace et pertinente, il a cependant quelques limites.