Reinforcement Learning - Apprentissage par renforcement
Introduction au RL et au MDP (Processus de décision markovien) et au algorithmes Q-Learning et TD-Learning
1#Introduction
2#Apprentissage par renforcement
3#Processus de Décision de Markov
4#Forme d’Apprentissage par renforcement
5#Application de l’apprentissage par renforcement : AlphaGo
Apprentissage par interaction est une idée fondamentale que sous-tend un grand
nombre de théories sur l’intelligence et l’apprentissage. Cette interaction avec l’environnement permet de réaliser un ensemble d’informations sur les causes et effets des actions
afin d’atteindre les objectifs poursuivis. C’est de cette forme d’apprentissage qu’est tiré
l’Apprentissage par Renforcement.
Le but de ce document est de fournir une introduction à l’Apprentissage par Renforcement à un niveau facile à comprendre. Par ce dernier nous présentons le formalisme,
les principaux algorithmes et leurs performances, une implémentation de base, et les différentes applications sur l’Apprentissage par Renforcement.
- Les hypothèses du modèle black scholes
- Le modèle black scholes
- Les formules black scholes
- les ratios de couverture d'une option européenne
- La volatilité implicite
- Les limites du modèle BS
1#Introduction
2#Apprentissage par renforcement
3#Processus de Décision de Markov
4#Forme d’Apprentissage par renforcement
5#Application de l’apprentissage par renforcement : AlphaGo
Apprentissage par interaction est une idée fondamentale que sous-tend un grand
nombre de théories sur l’intelligence et l’apprentissage. Cette interaction avec l’environnement permet de réaliser un ensemble d’informations sur les causes et effets des actions
afin d’atteindre les objectifs poursuivis. C’est de cette forme d’apprentissage qu’est tiré
l’Apprentissage par Renforcement.
Le but de ce document est de fournir une introduction à l’Apprentissage par Renforcement à un niveau facile à comprendre. Par ce dernier nous présentons le formalisme,
les principaux algorithmes et leurs performances, une implémentation de base, et les différentes applications sur l’Apprentissage par Renforcement.
- Les hypothèses du modèle black scholes
- Le modèle black scholes
- Les formules black scholes
- les ratios de couverture d'une option européenne
- La volatilité implicite
- Les limites du modèle BS
Ces dernières décennies nous assistons de plus en plus à l'utilisation de l'expression des systèmes Intelligents dans les domaines qui s'appuient sur la technologie informatique. Elle devient courante au fur et à mesure que les techniques informatiques s'intéressent aux activités humaines. Les systèmes intelligents font maintenant partis de notre quotidien comme en témoigne l'existence de nombreuses applications qui s'adossent sur les paradigmes de l'intelligence artificielle.
Reinforcement Learning 6. Temporal Difference LearningSeung Jae Lee
A summary of Chapter 6: Temporal Difference Learning of the book 'Reinforcement Learning: An Introduction' by Sutton and Barto. You can find the full book in Professor Sutton's website: http://incompleteideas.net/book/the-book-2nd.html
Check my website for more slides of books and papers!
https://www.endtoend.ai
Deep Reinforcement Learning Talk at PI School. Covering following contents as:
1- Deep Reinforcement Learning
2- QLearning
3- Deep QLearning (DQN)
4- Google Deepmind Paper (DQN for ATARI)
This presentation contains an introduction to reinforcement learning, comparison with others learning ways, introduction to Q-Learning and some applications of reinforcement learning in video games.
Vers une plateforme intelligente pour la prévision des maladies végétalesSarra BOUHENNI
Soutenance d'Ingénieur d'état en Informatique à l'Ecole Nationale Supérieure d'Informatique.
Intitulé du projet: Vers une plateforme intelligente pour la prévision des maladies végétales.
Date de soutenance: 21/06/2017
Reinforcement Learning 7. n-step BootstrappingSeung Jae Lee
A summary of Chapter 7: n-step Bootstrapping of the book 'Reinforcement Learning: An Introduction' by Sutton and Barto. You can find the full book in Professor Sutton's website: http://incompleteideas.net/book/the-book-2nd.html
Check my website for more slides of books and papers!
https://www.endtoend.ai
Integrating climate change adaptation in development planning in Morocco - NAP-GSP.
What is the process to formulate and implement National Adaptation Plans (NAPs)? How can it be used to reduce Morocco’s vulnerability to climate change and integrate climate change adaptation into ongoing development planning processes? How can decision makers include the gender lens to build more inclusive and more effective initiatives? What does Morocco’s current road map for conducting its NAP process look like, and how can it be further enhanced for effective delivery?
These were just some of the questions discussed at a workshop held in Marrakesh, 17-20 April 2017. The workshop was co-hosted by GIZ, UNDP and UNITAR, and supported through the GIZ Environment and Climate Governance project, and aimed at developing and strengthening the technical expertise of Morocco climate action focal points from several departments.
Chap III : Cours de Modélisation & Simulation des systèmesMohammed TAMALI
Un jugement n’est jamais facile à dévoiler, faute de méconnaissance des causes qui sont à l’origine du sujet objet d’un quelconque jugement.
Notre univers est certes basé sur un ensemble de constantes, c’est les constantes UNIVERSELLES.
L’équilibre en est une, il est bien connu que sans cette caractéristiques, nous ne pouvons utiliser les ÉGALITÉS et les COMPARAISONS.
Chaque observateur peut prétendre connaitre suffisamment cette notion.
Ces dernières décennies nous assistons de plus en plus à l'utilisation de l'expression des systèmes Intelligents dans les domaines qui s'appuient sur la technologie informatique. Elle devient courante au fur et à mesure que les techniques informatiques s'intéressent aux activités humaines. Les systèmes intelligents font maintenant partis de notre quotidien comme en témoigne l'existence de nombreuses applications qui s'adossent sur les paradigmes de l'intelligence artificielle.
Reinforcement Learning 6. Temporal Difference LearningSeung Jae Lee
A summary of Chapter 6: Temporal Difference Learning of the book 'Reinforcement Learning: An Introduction' by Sutton and Barto. You can find the full book in Professor Sutton's website: http://incompleteideas.net/book/the-book-2nd.html
Check my website for more slides of books and papers!
https://www.endtoend.ai
Deep Reinforcement Learning Talk at PI School. Covering following contents as:
1- Deep Reinforcement Learning
2- QLearning
3- Deep QLearning (DQN)
4- Google Deepmind Paper (DQN for ATARI)
This presentation contains an introduction to reinforcement learning, comparison with others learning ways, introduction to Q-Learning and some applications of reinforcement learning in video games.
Vers une plateforme intelligente pour la prévision des maladies végétalesSarra BOUHENNI
Soutenance d'Ingénieur d'état en Informatique à l'Ecole Nationale Supérieure d'Informatique.
Intitulé du projet: Vers une plateforme intelligente pour la prévision des maladies végétales.
Date de soutenance: 21/06/2017
Reinforcement Learning 7. n-step BootstrappingSeung Jae Lee
A summary of Chapter 7: n-step Bootstrapping of the book 'Reinforcement Learning: An Introduction' by Sutton and Barto. You can find the full book in Professor Sutton's website: http://incompleteideas.net/book/the-book-2nd.html
Check my website for more slides of books and papers!
https://www.endtoend.ai
Integrating climate change adaptation in development planning in Morocco - NAP-GSP.
What is the process to formulate and implement National Adaptation Plans (NAPs)? How can it be used to reduce Morocco’s vulnerability to climate change and integrate climate change adaptation into ongoing development planning processes? How can decision makers include the gender lens to build more inclusive and more effective initiatives? What does Morocco’s current road map for conducting its NAP process look like, and how can it be further enhanced for effective delivery?
These were just some of the questions discussed at a workshop held in Marrakesh, 17-20 April 2017. The workshop was co-hosted by GIZ, UNDP and UNITAR, and supported through the GIZ Environment and Climate Governance project, and aimed at developing and strengthening the technical expertise of Morocco climate action focal points from several departments.
Chap III : Cours de Modélisation & Simulation des systèmesMohammed TAMALI
Un jugement n’est jamais facile à dévoiler, faute de méconnaissance des causes qui sont à l’origine du sujet objet d’un quelconque jugement.
Notre univers est certes basé sur un ensemble de constantes, c’est les constantes UNIVERSELLES.
L’équilibre en est une, il est bien connu que sans cette caractéristiques, nous ne pouvons utiliser les ÉGALITÉS et les COMPARAISONS.
Chaque observateur peut prétendre connaitre suffisamment cette notion.
On peut apprendre le jeu avec un réseau à apprentissage supervisé s’il existe suffisamment de paires d’entraînement (écran, action) tirées de jeux réussis
On peut aussi construire une stratégie {(écran, action)} basée sur des gains anticipés (récompenses) tirés de l’expérience de jeu
Approche intermédiaire entre les apprentissages supervisé et non supervisé on identifie à mesure la/les actions qui a/ont mené à une récompense
Apprendre par renforcement à partir d’une seule démonstration
Une solution est de partir de la trajectoire état-action fournie et démarrer l’agent à la dernière étape avant la fin pour apprendre seul par renforcement. Ensuite, on repart l’apprentissage de plus en plus tôt dans la trajectoire jusqu’à revenir au début.
Représentation sous forme de graphe d'états
Global Problem Solver
Algorithmes de Recherche Aveugles
Algorithmes de Recherche Informés
Depth First Search
Breadth First Search
Best First Search
A, A*
Fonction heuristique, Fonction heuristique admissible
Un résumé rapide des ateliers et présentations auxquels j'ai pu prendre part et un feedback pour partager le contenu de certains ateliers que j'ai trouvé intéressant mais qui pourraient ne pas être retranscrit en vidéo
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
2. 1. INTRODUCTION
2. HISTORIQUE & ORIGINES
3. DÉFINITIONS
4. PRINCIPE DE FONCTIONNEMENT
1. Aperçu sur MDP
2. Fonctionnement du RL
5. LES TYPES DE RENFORCEMENT
6. TD-Learning & Q-Learning
7. LIMITES DU RL
8. CONCLUSION
Plan du travail
1
4. 3
• Le Machine Learning, fait partie de l’une des approches de
l’intelligence artificielle.
• C’est donc une discipline scientifique centrée sur le
développement, l’analyse et l’implémentation de méthodes
automatisables, qui offrent la possibilité à une machine
d’évoluer grâce a un processus d’apprentissage. Et ainsi
d’accomplir des tâches qui auraient été difficiles, voire
impossibles, de réaliser avec des algorithmiques plus
classiques.
• L’apprentissage automatique a comme objectif de créer des
programmes intelligents, au travers de processus
d’apprentissage et d’évolution.
Introduction
5. 4
Introduction
• Le Machine Learning est composé de plusieurs types
d’apprentissage qui sont : L’apprentissage supervisé,
L’apprentissage non-supervisé et L’apprentissage par
renforcement
8. Historique
& Origines
7
• Parmi les premiers algorithmes de RL, on compte le Temporal
difference learning (TD-learning), proposé par Richard Sutton
en 1988, et le Q-learning mis au point essentiellement lors
d'une thèse soutenue par Chris Watkins en 1989 et publié
réellement en 1992.
• Toutefois, son origine est plus ancienne. Elle dérive de
formalisations théoriques de méthodes de contrôle optimal,
visant à mettre au point un contrôleur permettant de minimiser
au cours du temps une mesure donnée du comportement d'un
système dynamique. La version discrète et stochastique de ce
problème est appelée un MDP et fut introduite par Bellman en
1957.
9. Historique
& Origines
8
• D'autre part, la formalisation des problèmes de RL s'est
aussi beaucoup inspirée de théories de psychologie
animale, comme celles analysant comment un animal
peut apprendre par essais-erreurs à s'adapter à son
environnement. Ces théories ont beaucoup inspiré le
champ scientifique de l’IA et ont beaucoup contribué à
l'émergence d'algorithmes de RL au début des années
1980.
13. Définitions
12
En effectuant des actions, on observe les récompenses qui en résultent,
afin de déterminer la meilleure action pour un état donné.
Finalement, si suffisamment d'états sont observés, une politique de
décision optimale sera générée et nous aurons une machine qui agit
parfaitement dans cet environnement particulier.
La machine ne sait pas quelles actions ou décisions prendre, comme
dans la plupart des formes d'apprentissage de la machine, mais il doit
découvrir quelles actions donnent le plus de récompenses en les
essayant.
15. 14
• Lorsqu’il y a un problème, la machine est censée décider de
la meilleure action à effectuer en fonction de son état actuel.
• Lorsque cette étape est répétée, le problème est connu
comme étant un processus de décision de Markov.
• De façon optimale, l’apprentissage par renforcement utilise
des processus de décision de Markov, mais l'idée de base
est tout simplement de saisir les aspects les plus importants
du vrai problème face à une machine en interaction avec
son environnement, pour atteindre un objectif.
• De toute évidence, un tel agent doit être capable de détecter
l'état de l'environnement dans une certaine mesure et doit
être capable de prendre des mesures qui affectent l'état.
Fonctionnement
16. 15
Fonctionnement
« MDP »
• Un MDP est un processus de contrôle stochastique discret. À chaque
étape, le processus est dans un certain état s et l'agent choisit une action
a La probabilité que le processus arrive à l’état s’ est déterminée par
l'action choisie. Plus précisément, elle est décrite par la fonction de
transition d’états T(s,a,s’) Donc, l’état s’ dépend de l'état actuel s et de
l’action a sélectionnée par le décideur. Cependant, pour un s et un a, le
prochain état est indépendant des actions et états précédents. On dit
alors que le processus satisfait la propriété de Markov.
• Quand le processus passe de l'état s à l'état s’ avec l'action a, l'agent
gagne une récompense R ( s , a , s’ ).
17. 16
Fonctionnement
« MDP »
• MDP est un modèle stochastique où un agent prend des décisions et où
les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour
étudier des problèmes d'optimisation à l'aide d'algorithmes de
programmation dynamique ou d'apprentissage par renforcement.Ils sont
utilisés dans de nombreuses disciplines, notamment la robotique,
l'automatisation, l'économie et l'industrie manufacturière.
• Les MDPs sont une extension des chaînes de Markov. La différence est
l'addition des actions choisies par l'agent et des récompenses gagnées
par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que
les récompenses sont égales, le processus de décision markovien est
une chaîne de Markov.
18. 17
Fonctionnement
« MDP »
Un MDP est un quadruplet { S , A , T , R } définissant:
• un ensemble d'états S, qui peut être fini, dénombrable ou continu; cet
ensemble définit l'environnement tel que perçu par l'agent;
• un ensemble d'actions A, qui peut être fini, dénombrable ou continu et
dans lequel l'agent choisit les interactions qu'il effectue avec
l'environnement;
• une fonction de transition T : S × A × S → [ 0 ; 1 ]; cette fonction
définit l'effet des actions de l'agent sur l’environnement: T(s, a, s')
représente la probabilité de se retrouver dans l'état s′ en effectuant
l'action a , sachant que l'on était à l'instant d'avant dans l'état s.
• une fonction de récompense R : S × A × S × R → [ 0 ; 1 ];elle définit
la récompense (positive ou négative) reçue par l'agent: R ( s , a , s′, v
) pour être passé de l'état s à s’ en ayant effectué l'action a.
20. 19
Fonctionnement
« MDP & RL»
Formellement, la base du modèle d'apprentissage par renforcement consiste
en :
1. un ensemble d'états S de l'agent dans l'environnement ;
2. un ensemble d'actions A que l'agent peut effectuer ;
3. un ensemble de valeurs scalaires "récompenses" R que l'agent peut
obtenir.
À chaque pas de l'algorithme, l'agent perçoit son état s ∈ S et l'ensemble
des actions possibles A. Il choisit une action a ∈ A et reçoit de
l'environnement un nouvel état s+1 et une récompense r+1. Fondé sur ces
interactions, l'algorithme d'apprentissage par renforcement doit permettre à
l'agent de développer une politique Π : S → A qui lui permette de maximiser
la quantité de récompenses.
21. 20
Fonctionnement
« MDP & RL»
Le scenario typique d'apprentissage par renforcement: un agent
effectue une action sur l'environnement, cette action est interprétée
en une récompense et une représentation du nouvel état, et cette
nouvelle représentation est transmise à l'agent.
22. 21
Fonctionnement
« MDP & RL»
• Le MDP peut être utilisé pour déterminer une séquence
optimale d'actions pour un agent dans un environnement
stochastique, c'est-à-dire un agent qui connaît le bon modèle
de l'environnement peut trouver des moyens pour obtenir
des récompenses positives et éviter les pénalités négatives.
• l'apprentissage par renforcement peut guider l'agent vers
une politique optimale même s'il ne sait rien des
récompenses lorsqu'il a commencé.
24. Les différents type
De
Renforcement
23
1. Apprentissage passif:
• Apprentissage passif = la politique π est fixe (Si état s’ exécute l’action
π(s))
• But : Déterminer la valeur de la politique π Apprendre la fonction d’utilité
U(s)
L’agent exécute une série d’essais,Il perçoit la séquence d’états et les
récompenses correspondantes. Ces deux éléments (état et récompenses)
sont gérés par l’environnement
• Utiliser les récompenses obtenues des séquences d’entraînement pour
apprendre les utilités espérées U(s). (Utilité espérée = la somme
moyenne des récompenses en suivant la politique)
25. Les différents type
De
Renforcement
24
2. Apprentissage actif:
• Apprentissage passif = la politique π n’est plus fixe
• Apprendre une politique afin de sélectionner la prochaine action en se
basant sur l’état courant
π : S —> A
• le Q-learning est une technique d'apprentissage par renforcement.
27. Q-Learning
&
TD-Learning
26
1. TD-Learning:
• Le Temporal Difference (TD) learning est une classe d'algorithmes
d'apprentissage par renforcement sans modèle.
• L’idée est d’utiliser les transitions observées s—>s’ durant l’entraînement
pour ajuster les valeurs des états observés (une approximation).
• Le but est d’ajuster la valeur des états en fonction des transitions
effectuées.
Notion de Mise à jour :
U(s) = U(s)+ α(R(s)+γU(s’) -U(s))
• Convergence : Si α décroit avec le temps, alors la convergence de U(s)
est assurée.
28. 27
2. Q-Learning
• Cette méthode d'apprentissage peut être appliquée pour trouver une
suite d'actions associées à des états (politique) d'un MDP quelconque.
• Consiste à apprendre la politique optimale c.-à-d. celle qui maximise la
somme des récompenses pour tous les états s.
• En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et
obtient une récompense (récompense 1);Il regarde ensuite, et voit que la
récompense maximale possible pour une action est en état 2;Il l'utilise
alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans
l'état 1.
Q-Learning
&
TD-Learning
31. 30
Limite du RL
• Tout d'abord, il est souvent trop coûteux en mémoire, car il doit stocker
des valeurs pour chaque État. Et, puisque les problèmes peuvent être
assez complexes, cela peut donc devenir très couteux en mémoire.
• Ensuite, l’élaboration de cette technologie consiste à mettre en place
des techniques d'approximation de valeur, tels que les arbres de
décision ou les réseaux de neurones.
• De plus, les problèmes sont aussi généralement très modulaires; des
comportements similaires réapparaissent souvent. Il est donc très
souvent impossible de déterminer entièrement l'état actuel. Cela affecte
ainsi la performance de l'algorithme.
33. Conclusion
32
• Nous avons pu voir comment fonctionne l’apprentissage par
renforcement : ses qualités comme ses défauts. Ainsi que la
différence entre cette méthode d’apprentissage et toutes les autres.
• Mais il n’y a pas une méthode d’apprentissage mieux que les autres.
L’efficacité de l’apprentissage ou encore, de sa méthode d’application
dépend essentiellement de son utilisation et du type de traitement
que l’on veut gérer.
• Le Machine Learning n’est pas un concept nouveau car cela fait 15
ans que des recherches sont menées sur le sujet. Cependant, avec
l’avènement du Big Data, et grâce à de récents progrès en
mathématiques fondamentales, il est sur le point de devenir
indispensable au business.
Mon exposé se centrera essentiellement sur ce dernier type d'apprentissage “L'apprentissage par renforcement", que je vais détailler par la suite
C’est quoi , d’ou il vient , comment fonctionne l’apprentissage par renforcement : ses qualités comme ses défauts. Ainsi que la différence entre cette méthode d’apprentissage et toutes les autres.
3°)
Cela imite la manière fondamentale dont les humains et les animaux apprennent. En tant qu'êtres humains, nous pouvons effectuer des actions et observer leurs résultats sur notre environnement…
Connue sous le nom de «cause à effet», c’est sans doute la clé de la construction de notre connaissance tout au long de notre vie.
Il y a beaucoup d’algorithmes qui abordent cette question.
En fait, l'apprentissage par renforcement est défini par un type spécifique de problème, et toutes les solutions à ces problèmes sont classées comme des algorithmes d’apprentissage par renforcement.
…
Donc on peut en déduire que toute méthode qui s’adapte à la résolution d’un problème est considérée comme une méthode d'apprentissage par renforcement.
L'exemple donné ci-contre représente un processus de Décision Markovien à trois états distincts { s0 , s1 , s2 } représentés en vert.
Depuis chacun des états, on peut effectuer une action de l'ensemble { a0 , a1 }.
Les nœuds rouges représentent donc une décision possible (le choix d'une action dans un état donné).
Les nombres indiqués sur les flèches sont les probabilités d'effectuer la transition à partir du nœud de décision.
Enfin, les transitions peuvent générer des récompenses (dessinées ici en jaune).
une politique π(s): c'est la définition de comment un agent se compportent dans un environement
On distingue deux types d’apprentissage par renforcement : actif, et passif.
α : le paramètre du taux d’apprentissage
γ : le facteur d’escompte.
R(s)+γU(s’) : Objectif TD.
Bien que L’apprentissage par renforcement semble être une technologie très efficace et pertinente, il a cependant quelques limites.