Reinforcement Learning - Apprentissage par renforcement

Apprentissage par renforcement
Réalisé par :
• OUARDI Yakoub Abdallah
Enseignant :
Mr HAMOU
2019/2020

1. INTRODUCTION
2. HISTORIQUE & ORIGINES
3. DÉFINITIONS
4. PRINCIPE DE FONCTIONNEMENT
1. Aperçu sur MDP
2. Fonctionnement du RL
5. LES TYPES DE RENFORCEMENT
6. TD-Learning & Q-Learning
7. LIMITES DU RL
8. CONCLUSION
Plan du travail
1

3
• Le Machine Learning, fait partie de l’une des approches de
l’intelligence artificielle.
• C’est donc une discipline scientifique centrée sur le
développement, l’analyse et l’implémentation de méthodes
automatisables, qui offrent la possibilité à une machine
d’évoluer grâce a un processus d’apprentissage. Et ainsi
d’accomplir des tâches qui auraient été difficiles, voire
impossibles, de réaliser avec des algorithmiques plus
classiques.
• L’apprentissage automatique a comme objectif de créer des
programmes intelligents, au travers de processus
d’apprentissage et d’évolution.
Introduction

4
Introduction
• Le Machine Learning est composé de plusieurs types
d’apprentissage qui sont : L’apprentissage supervisé,
L’apprentissage non-supervisé et L’apprentissage par
renforcement

Historique
& Origines
7
• Parmi les premiers algorithmes de RL, on compte le Temporal
difference learning (TD-learning), proposé par Richard Sutton
en 1988, et le Q-learning mis au point essentiellement lors
d'une thèse soutenue par Chris Watkins en 1989 et publié
réellement en 1992.
• Toutefois, son origine est plus ancienne. Elle dérive de
formalisations théoriques de méthodes de contrôle optimal,
visant à mettre au point un contrôleur permettant de minimiser
au cours du temps une mesure donnée du comportement d'un
système dynamique. La version discrète et stochastique de ce
problème est appelée un MDP et fut introduite par Bellman en
1957.

Historique
& Origines
8
• D'autre part, la formalisation des problèmes de RL s'est
aussi beaucoup inspirée de théories de psychologie
animale, comme celles analysant comment un animal
peut apprendre par essais-erreurs à s'adapter à son
environnement. Ces théories ont beaucoup inspiré le
champ scientifique de l’IA et ont beaucoup contribué à
l'émergence d'algorithmes de RL au début des années
1980.

Définitions
12
En effectuant des actions, on observe les récompenses qui en résultent,
afin de déterminer la meilleure action pour un état donné.
Finalement, si suffisamment d'états sont observés, une politique de
décision optimale sera générée et nous aurons une machine qui agit
parfaitement dans cet environnement particulier.
La machine ne sait pas quelles actions ou décisions prendre, comme
dans la plupart des formes d'apprentissage de la machine, mais il doit
découvrir quelles actions donnent le plus de récompenses en les
essayant.

14
• Lorsqu’il y a un problème, la machine est censée décider de
la meilleure action à effectuer en fonction de son état actuel.
• Lorsque cette étape est répétée, le problème est connu
comme étant un processus de décision de Markov.
• De façon optimale, l’apprentissage par renforcement utilise
des processus de décision de Markov, mais l'idée de base
est tout simplement de saisir les aspects les plus importants
du vrai problème face à une machine en interaction avec
son environnement, pour atteindre un objectif.
• De toute évidence, un tel agent doit être capable de détecter
l'état de l'environnement dans une certaine mesure et doit
être capable de prendre des mesures qui affectent l'état.
Fonctionnement

15
Fonctionnement
« MDP »
• Un MDP est un processus de contrôle stochastique discret. À chaque
étape, le processus est dans un certain état s et l'agent choisit une action
a La probabilité que le processus arrive à l’état s’ est déterminée par
l'action choisie. Plus précisément, elle est décrite par la fonction de
transition d’états T(s,a,s’) Donc, l’état s’ dépend de l'état actuel s et de
l’action a sélectionnée par le décideur. Cependant, pour un s et un a, le
prochain état est indépendant des actions et états précédents. On dit
alors que le processus satisfait la propriété de Markov.
• Quand le processus passe de l'état s à l'état s’ avec l'action a, l'agent
gagne une récompense R ( s , a , s’ ).

16
Fonctionnement
« MDP »
• MDP est un modèle stochastique où un agent prend des décisions et où
les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour
étudier des problèmes d'optimisation à l'aide d'algorithmes de
programmation dynamique ou d'apprentissage par renforcement.Ils sont
utilisés dans de nombreuses disciplines, notamment la robotique,
l'automatisation, l'économie et l'industrie manufacturière.
• Les MDPs sont une extension des chaînes de Markov. La différence est
l'addition des actions choisies par l'agent et des récompenses gagnées
par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que
les récompenses sont égales, le processus de décision markovien est
une chaîne de Markov.

17
Fonctionnement
« MDP »
Un MDP est un quadruplet { S , A , T , R } définissant:
• un ensemble d'états S, qui peut être fini, dénombrable ou continu; cet
ensemble définit l'environnement tel que perçu par l'agent;
• un ensemble d'actions A, qui peut être fini, dénombrable ou continu et
dans lequel l'agent choisit les interactions qu'il effectue avec
l'environnement;
• une fonction de transition T : S × A × S → [ 0 ; 1 ]; cette fonction
définit l'effet des actions de l'agent sur l’environnement: T(s, a, s')
représente la probabilité de se retrouver dans l'état s′ en effectuant
l'action a , sachant que l'on était à l'instant d'avant dans l'état s.
• une fonction de récompense R : S × A × S × R → [ 0 ; 1 ];elle définit
la récompense (positive ou négative) reçue par l'agent: R ( s , a , s′, v
) pour être passé de l'état s à s’ en ayant effectué l'action a.

18
Fonctionnement
« MDP »
Exemple de processus de Décision Markovien à trois états et à deux actions.

19
Fonctionnement
« MDP & RL»
Formellement, la base du modèle d'apprentissage par renforcement consiste
en :
1. un ensemble d'états S de l'agent dans l'environnement ;
2. un ensemble d'actions A que l'agent peut effectuer ;
3. un ensemble de valeurs scalaires "récompenses" R que l'agent peut
obtenir.
À chaque pas de l'algorithme, l'agent perçoit son état s ∈ S et l'ensemble
des actions possibles A. Il choisit une action a ∈ A et reçoit de
l'environnement un nouvel état s+1 et une récompense r+1. Fondé sur ces
interactions, l'algorithme d'apprentissage par renforcement doit permettre à
l'agent de développer une politique Π : S → A qui lui permette de maximiser
la quantité de récompenses.

20
Fonctionnement
« MDP & RL»
Le scenario typique d'apprentissage par renforcement: un agent
effectue une action sur l'environnement, cette action est interprétée
en une récompense et une représentation du nouvel état, et cette
nouvelle représentation est transmise à l'agent.

21
Fonctionnement
« MDP & RL»
• Le MDP peut être utilisé pour déterminer une séquence
optimale d'actions pour un agent dans un environnement
stochastique, c'est-à-dire un agent qui connaît le bon modèle
de l'environnement peut trouver des moyens pour obtenir
des récompenses positives et éviter les pénalités négatives.
• l'apprentissage par renforcement peut guider l'agent vers
une politique optimale même s'il ne sait rien des
récompenses lorsqu'il a commencé.

Les différents type
de renforcement
22

De
Renforcement
23
1. Apprentissage passif:
• Apprentissage passif = la politique π est fixe (Si état s’ exécute l’action
π(s))
• But : Déterminer la valeur de la politique π Apprendre la fonction d’utilité
U(s)
L’agent exécute une série d’essais,Il perçoit la séquence d’états et les
récompenses correspondantes. Ces deux éléments (état et récompenses)
sont gérés par l’environnement
• Utiliser les récompenses obtenues des séquences d’entraînement pour
apprendre les utilités espérées U(s). (Utilité espérée = la somme
moyenne des récompenses en suivant la politique)

De
Renforcement
24
2. Apprentissage actif:
• Apprentissage passif = la politique π n’est plus fixe
• Apprendre une politique afin de sélectionner la prochaine action en se
basant sur l’état courant
π : S —> A
• le Q-learning est une technique d'apprentissage par renforcement.

Q-Learning
&
TD-Learning
26
1. TD-Learning:
• Le Temporal Difference (TD) learning est une classe d'algorithmes
d'apprentissage par renforcement sans modèle.
• L’idée est d’utiliser les transitions observées s—>s’ durant l’entraînement
pour ajuster les valeurs des états observés (une approximation).
• Le but est d’ajuster la valeur des états en fonction des transitions
effectuées.
Notion de Mise à jour :
U(s) = U(s)+ α(R(s)+γU(s’) -U(s))
• Convergence : Si α décroit avec le temps, alors la convergence de U(s)
est assurée.

27
2. Q-Learning
• Cette méthode d'apprentissage peut être appliquée pour trouver une
suite d'actions associées à des états (politique) d'un MDP quelconque.
• Consiste à apprendre la politique optimale c.-à-d. celle qui maximise la
somme des récompenses pour tous les états s.
• En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et
obtient une récompense (récompense 1);Il regarde ensuite, et voit que la
récompense maximale possible pour une action est en état 2;Il l'utilise
alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans
l'état 1.
Q-Learning
&
TD-Learning

28
2. Q-Learning
Q-Learning
&
TD-Learning

30
Limite du RL
• Tout d'abord, il est souvent trop coûteux en mémoire, car il doit stocker
des valeurs pour chaque État. Et, puisque les problèmes peuvent être
assez complexes, cela peut donc devenir très couteux en mémoire.
• Ensuite, l’élaboration de cette technologie consiste à mettre en place
des techniques d'approximation de valeur, tels que les arbres de
décision ou les réseaux de neurones.
• De plus, les problèmes sont aussi généralement très modulaires; des
comportements similaires réapparaissent souvent. Il est donc très
souvent impossible de déterminer entièrement l'état actuel. Cela affecte
ainsi la performance de l'algorithme.

Conclusion
32
• Nous avons pu voir comment fonctionne l’apprentissage par
renforcement : ses qualités comme ses défauts. Ainsi que la
différence entre cette méthode d’apprentissage et toutes les autres.
• Mais il n’y a pas une méthode d’apprentissage mieux que les autres.
L’efficacité de l’apprentissage ou encore, de sa méthode d’application
dépend essentiellement de son utilisation et du type de traitement
que l’on veut gérer.
• Le Machine Learning n’est pas un concept nouveau car cela fait 15
ans que des recherches sont menées sur le sujet. Cependant, avec
l’avènement du Big Data, et grâce à de récents progrès en
mathématiques fondamentales, il est sur le point de devenir
indispensable au business.

33
• http://www-igm.univ-
mlv.fr/~dr/XPOSE2014/Machin_Learning/index.html
• https://medium.com/machine-learning-for-humans/reinforcement-
learning-6eacf258b265
• http://www2.ift.ulaval.ca/~lamontagne/ift17587/modules/module6/r
enforcement.pdf
• https://towardsdatascience.com/reinforcement-learning-
demystified-markov-decision-processes-part-1-
bf00dda41690?gi=5bd4412c882c
Références

Reinforcement Learning - Apprentissage par renforcement

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Reinforcement Learning - Apprentissage par renforcement

Similaire à Reinforcement Learning - Apprentissage par renforcement (20)

Reinforcement Learning - Apprentissage par renforcement

Notes de l'éditeur