SlideShare une entreprise Scribd logo
1  sur  35
Apprentissage par renforcement
Réalisé par :
• OUARDI Yakoub Abdallah
Enseignant :
Mr HAMOU
2019/2020
1. INTRODUCTION
2. HISTORIQUE & ORIGINES
3. DÉFINITIONS
4. PRINCIPE DE FONCTIONNEMENT
1. Aperçu sur MDP
2. Fonctionnement du RL
5. LES TYPES DE RENFORCEMENT
6. TD-Learning & Q-Learning
7. LIMITES DU RL
8. CONCLUSION
Plan du travail
1
2
Introduction
3
• Le Machine Learning, fait partie de l’une des approches de
l’intelligence artificielle.
• C’est donc une discipline scientifique centrée sur le
développement, l’analyse et l’implémentation de méthodes
automatisables, qui offrent la possibilité à une machine
d’évoluer grâce a un processus d’apprentissage. Et ainsi
d’accomplir des tâches qui auraient été difficiles, voire
impossibles, de réaliser avec des algorithmiques plus
classiques.
• L’apprentissage automatique a comme objectif de créer des
programmes intelligents, au travers de processus
d’apprentissage et d’évolution.
Introduction
4
Introduction
• Le Machine Learning est composé de plusieurs types
d’apprentissage qui sont : L’apprentissage supervisé,
L’apprentissage non-supervisé et L’apprentissage par
renforcement
5
Dans cet exposé !
Historique &
Origines
6
Historique
& Origines
7
• Parmi les premiers algorithmes de RL, on compte le Temporal
difference learning (TD-learning), proposé par Richard Sutton
en 1988, et le Q-learning mis au point essentiellement lors
d'une thèse soutenue par Chris Watkins en 1989 et publié
réellement en 1992.
• Toutefois, son origine est plus ancienne. Elle dérive de
formalisations théoriques de méthodes de contrôle optimal,
visant à mettre au point un contrôleur permettant de minimiser
au cours du temps une mesure donnée du comportement d'un
système dynamique. La version discrète et stochastique de ce
problème est appelée un MDP et fut introduite par Bellman en
1957.
Historique
& Origines
8
• D'autre part, la formalisation des problèmes de RL s'est
aussi beaucoup inspirée de théories de psychologie
animale, comme celles analysant comment un animal
peut apprendre par essais-erreurs à s'adapter à son
environnement. Ces théories ont beaucoup inspiré le
champ scientifique de l’IA et ont beaucoup contribué à
l'émergence d'algorithmes de RL au début des années
1980.
Définitions
9
Définitions
10
Définitions
11
Définitions
12
En effectuant des actions, on observe les récompenses qui en résultent,
afin de déterminer la meilleure action pour un état donné.
Finalement, si suffisamment d'états sont observés, une politique de
décision optimale sera générée et nous aurons une machine qui agit
parfaitement dans cet environnement particulier.
La machine ne sait pas quelles actions ou décisions prendre, comme
dans la plupart des formes d'apprentissage de la machine, mais il doit
découvrir quelles actions donnent le plus de récompenses en les
essayant.
Principe de
Fonctionnement
13
14
• Lorsqu’il y a un problème, la machine est censée décider de
la meilleure action à effectuer en fonction de son état actuel.
• Lorsque cette étape est répétée, le problème est connu
comme étant un processus de décision de Markov.
• De façon optimale, l’apprentissage par renforcement utilise
des processus de décision de Markov, mais l'idée de base
est tout simplement de saisir les aspects les plus importants
du vrai problème face à une machine en interaction avec
son environnement, pour atteindre un objectif.
• De toute évidence, un tel agent doit être capable de détecter
l'état de l'environnement dans une certaine mesure et doit
être capable de prendre des mesures qui affectent l'état.
Fonctionnement
15
Fonctionnement
« MDP »
• Un MDP est un processus de contrôle stochastique discret. À chaque
étape, le processus est dans un certain état s et l'agent choisit une action
a La probabilité que le processus arrive à l’état s’ est déterminée par
l'action choisie. Plus précisément, elle est décrite par la fonction de
transition d’états T(s,a,s’) Donc, l’état s’ dépend de l'état actuel s et de
l’action a sélectionnée par le décideur. Cependant, pour un s et un a, le
prochain état est indépendant des actions et états précédents. On dit
alors que le processus satisfait la propriété de Markov.
• Quand le processus passe de l'état s à l'état s’ avec l'action a, l'agent
gagne une récompense R ( s , a , s’ ).
16
Fonctionnement
« MDP »
• MDP est un modèle stochastique où un agent prend des décisions et où
les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour
étudier des problèmes d'optimisation à l'aide d'algorithmes de
programmation dynamique ou d'apprentissage par renforcement.Ils sont
utilisés dans de nombreuses disciplines, notamment la robotique,
l'automatisation, l'économie et l'industrie manufacturière.
• Les MDPs sont une extension des chaînes de Markov. La différence est
l'addition des actions choisies par l'agent et des récompenses gagnées
par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que
les récompenses sont égales, le processus de décision markovien est
une chaîne de Markov.
17
Fonctionnement
« MDP »
Un MDP est un quadruplet { S , A , T , R } définissant:
• un ensemble d'états S, qui peut être fini, dénombrable ou continu; cet
ensemble définit l'environnement tel que perçu par l'agent;
• un ensemble d'actions A, qui peut être fini, dénombrable ou continu et
dans lequel l'agent choisit les interactions qu'il effectue avec
l'environnement;
• une fonction de transition T : S × A × S → [ 0 ; 1 ]; cette fonction
définit l'effet des actions de l'agent sur l’environnement: T(s, a, s')
représente la probabilité de se retrouver dans l'état s′ en effectuant
l'action a , sachant que l'on était à l'instant d'avant dans l'état s.
• une fonction de récompense R : S × A × S × R → [ 0 ; 1 ];elle définit
la récompense (positive ou négative) reçue par l'agent: R ( s , a , s′, v
) pour être passé de l'état s à s’ en ayant effectué l'action a.
18
Fonctionnement
« MDP »
Exemple de processus de Décision Markovien à trois états et à deux actions.
19
Fonctionnement
« MDP & RL»
Formellement, la base du modèle d'apprentissage par renforcement consiste
en :
1. un ensemble d'états S de l'agent dans l'environnement ;
2. un ensemble d'actions A que l'agent peut effectuer ;
3. un ensemble de valeurs scalaires "récompenses" R que l'agent peut
obtenir.
À chaque pas de l'algorithme, l'agent perçoit son état s ∈ S et l'ensemble
des actions possibles A. Il choisit une action a ∈ A et reçoit de
l'environnement un nouvel état s+1 et une récompense r+1. Fondé sur ces
interactions, l'algorithme d'apprentissage par renforcement doit permettre à
l'agent de développer une politique Π : S → A qui lui permette de maximiser
la quantité de récompenses.
20
Fonctionnement
« MDP & RL»
Le scenario typique d'apprentissage par renforcement: un agent
effectue une action sur l'environnement, cette action est interprétée
en une récompense et une représentation du nouvel état, et cette
nouvelle représentation est transmise à l'agent.
21
Fonctionnement
« MDP & RL»
• Le MDP peut être utilisé pour déterminer une séquence
optimale d'actions pour un agent dans un environnement
stochastique, c'est-à-dire un agent qui connaît le bon modèle
de l'environnement peut trouver des moyens pour obtenir
des récompenses positives et éviter les pénalités négatives.
• l'apprentissage par renforcement peut guider l'agent vers
une politique optimale même s'il ne sait rien des
récompenses lorsqu'il a commencé.
Les différents type
de renforcement
22
Les différents type
De
Renforcement
23
1. Apprentissage passif:
• Apprentissage passif = la politique π est fixe (Si état s’ exécute l’action
π(s))
• But : Déterminer la valeur de la politique π Apprendre la fonction d’utilité
U(s)
L’agent exécute une série d’essais,Il perçoit la séquence d’états et les
récompenses correspondantes. Ces deux éléments (état et récompenses)
sont gérés par l’environnement
• Utiliser les récompenses obtenues des séquences d’entraînement pour
apprendre les utilités espérées U(s). (Utilité espérée = la somme
moyenne des récompenses en suivant la politique)
Les différents type
De
Renforcement
24
2. Apprentissage actif:
• Apprentissage passif = la politique π n’est plus fixe
• Apprendre une politique afin de sélectionner la prochaine action en se
basant sur l’état courant
π : S —> A
• le Q-learning est une technique d'apprentissage par renforcement.
Q-Learning & TD-
Learning
25
Q-Learning
&
TD-Learning
26
1. TD-Learning:
• Le Temporal Difference (TD) learning est une classe d'algorithmes
d'apprentissage par renforcement sans modèle.
• L’idée est d’utiliser les transitions observées s—>s’ durant l’entraînement
pour ajuster les valeurs des états observés (une approximation).
• Le but est d’ajuster la valeur des états en fonction des transitions
effectuées.
Notion de Mise à jour :
U(s) = U(s)+ α(R(s)+γU(s’) -U(s))
• Convergence : Si α décroit avec le temps, alors la convergence de U(s)
est assurée.
27
2. Q-Learning
• Cette méthode d'apprentissage peut être appliquée pour trouver une
suite d'actions associées à des états (politique) d'un MDP quelconque.
• Consiste à apprendre la politique optimale c.-à-d. celle qui maximise la
somme des récompenses pour tous les états s.
• En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et
obtient une récompense (récompense 1);Il regarde ensuite, et voit que la
récompense maximale possible pour une action est en état 2;Il l'utilise
alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans
l'état 1.
Q-Learning
&
TD-Learning
28
2. Q-Learning
Q-Learning
&
TD-Learning
Limites du RL
29
30
Limite du RL
• Tout d'abord, il est souvent trop coûteux en mémoire, car il doit stocker
des valeurs pour chaque État. Et, puisque les problèmes peuvent être
assez complexes, cela peut donc devenir très couteux en mémoire.
• Ensuite, l’élaboration de cette technologie consiste à mettre en place
des techniques d'approximation de valeur, tels que les arbres de
décision ou les réseaux de neurones.
• De plus, les problèmes sont aussi généralement très modulaires; des
comportements similaires réapparaissent souvent. Il est donc très
souvent impossible de déterminer entièrement l'état actuel. Cela affecte
ainsi la performance de l'algorithme.
Conclusion
31
Conclusion
32
• Nous avons pu voir comment fonctionne l’apprentissage par
renforcement : ses qualités comme ses défauts. Ainsi que la
différence entre cette méthode d’apprentissage et toutes les autres.
• Mais il n’y a pas une méthode d’apprentissage mieux que les autres.
L’efficacité de l’apprentissage ou encore, de sa méthode d’application
dépend essentiellement de son utilisation et du type de traitement
que l’on veut gérer.
• Le Machine Learning n’est pas un concept nouveau car cela fait 15
ans que des recherches sont menées sur le sujet. Cependant, avec
l’avènement du Big Data, et grâce à de récents progrès en
mathématiques fondamentales, il est sur le point de devenir
indispensable au business.
33
• http://www-igm.univ-
mlv.fr/~dr/XPOSE2014/Machin_Learning/index.html
• https://medium.com/machine-learning-for-humans/reinforcement-
learning-6eacf258b265
• http://www2.ift.ulaval.ca/~lamontagne/ift17587/modules/module6/r
enforcement.pdf
• https://towardsdatascience.com/reinforcement-learning-
demystified-markov-decision-processes-part-1-
bf00dda41690?gi=5bd4412c882c
Références
Merci pour votre
attention

Contenu connexe

Tendances

Programmation Dynamique : Mise en œuvre et application à des problèmes en TAL
Programmation Dynamique : Mise en œuvre et application à des problèmes en TALProgrammation Dynamique : Mise en œuvre et application à des problèmes en TAL
Programmation Dynamique : Mise en œuvre et application à des problèmes en TALECAM Brussels Engineering School
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learningDing Li
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsSana Aroussi
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificiellehadjerdermane
 
Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Technologia Formation
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Digital Signal Processor ( DSP ) [French]
Digital Signal Processor ( DSP )  [French]Digital Signal Processor ( DSP )  [French]
Digital Signal Processor ( DSP ) [French]Assia Mounir
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Digital Thursday
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Le problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétiqueLe problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétiqueRima Lassoued
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Correction examen-java-avancé-1
Correction examen-java-avancé-1Correction examen-java-avancé-1
Correction examen-java-avancé-1vangogue
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmiskamar MEDDAH
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 

Tendances (20)

Programmation Dynamique : Mise en œuvre et application à des problèmes en TAL
Programmation Dynamique : Mise en œuvre et application à des problèmes en TALProgrammation Dynamique : Mise en œuvre et application à des problèmes en TAL
Programmation Dynamique : Mise en œuvre et application à des problèmes en TAL
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutons
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificielle
 
Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Digital Signal Processor ( DSP ) [French]
Digital Signal Processor ( DSP )  [French]Digital Signal Processor ( DSP )  [French]
Digital Signal Processor ( DSP ) [French]
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
Le problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétiqueLe problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétique
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Correction examen-java-avancé-1
Correction examen-java-avancé-1Correction examen-java-avancé-1
Correction examen-java-avancé-1
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmis
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Systèmes multi-agents
Systèmes multi-agentsSystèmes multi-agents
Systèmes multi-agents
 

Similaire à Reinforcement Learning - Apprentissage par renforcement

Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcementNSim Technology
 
Session 6 - Analyse bénéfice coûts
Session 6 - Analyse bénéfice coûts Session 6 - Analyse bénéfice coûts
Session 6 - Analyse bénéfice coûts UNDP Climate
 
Chap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesChap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesMohammed TAMALI
 
presentation_probleme_ordenancement_def_sol.pdf
presentation_probleme_ordenancement_def_sol.pdfpresentation_probleme_ordenancement_def_sol.pdf
presentation_probleme_ordenancement_def_sol.pdfhanadimzlout123
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016ibtissam el hassani
 
Apprentissage_Renforcement_2004.pdf
Apprentissage_Renforcement_2004.pdfApprentissage_Renforcement_2004.pdf
Apprentissage_Renforcement_2004.pdfrabololoravelojaona
 
Apprentissage profond par/avec renforcement
Apprentissage profond par/avec renforcementApprentissage profond par/avec renforcement
Apprentissage profond par/avec renforcementseddikkhemaissia1
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheMohamed Heny SELMI
 
A heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSPA heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSPMnasri Sami
 
Outils d'aides à la décision multicritere
Outils d'aides à la décision multicritereOutils d'aides à la décision multicritere
Outils d'aides à la décision multicriteremahraznajib
 
Boubaddara Youssef: Le choix des outils de la qualité par besoin
Boubaddara Youssef: Le choix des outils de la qualité par besoinBoubaddara Youssef: Le choix des outils de la qualité par besoin
Boubaddara Youssef: Le choix des outils de la qualité par besoinYoussef Boubaddara
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdfMouloudi1
 
Théorie de la decision
Théorie de la decisionThéorie de la decision
Théorie de la decisionSoufiane MIR
 
Feeback scrumday2015
Feeback scrumday2015Feeback scrumday2015
Feeback scrumday2015SAGNON Joel
 

Similaire à Reinforcement Learning - Apprentissage par renforcement (20)

Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcement
 
Session 6 - Analyse bénéfice coûts
Session 6 - Analyse bénéfice coûts Session 6 - Analyse bénéfice coûts
Session 6 - Analyse bénéfice coûts
 
Chap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesChap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmes
 
1569628.ppt
1569628.ppt1569628.ppt
1569628.ppt
 
presentation_probleme_ordenancement_def_sol.pdf
presentation_probleme_ordenancement_def_sol.pdfpresentation_probleme_ordenancement_def_sol.pdf
presentation_probleme_ordenancement_def_sol.pdf
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
 
Apprentissage_Renforcement_2004.pdf
Apprentissage_Renforcement_2004.pdfApprentissage_Renforcement_2004.pdf
Apprentissage_Renforcement_2004.pdf
 
Apprentissage profond par/avec renforcement
Apprentissage profond par/avec renforcementApprentissage profond par/avec renforcement
Apprentissage profond par/avec renforcement
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 
Algorithmesderecherche 160306125009
Algorithmesderecherche 160306125009Algorithmesderecherche 160306125009
Algorithmesderecherche 160306125009
 
A heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSPA heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSP
 
Roue de Deming
Roue de Deming Roue de Deming
Roue de Deming
 
rl-01.pdf
rl-01.pdfrl-01.pdf
rl-01.pdf
 
Outils d'aides à la décision multicritere
Outils d'aides à la décision multicritereOutils d'aides à la décision multicritere
Outils d'aides à la décision multicritere
 
marp dov (1).ppt
marp dov (1).pptmarp dov (1).ppt
marp dov (1).ppt
 
Boubaddara Youssef: Le choix des outils de la qualité par besoin
Boubaddara Youssef: Le choix des outils de la qualité par besoinBoubaddara Youssef: Le choix des outils de la qualité par besoin
Boubaddara Youssef: Le choix des outils de la qualité par besoin
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdf
 
Théorie de la decision
Théorie de la decisionThéorie de la decision
Théorie de la decision
 
Agents intelligents
Agents intelligentsAgents intelligents
Agents intelligents
 
Feeback scrumday2015
Feeback scrumday2015Feeback scrumday2015
Feeback scrumday2015
 

Reinforcement Learning - Apprentissage par renforcement

  • 1. Apprentissage par renforcement Réalisé par : • OUARDI Yakoub Abdallah Enseignant : Mr HAMOU 2019/2020
  • 2. 1. INTRODUCTION 2. HISTORIQUE & ORIGINES 3. DÉFINITIONS 4. PRINCIPE DE FONCTIONNEMENT 1. Aperçu sur MDP 2. Fonctionnement du RL 5. LES TYPES DE RENFORCEMENT 6. TD-Learning & Q-Learning 7. LIMITES DU RL 8. CONCLUSION Plan du travail 1
  • 4. 3 • Le Machine Learning, fait partie de l’une des approches de l’intelligence artificielle. • C’est donc une discipline scientifique centrée sur le développement, l’analyse et l’implémentation de méthodes automatisables, qui offrent la possibilité à une machine d’évoluer grâce a un processus d’apprentissage. Et ainsi d’accomplir des tâches qui auraient été difficiles, voire impossibles, de réaliser avec des algorithmiques plus classiques. • L’apprentissage automatique a comme objectif de créer des programmes intelligents, au travers de processus d’apprentissage et d’évolution. Introduction
  • 5. 4 Introduction • Le Machine Learning est composé de plusieurs types d’apprentissage qui sont : L’apprentissage supervisé, L’apprentissage non-supervisé et L’apprentissage par renforcement
  • 8. Historique & Origines 7 • Parmi les premiers algorithmes de RL, on compte le Temporal difference learning (TD-learning), proposé par Richard Sutton en 1988, et le Q-learning mis au point essentiellement lors d'une thèse soutenue par Chris Watkins en 1989 et publié réellement en 1992. • Toutefois, son origine est plus ancienne. Elle dérive de formalisations théoriques de méthodes de contrôle optimal, visant à mettre au point un contrôleur permettant de minimiser au cours du temps une mesure donnée du comportement d'un système dynamique. La version discrète et stochastique de ce problème est appelée un MDP et fut introduite par Bellman en 1957.
  • 9. Historique & Origines 8 • D'autre part, la formalisation des problèmes de RL s'est aussi beaucoup inspirée de théories de psychologie animale, comme celles analysant comment un animal peut apprendre par essais-erreurs à s'adapter à son environnement. Ces théories ont beaucoup inspiré le champ scientifique de l’IA et ont beaucoup contribué à l'émergence d'algorithmes de RL au début des années 1980.
  • 13. Définitions 12 En effectuant des actions, on observe les récompenses qui en résultent, afin de déterminer la meilleure action pour un état donné. Finalement, si suffisamment d'états sont observés, une politique de décision optimale sera générée et nous aurons une machine qui agit parfaitement dans cet environnement particulier. La machine ne sait pas quelles actions ou décisions prendre, comme dans la plupart des formes d'apprentissage de la machine, mais il doit découvrir quelles actions donnent le plus de récompenses en les essayant.
  • 15. 14 • Lorsqu’il y a un problème, la machine est censée décider de la meilleure action à effectuer en fonction de son état actuel. • Lorsque cette étape est répétée, le problème est connu comme étant un processus de décision de Markov. • De façon optimale, l’apprentissage par renforcement utilise des processus de décision de Markov, mais l'idée de base est tout simplement de saisir les aspects les plus importants du vrai problème face à une machine en interaction avec son environnement, pour atteindre un objectif. • De toute évidence, un tel agent doit être capable de détecter l'état de l'environnement dans une certaine mesure et doit être capable de prendre des mesures qui affectent l'état. Fonctionnement
  • 16. 15 Fonctionnement « MDP » • Un MDP est un processus de contrôle stochastique discret. À chaque étape, le processus est dans un certain état s et l'agent choisit une action a La probabilité que le processus arrive à l’état s’ est déterminée par l'action choisie. Plus précisément, elle est décrite par la fonction de transition d’états T(s,a,s’) Donc, l’état s’ dépend de l'état actuel s et de l’action a sélectionnée par le décideur. Cependant, pour un s et un a, le prochain état est indépendant des actions et états précédents. On dit alors que le processus satisfait la propriété de Markov. • Quand le processus passe de l'état s à l'état s’ avec l'action a, l'agent gagne une récompense R ( s , a , s’ ).
  • 17. 16 Fonctionnement « MDP » • MDP est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement.Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière. • Les MDPs sont une extension des chaînes de Markov. La différence est l'addition des actions choisies par l'agent et des récompenses gagnées par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que les récompenses sont égales, le processus de décision markovien est une chaîne de Markov.
  • 18. 17 Fonctionnement « MDP » Un MDP est un quadruplet { S , A , T , R } définissant: • un ensemble d'états S, qui peut être fini, dénombrable ou continu; cet ensemble définit l'environnement tel que perçu par l'agent; • un ensemble d'actions A, qui peut être fini, dénombrable ou continu et dans lequel l'agent choisit les interactions qu'il effectue avec l'environnement; • une fonction de transition T : S × A × S → [ 0 ; 1 ]; cette fonction définit l'effet des actions de l'agent sur l’environnement: T(s, a, s') représente la probabilité de se retrouver dans l'état s′ en effectuant l'action a , sachant que l'on était à l'instant d'avant dans l'état s. • une fonction de récompense R : S × A × S × R → [ 0 ; 1 ];elle définit la récompense (positive ou négative) reçue par l'agent: R ( s , a , s′, v ) pour être passé de l'état s à s’ en ayant effectué l'action a.
  • 19. 18 Fonctionnement « MDP » Exemple de processus de Décision Markovien à trois états et à deux actions.
  • 20. 19 Fonctionnement « MDP & RL» Formellement, la base du modèle d'apprentissage par renforcement consiste en : 1. un ensemble d'états S de l'agent dans l'environnement ; 2. un ensemble d'actions A que l'agent peut effectuer ; 3. un ensemble de valeurs scalaires "récompenses" R que l'agent peut obtenir. À chaque pas de l'algorithme, l'agent perçoit son état s ∈ S et l'ensemble des actions possibles A. Il choisit une action a ∈ A et reçoit de l'environnement un nouvel état s+1 et une récompense r+1. Fondé sur ces interactions, l'algorithme d'apprentissage par renforcement doit permettre à l'agent de développer une politique Π : S → A qui lui permette de maximiser la quantité de récompenses.
  • 21. 20 Fonctionnement « MDP & RL» Le scenario typique d'apprentissage par renforcement: un agent effectue une action sur l'environnement, cette action est interprétée en une récompense et une représentation du nouvel état, et cette nouvelle représentation est transmise à l'agent.
  • 22. 21 Fonctionnement « MDP & RL» • Le MDP peut être utilisé pour déterminer une séquence optimale d'actions pour un agent dans un environnement stochastique, c'est-à-dire un agent qui connaît le bon modèle de l'environnement peut trouver des moyens pour obtenir des récompenses positives et éviter les pénalités négatives. • l'apprentissage par renforcement peut guider l'agent vers une politique optimale même s'il ne sait rien des récompenses lorsqu'il a commencé.
  • 23. Les différents type de renforcement 22
  • 24. Les différents type De Renforcement 23 1. Apprentissage passif: • Apprentissage passif = la politique π est fixe (Si état s’ exécute l’action π(s)) • But : Déterminer la valeur de la politique π Apprendre la fonction d’utilité U(s) L’agent exécute une série d’essais,Il perçoit la séquence d’états et les récompenses correspondantes. Ces deux éléments (état et récompenses) sont gérés par l’environnement • Utiliser les récompenses obtenues des séquences d’entraînement pour apprendre les utilités espérées U(s). (Utilité espérée = la somme moyenne des récompenses en suivant la politique)
  • 25. Les différents type De Renforcement 24 2. Apprentissage actif: • Apprentissage passif = la politique π n’est plus fixe • Apprendre une politique afin de sélectionner la prochaine action en se basant sur l’état courant π : S —> A • le Q-learning est une technique d'apprentissage par renforcement.
  • 27. Q-Learning & TD-Learning 26 1. TD-Learning: • Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. • L’idée est d’utiliser les transitions observées s—>s’ durant l’entraînement pour ajuster les valeurs des états observés (une approximation). • Le but est d’ajuster la valeur des états en fonction des transitions effectuées. Notion de Mise à jour : U(s) = U(s)+ α(R(s)+γU(s’) -U(s)) • Convergence : Si α décroit avec le temps, alors la convergence de U(s) est assurée.
  • 28. 27 2. Q-Learning • Cette méthode d'apprentissage peut être appliquée pour trouver une suite d'actions associées à des états (politique) d'un MDP quelconque. • Consiste à apprendre la politique optimale c.-à-d. celle qui maximise la somme des récompenses pour tous les états s. • En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et obtient une récompense (récompense 1);Il regarde ensuite, et voit que la récompense maximale possible pour une action est en état 2;Il l'utilise alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans l'état 1. Q-Learning & TD-Learning
  • 31. 30 Limite du RL • Tout d'abord, il est souvent trop coûteux en mémoire, car il doit stocker des valeurs pour chaque État. Et, puisque les problèmes peuvent être assez complexes, cela peut donc devenir très couteux en mémoire. • Ensuite, l’élaboration de cette technologie consiste à mettre en place des techniques d'approximation de valeur, tels que les arbres de décision ou les réseaux de neurones. • De plus, les problèmes sont aussi généralement très modulaires; des comportements similaires réapparaissent souvent. Il est donc très souvent impossible de déterminer entièrement l'état actuel. Cela affecte ainsi la performance de l'algorithme.
  • 33. Conclusion 32 • Nous avons pu voir comment fonctionne l’apprentissage par renforcement : ses qualités comme ses défauts. Ainsi que la différence entre cette méthode d’apprentissage et toutes les autres. • Mais il n’y a pas une méthode d’apprentissage mieux que les autres. L’efficacité de l’apprentissage ou encore, de sa méthode d’application dépend essentiellement de son utilisation et du type de traitement que l’on veut gérer. • Le Machine Learning n’est pas un concept nouveau car cela fait 15 ans que des recherches sont menées sur le sujet. Cependant, avec l’avènement du Big Data, et grâce à de récents progrès en mathématiques fondamentales, il est sur le point de devenir indispensable au business.
  • 34. 33 • http://www-igm.univ- mlv.fr/~dr/XPOSE2014/Machin_Learning/index.html • https://medium.com/machine-learning-for-humans/reinforcement- learning-6eacf258b265 • http://www2.ift.ulaval.ca/~lamontagne/ift17587/modules/module6/r enforcement.pdf • https://towardsdatascience.com/reinforcement-learning- demystified-markov-decision-processes-part-1- bf00dda41690?gi=5bd4412c882c Références

Notes de l'éditeur

  1. Mon exposé se centrera essentiellement sur ce dernier type d'apprentissage “L'apprentissage par renforcement", que je vais détailler par la suite
  2. C’est quoi , d’ou il vient , comment fonctionne l’apprentissage par renforcement : ses qualités comme ses défauts. Ainsi que la différence entre cette méthode d’apprentissage et toutes les autres.
  3. 3°) Cela imite la manière fondamentale dont les humains et les animaux apprennent. En tant qu'êtres humains, nous pouvons effectuer des actions et observer leurs résultats sur notre environnement… Connue sous le nom de «cause à effet», c’est sans doute la clé de la construction de notre connaissance tout au long de notre vie.
  4. Il y a beaucoup d’algorithmes qui abordent cette question. En fait, l'apprentissage par renforcement est défini par un type spécifique de problème, et toutes les solutions à ces problèmes sont classées comme des algorithmes d’apprentissage par renforcement. … Donc on peut en déduire que toute méthode qui s’adapte à la résolution d’un problème est considérée comme une méthode d'apprentissage par renforcement.
  5. L'exemple donné ci-contre représente un processus de Décision Markovien à trois états distincts { s0 , s1 , s2 } représentés en vert. Depuis chacun des états, on peut effectuer une action de l'ensemble { a0 , a1 }. Les nœuds rouges représentent donc une décision possible (le choix d'une action dans un état donné). Les nombres indiqués sur les flèches sont les probabilités d'effectuer la transition à partir du nœud de décision. Enfin, les transitions peuvent générer des récompenses (dessinées ici en jaune).
  6. une politique π(s): c'est la définition de comment un agent se compportent dans un environement
  7. On distingue deux types d’apprentissage par renforcement : actif, et passif.
  8. α : le paramètre du taux d’apprentissage γ : le facteur d’escompte. R(s)+γU(s’) : Objectif TD.
  9. Bien que L’apprentissage par renforcement semble être une technologie très efficace et pertinente, il a cependant quelques limites.