SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Apprentissage par renforcement
Selmi Sameh et Rhimi Hassen
Mini projet IA
23 November 2017
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
1 Introduction
2 Apprentissage par renforcement
3 Processus de Décision de Markov
4 Forme d’Apprentissage par renforcement
apprentissage par renforcement passif
apprentissage par renforcement actif
5 Application de l’apprentissage par renforcement : AlphaGo
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Introduction
Dans l’apprentissage supervisé,un expert(superviseur,professeur)
sert à guider l’agent et lui donner les informations nécessaires pour
comprendre l’environnement,pourtant dans l’apprentissage non
supervisé ,la situation devient plus compliquée ,puisque cette fois-ci
l’agent et en se basant sur les informations fournie peut se
debrouiller tout seul.
Mais qu’on pourrait faire face à une incertitude totale,dont
l’environnement est inconnu et à l’absence d’un maitre ?
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Apprentissage par renforcement
Les êtres vivants possédent la capacité d’améliorer au fil de leurs
expériences et leurs réactions à l’environnement.
L’apprentissage par renforcement cherche à convevoir des systémes
informatiques possédant cette aptitude de telle sorte qu’un agent et
même à l’absence d’un expert(superviseur) et dans un
environnement inconnu ,peut d’une façon autonome comprendre
cet environnement en se basant sur les effets de ses interactions
avec celui-ci.
Chaque action effectué par l’agent a deux effets immédiats :
évolution du systéme :changement d’état.
l’agent reçoit une récompense (ou subit un coût).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Apprentissage par renforcement
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
un ensemble d’actions possibles A.
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
un ensemble d’actions possibles A.
un modéle de transition P(S’|S,a).
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
un ensemble d’actions possibles A.
un modéle de transition P(S’|S,a).
une fonction de récompense R(S)(utilité d’etre dans cet
état).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)
Fonction Valeur pour un plan donné/fonction d’utilité. Pour
chaque état s ∈ S, on définit sa valeur V(s) comme l’espérance de
l’utilité si on choisit de démarrer dans l’état s et d’agir toujours
optimalement ensuite.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)
Fonction Valeur pour un plan donné/fonction d’utilité. Pour
chaque état s ∈ S, on définit sa valeur V(s) comme l’espérance de
l’utilité si on choisit de démarrer dans l’état s et d’agir toujours
optimalement ensuite.
Formule fonction de valeur :
V(s)=R(s)+α s ∈S p(s |s, Π(s)) ∗ v(s )
→ Résoudre un PDM consiste à calculer une politique(Value
Iteration,Policy Iteration).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Forme d’Apprentissage par renforcement
On distingue deux sortes d’apprentissage par renforcement :
passif : Le plan à suivre est connue à l’avance.
actif : L’agent doit aussi déterminer le plan optimal.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Apprentissage par renforcement passif
L’objective de l’agent est d’apprendre la fonction de valeur sans
connaitre le modéle de transition et on se basant sur le plan déja
donné.
On a principalement 3 téchniques d’apprentissage par renforcement
passif :
1 estimation directe.
2 programmation dynamique adaptative.
3 différence temporelle.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Apprentissage par renforcement passif
Figure : le plan de notre agent
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
estimation directe
Puisque on ne connait pas le modéle de transition on va estimer la
valeur de V(s) à partir des essais.
principe :
Pour chaque état s,on va l’attribuer une valeur v comme suit :
dans chaque essai,on calcule la somme des récompenses
à partir de s vers l’état terminal.
v sera la moyenne de ces sommes.
exemple :
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
estimation directe
Figure : exemple de transition
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
estimation directe
Figure : exemple d’essais
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
programmation dynamique adaptative
La méthode d’estimation directe ignore les relations récursives entre
les V(s),pourtant PDA les exploite.
On n’apprend pas directement la fonction de valeur,mais il faut
d’abord apprendre le modéle de transition :
Comment estimer les transitions ? :
c’est tout simplement en se basent sur les frequences d’appa-
ritions dans les différentes essais
p(s |s, Π(s)) = essais frequence(s−>s )
essais frequence(s)
exemple :p(s12|s11,a)=2
3.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
différence temporelle
Le probléme du PDA est qu’on doit méttre à jour toutes les valeurs
V(s) aprés chaque essai : algorithme trés coûteux.
L’approche de différence temporelle consiste à éstimer directement
V(s) d’une part et de prendre en compte le modéle de transition
d’une autre part.
La mise à jour de v(s) se fait à chaque transition et non pas
lorsqu’on atteindre le but graçe au formule suivante :
pour chaque transition de s’ à s :
V(s)=V(s)+α(R(s ) + (1 − α)V (s ) − V (s))
α : taux d’apprentissage.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
différence temporelle
Figure : exemple calcule
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
apprentissage par renforcement actif
Dans le cas actif , l’agent doit aussi chercher le plan optimal
qui maximise la somme de récomponses futurs espérées.
l’agent doit simultanément chercher le plan optimal et sa
fonction de valeur.
V(s) est maintenant une estimation de la fonction de valeur du
plan optimal.
Dans le cas PDA , trois changements sont à faire :
on va estimer P(s’|s,a) pour plus d’une action a.
on applique value iteration au MDP estimé .
l’action choisie par l’agent devient :
Π(s) = argmax s ∈S p(s |s, a) ∗ v(s )
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
apprentissage par renforcement actif
On a principalement 2 téchniques d’apprentissage par renforcement
actif :
1 Exploration.
2 Apprentissage actif avec Q-learning.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Limites du l’agent PDA
Problème
Un agent PDA effectue plusieurs variantes.
Après un nombre important d’essais, l’agent peut tient à une
politique ( qui lui permet d’obtenir une récompense +1 avec
une route basse) sans atteindre le but souhaité.On parle ici
d’un agent glouton .
→ L’agent n’arrive pas à apprendre ni les utilités ni la vraie
politique optimale.
Cause
Le modèle appris par l’agent n’est pas identique à
l’environnement réel.
Solution
Exploitation : lui permet de maximiser sa récompense.
Exploration : maximiser son bien être à long terme.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
La dilemme exploration vs exploitation
Trop exploiter : mène à des politiques non optimaux.
Trop explorer : rend l’apprentissage lente.
Trouver la balance optimale entre l’exploration et l’exploitation
est un problème ouvert en général.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
La dilemme exploration vs exploitation
Exemple : introduction d’une fonction d’exploration f(u,n)
Cette fonction augmente artificiellement la récompense future
d’actions inexplorées.
où n : le nombre de fois que l’action a été choisie pour l’état s.
u : l’estimation actuelle de récompenses futurs espérées.
R+ : c’est une estimation optimale de récomponse future.
Ne : seuil fixé.
→ on garantit que l’action a sera choisie dans s au moins Ne
fois durant l’apprentissage.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Apprentissage actif avec Q-learning
Il existe une variante de la méthode TD, nommée Q-learning,
qui apprend la fonction action-valeur Q(s,a).
on n’apprend plus U(s), soit la somme espérée des
renforcements à partir de s jusqu’à la fin pour la politique
optimale.
on apprend plutôt Q(s,a), soit la somme espérée des
renforcements à partir de s et l’exécution de a, jusqu’à la fin
pour la politique optimale.
le lien entre Q(s,a) et U(s) est que U(s) = maxQ(s, a)
Le plan de l’agent est alors Π(s) = argmaxQ(s, a)
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Capable de jouer d’une façon autonome le jeu chinois GO.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Capable de jouer d’une façon autonome le jeu chinois GO.
Utilise une méthode d’apprentissage par renforcement(Monte
Carlo) mixée avec l’apprentissage profond(deep learning).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Capable de jouer d’une façon autonome le jeu chinois GO.
Utilise une méthode d’apprentissage par renforcement(Monte
Carlo) mixée avec l’apprentissage profond(deep learning).
En Mai 2017 ,AlphaGo a gagné le champion Ke Jie.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Figure : AlphaGO écrase Ke Jie
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Au début(alpha zero), ne connait rien au jeu de Go (from scratch),
sauf les régles. Ses premiers coups sont joués aléatoirement.
En fonction du résultat de la partie, AlphaGO s’améliorent
légerement.
Voici quelques échelles de temps des progressions de AlphaGO :
19 heures :elle maitrise des concepts stratégiques avancés
comme la notion de territoire, de vie et de mort, etc.
3 jours : elle arrive au niveau d’un très bon joueur.
21 jours : AlphaGo Zero arrive au niveau d’AlphaGo Master,
l’IA qui avait terrassé le champion Ke Jie en 2017.
40 jours (29 millions de parties) : l’IA dépasse toutes les
versions d’AlphaGo et devient virtuellement le meilleur
joueur de Go au monde.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement

Contenu connexe

Tendances

An introduction to reinforcement learning
An introduction to  reinforcement learningAn introduction to  reinforcement learning
An introduction to reinforcement learningJie-Han Chen
 
Reinforcement Learning Q-Learning
Reinforcement Learning   Q-Learning Reinforcement Learning   Q-Learning
Reinforcement Learning Q-Learning Melaku Eneayehu
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!Dongmin Lee
 
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기Woong won Lee
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmiskamar MEDDAH
 
Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]
Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]
Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]Shakeeb Ahmad Mohammad Mukhtar
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 
Actor critic algorithm
Actor critic algorithmActor critic algorithm
Actor critic algorithmJie-Han Chen
 
Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...MEJDAOUI Soufiane
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
An introduction to reinforcement learning
An introduction to reinforcement learningAn introduction to reinforcement learning
An introduction to reinforcement learningSubrat Panda, PhD
 
Cours systèmes temps réel partie 1 Prof. Khalifa MANSOURI
Cours  systèmes temps réel partie 1 Prof. Khalifa MANSOURICours  systèmes temps réel partie 1 Prof. Khalifa MANSOURI
Cours systèmes temps réel partie 1 Prof. Khalifa MANSOURIMansouri Khalifa
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
DQN (Deep Q-Network)
DQN (Deep Q-Network)DQN (Deep Q-Network)
DQN (Deep Q-Network)Dong Guo
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neuronesMariam Amchayd
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels Oussama Werfelli
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요Dongmin Lee
 

Tendances (20)

An introduction to reinforcement learning
An introduction to  reinforcement learningAn introduction to  reinforcement learning
An introduction to reinforcement learning
 
Reinforcement Learning Q-Learning
Reinforcement Learning   Q-Learning Reinforcement Learning   Q-Learning
Reinforcement Learning Q-Learning
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!
 
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmis
 
Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]
Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]
Q-Learning Algorithm: A Concise Introduction [Shakeeb A.]
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
Actor critic algorithm
Actor critic algorithmActor critic algorithm
Actor critic algorithm
 
Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
An introduction to reinforcement learning
An introduction to reinforcement learningAn introduction to reinforcement learning
An introduction to reinforcement learning
 
Cours systèmes temps réel partie 1 Prof. Khalifa MANSOURI
Cours  systèmes temps réel partie 1 Prof. Khalifa MANSOURICours  systèmes temps réel partie 1 Prof. Khalifa MANSOURI
Cours systèmes temps réel partie 1 Prof. Khalifa MANSOURI
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
DQN (Deep Q-Network)
DQN (Deep Q-Network)DQN (Deep Q-Network)
DQN (Deep Q-Network)
 
A star
A starA star
A star
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 

Apprentissage par renforcement

  • 1. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion Apprentissage par renforcement Selmi Sameh et Rhimi Hassen Mini projet IA 23 November 2017 Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 2. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion 1 Introduction 2 Apprentissage par renforcement 3 Processus de Décision de Markov 4 Forme d’Apprentissage par renforcement apprentissage par renforcement passif apprentissage par renforcement actif 5 Application de l’apprentissage par renforcement : AlphaGo Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 3. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion Introduction Dans l’apprentissage supervisé,un expert(superviseur,professeur) sert à guider l’agent et lui donner les informations nécessaires pour comprendre l’environnement,pourtant dans l’apprentissage non supervisé ,la situation devient plus compliquée ,puisque cette fois-ci l’agent et en se basant sur les informations fournie peut se debrouiller tout seul. Mais qu’on pourrait faire face à une incertitude totale,dont l’environnement est inconnu et à l’absence d’un maitre ? Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 4. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion Apprentissage par renforcement Les êtres vivants possédent la capacité d’améliorer au fil de leurs expériences et leurs réactions à l’environnement. L’apprentissage par renforcement cherche à convevoir des systémes informatiques possédant cette aptitude de telle sorte qu’un agent et même à l’absence d’un expert(superviseur) et dans un environnement inconnu ,peut d’une façon autonome comprendre cet environnement en se basant sur les effets de ses interactions avec celui-ci. Chaque action effectué par l’agent a deux effets immédiats : évolution du systéme :changement d’état. l’agent reçoit une récompense (ou subit un coût). Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 5. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion Apprentissage par renforcement Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 6. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM Le Processus de Décision Markovien est un modéle statistique qui permet de décrire d’une façon générale un agent informatique qui prend des décisions de sorte à bien contrôler un système. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 7. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM Le Processus de Décision Markovien est un modéle statistique qui permet de décrire d’une façon générale un agent informatique qui prend des décisions de sorte à bien contrôler un système. PDM=chaine de markov + dimension décisionnelle. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 8. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM Le Processus de Décision Markovien est un modéle statistique qui permet de décrire d’une façon générale un agent informatique qui prend des décisions de sorte à bien contrôler un système. PDM=chaine de markov + dimension décisionnelle. un PDM est défini par : un ensemble d’états S(incluant un état initial S0).
  • 9. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM Le Processus de Décision Markovien est un modéle statistique qui permet de décrire d’une façon générale un agent informatique qui prend des décisions de sorte à bien contrôler un système. PDM=chaine de markov + dimension décisionnelle. un PDM est défini par : un ensemble d’états S(incluant un état initial S0). un ensemble d’actions possibles A.
  • 10. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM Le Processus de Décision Markovien est un modéle statistique qui permet de décrire d’une façon générale un agent informatique qui prend des décisions de sorte à bien contrôler un système. PDM=chaine de markov + dimension décisionnelle. un PDM est défini par : un ensemble d’états S(incluant un état initial S0). un ensemble d’actions possibles A. un modéle de transition P(S’|S,a).
  • 11. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM Le Processus de Décision Markovien est un modéle statistique qui permet de décrire d’une façon générale un agent informatique qui prend des décisions de sorte à bien contrôler un système. PDM=chaine de markov + dimension décisionnelle. un PDM est défini par : un ensemble d’états S(incluant un état initial S0). un ensemble d’actions possibles A. un modéle de transition P(S’|S,a). une fonction de récompense R(S)(utilité d’etre dans cet état). Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 12. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM plan(politique) Π ensemble de décisions qui associe un état s à une action a=Π(s) Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 13. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM plan(politique) Π ensemble de décisions qui associe un état s à une action a=Π(s) Fonction Valeur pour un plan donné/fonction d’utilité. Pour chaque état s ∈ S, on définit sa valeur V(s) comme l’espérance de l’utilité si on choisit de démarrer dans l’état s et d’agir toujours optimalement ensuite. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 14. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion PDM plan(politique) Π ensemble de décisions qui associe un état s à une action a=Π(s) Fonction Valeur pour un plan donné/fonction d’utilité. Pour chaque état s ∈ S, on définit sa valeur V(s) comme l’espérance de l’utilité si on choisit de démarrer dans l’état s et d’agir toujours optimalement ensuite. Formule fonction de valeur : V(s)=R(s)+α s ∈S p(s |s, Π(s)) ∗ v(s ) → Résoudre un PDM consiste à calculer une politique(Value Iteration,Policy Iteration). Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 15. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif Forme d’Apprentissage par renforcement On distingue deux sortes d’apprentissage par renforcement : passif : Le plan à suivre est connue à l’avance. actif : L’agent doit aussi déterminer le plan optimal. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 16. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif Apprentissage par renforcement passif L’objective de l’agent est d’apprendre la fonction de valeur sans connaitre le modéle de transition et on se basant sur le plan déja donné. On a principalement 3 téchniques d’apprentissage par renforcement passif : 1 estimation directe. 2 programmation dynamique adaptative. 3 différence temporelle. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 17. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif Apprentissage par renforcement passif Figure : le plan de notre agent Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 18. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif estimation directe Puisque on ne connait pas le modéle de transition on va estimer la valeur de V(s) à partir des essais. principe : Pour chaque état s,on va l’attribuer une valeur v comme suit : dans chaque essai,on calcule la somme des récompenses à partir de s vers l’état terminal. v sera la moyenne de ces sommes. exemple : Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 19. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif estimation directe Figure : exemple de transition Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 20. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif estimation directe Figure : exemple d’essais Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 21. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif programmation dynamique adaptative La méthode d’estimation directe ignore les relations récursives entre les V(s),pourtant PDA les exploite. On n’apprend pas directement la fonction de valeur,mais il faut d’abord apprendre le modéle de transition : Comment estimer les transitions ? : c’est tout simplement en se basent sur les frequences d’appa- ritions dans les différentes essais p(s |s, Π(s)) = essais frequence(s−>s ) essais frequence(s) exemple :p(s12|s11,a)=2 3. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 22. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif différence temporelle Le probléme du PDA est qu’on doit méttre à jour toutes les valeurs V(s) aprés chaque essai : algorithme trés coûteux. L’approche de différence temporelle consiste à éstimer directement V(s) d’une part et de prendre en compte le modéle de transition d’une autre part. La mise à jour de v(s) se fait à chaque transition et non pas lorsqu’on atteindre le but graçe au formule suivante : pour chaque transition de s’ à s : V(s)=V(s)+α(R(s ) + (1 − α)V (s ) − V (s)) α : taux d’apprentissage. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 23. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif différence temporelle Figure : exemple calcule Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 24. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif apprentissage par renforcement actif Dans le cas actif , l’agent doit aussi chercher le plan optimal qui maximise la somme de récomponses futurs espérées. l’agent doit simultanément chercher le plan optimal et sa fonction de valeur. V(s) est maintenant une estimation de la fonction de valeur du plan optimal. Dans le cas PDA , trois changements sont à faire : on va estimer P(s’|s,a) pour plus d’une action a. on applique value iteration au MDP estimé . l’action choisie par l’agent devient : Π(s) = argmax s ∈S p(s |s, a) ∗ v(s ) Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 25. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif apprentissage par renforcement actif On a principalement 2 téchniques d’apprentissage par renforcement actif : 1 Exploration. 2 Apprentissage actif avec Q-learning. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 26. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif Limites du l’agent PDA Problème Un agent PDA effectue plusieurs variantes. Après un nombre important d’essais, l’agent peut tient à une politique ( qui lui permet d’obtenir une récompense +1 avec une route basse) sans atteindre le but souhaité.On parle ici d’un agent glouton . → L’agent n’arrive pas à apprendre ni les utilités ni la vraie politique optimale. Cause Le modèle appris par l’agent n’est pas identique à l’environnement réel. Solution Exploitation : lui permet de maximiser sa récompense. Exploration : maximiser son bien être à long terme. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 27. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif La dilemme exploration vs exploitation Trop exploiter : mène à des politiques non optimaux. Trop explorer : rend l’apprentissage lente. Trouver la balance optimale entre l’exploration et l’exploitation est un problème ouvert en général. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 28. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif La dilemme exploration vs exploitation Exemple : introduction d’une fonction d’exploration f(u,n) Cette fonction augmente artificiellement la récompense future d’actions inexplorées. où n : le nombre de fois que l’action a été choisie pour l’état s. u : l’estimation actuelle de récompenses futurs espérées. R+ : c’est une estimation optimale de récomponse future. Ne : seuil fixé. → on garantit que l’action a sera choisie dans s au moins Ne fois durant l’apprentissage. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 29. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion apprentissage par renforcement passif apprentissage par renforcement actif Apprentissage actif avec Q-learning Il existe une variante de la méthode TD, nommée Q-learning, qui apprend la fonction action-valeur Q(s,a). on n’apprend plus U(s), soit la somme espérée des renforcements à partir de s jusqu’à la fin pour la politique optimale. on apprend plutôt Q(s,a), soit la somme espérée des renforcements à partir de s et l’exécution de a, jusqu’à la fin pour la politique optimale. le lien entre Q(s,a) et U(s) est que U(s) = maxQ(s, a) Le plan de l’agent est alors Π(s) = argmaxQ(s, a) Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 30. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion AlphaGo :quand l’intelligence artificielle dépasse l’homme Systéme intelligent developpé par DeepMind(Google). Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 31. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion AlphaGo :quand l’intelligence artificielle dépasse l’homme Systéme intelligent developpé par DeepMind(Google). Capable de jouer d’une façon autonome le jeu chinois GO. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 32. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion AlphaGo :quand l’intelligence artificielle dépasse l’homme Systéme intelligent developpé par DeepMind(Google). Capable de jouer d’une façon autonome le jeu chinois GO. Utilise une méthode d’apprentissage par renforcement(Monte Carlo) mixée avec l’apprentissage profond(deep learning). Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 33. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion AlphaGo :quand l’intelligence artificielle dépasse l’homme Systéme intelligent developpé par DeepMind(Google). Capable de jouer d’une façon autonome le jeu chinois GO. Utilise une méthode d’apprentissage par renforcement(Monte Carlo) mixée avec l’apprentissage profond(deep learning). En Mai 2017 ,AlphaGo a gagné le champion Ke Jie. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 34. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion AlphaGo :quand l’intelligence artificielle dépasse l’homme Figure : AlphaGO écrase Ke Jie Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 35. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion AlphaGo :quand l’intelligence artificielle dépasse l’homme Au début(alpha zero), ne connait rien au jeu de Go (from scratch), sauf les régles. Ses premiers coups sont joués aléatoirement. En fonction du résultat de la partie, AlphaGO s’améliorent légerement. Voici quelques échelles de temps des progressions de AlphaGO : 19 heures :elle maitrise des concepts stratégiques avancés comme la notion de territoire, de vie et de mort, etc. 3 jours : elle arrive au niveau d’un très bon joueur. 21 jours : AlphaGo Zero arrive au niveau d’AlphaGo Master, l’IA qui avait terrassé le champion Ke Jie en 2017. 40 jours (29 millions de parties) : l’IA dépasse toutes les versions d’AlphaGo et devient virtuellement le meilleur joueur de Go au monde. Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 36. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
  • 37. Introduction Apprentissage par renforcement Processus de Décision de Markov Forme d’Apprentissage par renforcement Application de l’apprentissage par renforcement : AlphaGo conclusion Selmi Sameh et Rhimi Hassen Apprentissage par renforcement