1#Introduction
2#Apprentissage par renforcement
3#Processus de Décision de Markov
4#Forme d’Apprentissage par renforcement
5#Application de l’apprentissage par renforcement : AlphaGo
1. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Apprentissage par renforcement
Selmi Sameh et Rhimi Hassen
Mini projet IA
23 November 2017
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
2. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
1 Introduction
2 Apprentissage par renforcement
3 Processus de Décision de Markov
4 Forme d’Apprentissage par renforcement
apprentissage par renforcement passif
apprentissage par renforcement actif
5 Application de l’apprentissage par renforcement : AlphaGo
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
3. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Introduction
Dans l’apprentissage supervisé,un expert(superviseur,professeur)
sert à guider l’agent et lui donner les informations nécessaires pour
comprendre l’environnement,pourtant dans l’apprentissage non
supervisé ,la situation devient plus compliquée ,puisque cette fois-ci
l’agent et en se basant sur les informations fournie peut se
debrouiller tout seul.
Mais qu’on pourrait faire face à une incertitude totale,dont
l’environnement est inconnu et à l’absence d’un maitre ?
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
4. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Apprentissage par renforcement
Les êtres vivants possédent la capacité d’améliorer au fil de leurs
expériences et leurs réactions à l’environnement.
L’apprentissage par renforcement cherche à convevoir des systémes
informatiques possédant cette aptitude de telle sorte qu’un agent et
même à l’absence d’un expert(superviseur) et dans un
environnement inconnu ,peut d’une façon autonome comprendre
cet environnement en se basant sur les effets de ses interactions
avec celui-ci.
Chaque action effectué par l’agent a deux effets immédiats :
évolution du systéme :changement d’état.
l’agent reçoit une récompense (ou subit un coût).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
5. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Apprentissage par renforcement
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
6. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
7. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
8. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
9. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
un ensemble d’actions possibles A.
10. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
un ensemble d’actions possibles A.
un modéle de transition P(S’|S,a).
11. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.
PDM=chaine de markov + dimension décisionnelle.
un PDM est défini par :
un ensemble d’états S(incluant un état initial S0).
un ensemble d’actions possibles A.
un modéle de transition P(S’|S,a).
une fonction de récompense R(S)(utilité d’etre dans cet
état).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
12. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
13. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)
Fonction Valeur pour un plan donné/fonction d’utilité. Pour
chaque état s ∈ S, on définit sa valeur V(s) comme l’espérance de
l’utilité si on choisit de démarrer dans l’état s et d’agir toujours
optimalement ensuite.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
14. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)
Fonction Valeur pour un plan donné/fonction d’utilité. Pour
chaque état s ∈ S, on définit sa valeur V(s) comme l’espérance de
l’utilité si on choisit de démarrer dans l’état s et d’agir toujours
optimalement ensuite.
Formule fonction de valeur :
V(s)=R(s)+α s ∈S p(s |s, Π(s)) ∗ v(s )
→ Résoudre un PDM consiste à calculer une politique(Value
Iteration,Policy Iteration).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
15. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Forme d’Apprentissage par renforcement
On distingue deux sortes d’apprentissage par renforcement :
passif : Le plan à suivre est connue à l’avance.
actif : L’agent doit aussi déterminer le plan optimal.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
16. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Apprentissage par renforcement passif
L’objective de l’agent est d’apprendre la fonction de valeur sans
connaitre le modéle de transition et on se basant sur le plan déja
donné.
On a principalement 3 téchniques d’apprentissage par renforcement
passif :
1 estimation directe.
2 programmation dynamique adaptative.
3 différence temporelle.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
17. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Apprentissage par renforcement passif
Figure : le plan de notre agent
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
18. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
estimation directe
Puisque on ne connait pas le modéle de transition on va estimer la
valeur de V(s) à partir des essais.
principe :
Pour chaque état s,on va l’attribuer une valeur v comme suit :
dans chaque essai,on calcule la somme des récompenses
à partir de s vers l’état terminal.
v sera la moyenne de ces sommes.
exemple :
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
19. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
estimation directe
Figure : exemple de transition
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
20. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
estimation directe
Figure : exemple d’essais
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
21. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
programmation dynamique adaptative
La méthode d’estimation directe ignore les relations récursives entre
les V(s),pourtant PDA les exploite.
On n’apprend pas directement la fonction de valeur,mais il faut
d’abord apprendre le modéle de transition :
Comment estimer les transitions ? :
c’est tout simplement en se basent sur les frequences d’appa-
ritions dans les différentes essais
p(s |s, Π(s)) = essais frequence(s−>s )
essais frequence(s)
exemple :p(s12|s11,a)=2
3.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
22. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
différence temporelle
Le probléme du PDA est qu’on doit méttre à jour toutes les valeurs
V(s) aprés chaque essai : algorithme trés coûteux.
L’approche de différence temporelle consiste à éstimer directement
V(s) d’une part et de prendre en compte le modéle de transition
d’une autre part.
La mise à jour de v(s) se fait à chaque transition et non pas
lorsqu’on atteindre le but graçe au formule suivante :
pour chaque transition de s’ à s :
V(s)=V(s)+α(R(s ) + (1 − α)V (s ) − V (s))
α : taux d’apprentissage.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
23. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
différence temporelle
Figure : exemple calcule
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
24. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
apprentissage par renforcement actif
Dans le cas actif , l’agent doit aussi chercher le plan optimal
qui maximise la somme de récomponses futurs espérées.
l’agent doit simultanément chercher le plan optimal et sa
fonction de valeur.
V(s) est maintenant une estimation de la fonction de valeur du
plan optimal.
Dans le cas PDA , trois changements sont à faire :
on va estimer P(s’|s,a) pour plus d’une action a.
on applique value iteration au MDP estimé .
l’action choisie par l’agent devient :
Π(s) = argmax s ∈S p(s |s, a) ∗ v(s )
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
25. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
apprentissage par renforcement actif
On a principalement 2 téchniques d’apprentissage par renforcement
actif :
1 Exploration.
2 Apprentissage actif avec Q-learning.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
26. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Limites du l’agent PDA
Problème
Un agent PDA effectue plusieurs variantes.
Après un nombre important d’essais, l’agent peut tient à une
politique ( qui lui permet d’obtenir une récompense +1 avec
une route basse) sans atteindre le but souhaité.On parle ici
d’un agent glouton .
→ L’agent n’arrive pas à apprendre ni les utilités ni la vraie
politique optimale.
Cause
Le modèle appris par l’agent n’est pas identique à
l’environnement réel.
Solution
Exploitation : lui permet de maximiser sa récompense.
Exploration : maximiser son bien être à long terme.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
27. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
La dilemme exploration vs exploitation
Trop exploiter : mène à des politiques non optimaux.
Trop explorer : rend l’apprentissage lente.
Trouver la balance optimale entre l’exploration et l’exploitation
est un problème ouvert en général.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
28. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
La dilemme exploration vs exploitation
Exemple : introduction d’une fonction d’exploration f(u,n)
Cette fonction augmente artificiellement la récompense future
d’actions inexplorées.
où n : le nombre de fois que l’action a été choisie pour l’état s.
u : l’estimation actuelle de récompenses futurs espérées.
R+ : c’est une estimation optimale de récomponse future.
Ne : seuil fixé.
→ on garantit que l’action a sera choisie dans s au moins Ne
fois durant l’apprentissage.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
29. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
apprentissage par renforcement passif
apprentissage par renforcement actif
Apprentissage actif avec Q-learning
Il existe une variante de la méthode TD, nommée Q-learning,
qui apprend la fonction action-valeur Q(s,a).
on n’apprend plus U(s), soit la somme espérée des
renforcements à partir de s jusqu’à la fin pour la politique
optimale.
on apprend plutôt Q(s,a), soit la somme espérée des
renforcements à partir de s et l’exécution de a, jusqu’à la fin
pour la politique optimale.
le lien entre Q(s,a) et U(s) est que U(s) = maxQ(s, a)
Le plan de l’agent est alors Π(s) = argmaxQ(s, a)
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
30. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
31. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Capable de jouer d’une façon autonome le jeu chinois GO.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
32. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Capable de jouer d’une façon autonome le jeu chinois GO.
Utilise une méthode d’apprentissage par renforcement(Monte
Carlo) mixée avec l’apprentissage profond(deep learning).
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
33. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).
Capable de jouer d’une façon autonome le jeu chinois GO.
Utilise une méthode d’apprentissage par renforcement(Monte
Carlo) mixée avec l’apprentissage profond(deep learning).
En Mai 2017 ,AlphaGo a gagné le champion Ke Jie.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
34. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Figure : AlphaGO écrase Ke Jie
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
35. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
AlphaGo :quand l’intelligence artificielle dépasse l’homme
Au début(alpha zero), ne connait rien au jeu de Go (from scratch),
sauf les régles. Ses premiers coups sont joués aléatoirement.
En fonction du résultat de la partie, AlphaGO s’améliorent
légerement.
Voici quelques échelles de temps des progressions de AlphaGO :
19 heures :elle maitrise des concepts stratégiques avancés
comme la notion de territoire, de vie et de mort, etc.
3 jours : elle arrive au niveau d’un très bon joueur.
21 jours : AlphaGo Zero arrive au niveau d’AlphaGo Master,
l’IA qui avait terrassé le champion Ke Jie en 2017.
40 jours (29 millions de parties) : l’IA dépasse toutes les
versions d’AlphaGo et devient virtuellement le meilleur
joueur de Go au monde.
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
36. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement
37. Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement