Apprentissage par renforcement

Introduction
Apprentissage par renforcement
Processus de Décision de Markov
Forme d’Apprentissage par renforcement
Application de l’apprentissage par renforcement : AlphaGo
conclusion
Selmi Sameh et Rhimi Hassen
Mini projet IA
23 November 2017
Selmi Sameh et Rhimi Hassen Apprentissage par renforcement

Introduction
conclusion
1 Introduction
2 Apprentissage par renforcement
3 Processus de Décision de Markov
4 Forme d’Apprentissage par renforcement
apprentissage par renforcement passif
apprentissage par renforcement actif
5 Application de l’apprentissage par renforcement : AlphaGo

Introduction
conclusion
Introduction
Dans l’apprentissage supervisé,un expert(superviseur,professeur)
sert à guider l’agent et lui donner les informations nécessaires pour
comprendre l’environnement,pourtant dans l’apprentissage non
supervisé ,la situation devient plus compliquée ,puisque cette fois-ci
l’agent et en se basant sur les informations fournie peut se
debrouiller tout seul.
Mais qu’on pourrait faire face à une incertitude totale,dont
l’environnement est inconnu et à l’absence d’un maitre ?

Introduction
conclusion
Les êtres vivants possédent la capacité d’améliorer au fil de leurs
expériences et leurs réactions à l’environnement.
L’apprentissage par renforcement cherche à convevoir des systémes
informatiques possédant cette aptitude de telle sorte qu’un agent et
même à l’absence d’un expert(superviseur) et dans un
environnement inconnu ,peut d’une façon autonome comprendre
cet environnement en se basant sur les effets de ses interactions
avec celui-ci.
Chaque action effectué par l’agent a deux effets immédiats :
évolution du systéme :changement d’état.
l’agent reçoit une récompense (ou subit un coût).

Introduction
conclusion

Introduction
conclusion
PDM
Le Processus de Décision Markovien est un modéle statistique qui
permet de décrire d’une façon générale un agent informatique qui
prend des décisions de sorte à bien contrôler un système.

Introduction
conclusion
PDM
PDM=chaine de markov + dimension décisionnelle.

Introduction
conclusion
PDM
un PDM est déﬁni par :
un ensemble d’états S(incluant un état initial S0).

Introduction
conclusion
PDM
un ensemble d’actions possibles A.

Introduction
conclusion
PDM
un modéle de transition P(S’|S,a).

Introduction
conclusion
PDM
un modéle de transition P(S’|S,a).
une fonction de récompense R(S)(utilité d’etre dans cet
état).

Introduction
conclusion
PDM
plan(politique) Π ensemble de décisions qui associe un état s à
une action a=Π(s)

Introduction
conclusion
PDM
une action a=Π(s)
Fonction Valeur pour un plan donné/fonction d’utilité. Pour
chaque état s ∈ S, on déﬁnit sa valeur V(s) comme l’espérance de
l’utilité si on choisit de démarrer dans l’état s et d’agir toujours
optimalement ensuite.

Introduction
conclusion
PDM
une action a=Π(s)
Fonction Valeur pour un plan donné/fonction d’utilité. Pour
chaque état s ∈ S, on déﬁnit sa valeur V(s) comme l’espérance de
l’utilité si on choisit de démarrer dans l’état s et d’agir toujours
optimalement ensuite.
Formule fonction de valeur :
V(s)=R(s)+α s ∈S p(s |s, Π(s)) ∗ v(s )
→ Résoudre un PDM consiste à calculer une politique(Value
Iteration,Policy Iteration).

Introduction
conclusion
On distingue deux sortes d’apprentissage par renforcement :
passif : Le plan à suivre est connue à l’avance.
actif : L’agent doit aussi déterminer le plan optimal.

Introduction
conclusion
Apprentissage par renforcement passif
L’objective de l’agent est d’apprendre la fonction de valeur sans
connaitre le modéle de transition et on se basant sur le plan déja
donné.
On a principalement 3 téchniques d’apprentissage par renforcement
passif :
1 estimation directe.
2 programmation dynamique adaptative.
3 diﬀérence temporelle.

Introduction
conclusion
Apprentissage par renforcement passif
Figure : le plan de notre agent

Introduction
conclusion
estimation directe
Puisque on ne connait pas le modéle de transition on va estimer la
valeur de V(s) à partir des essais.
principe :
Pour chaque état s,on va l’attribuer une valeur v comme suit :
dans chaque essai,on calcule la somme des récompenses
à partir de s vers l’état terminal.
v sera la moyenne de ces sommes.
exemple :

Introduction
conclusion
estimation directe
Figure : exemple de transition

Introduction
conclusion
estimation directe
Figure : exemple d’essais

Introduction
conclusion
programmation dynamique adaptative
La méthode d’estimation directe ignore les relations récursives entre
les V(s),pourtant PDA les exploite.
On n’apprend pas directement la fonction de valeur,mais il faut
d’abord apprendre le modéle de transition :
Comment estimer les transitions ? :
c’est tout simplement en se basent sur les frequences d’appa-
ritions dans les diﬀérentes essais
p(s |s, Π(s)) = essais frequence(s−>s )
essais frequence(s)
exemple :p(s12|s11,a)=2
3.

Introduction
conclusion
diﬀérence temporelle
Le probléme du PDA est qu’on doit méttre à jour toutes les valeurs
V(s) aprés chaque essai : algorithme trés coûteux.
L’approche de diﬀérence temporelle consiste à éstimer directement
V(s) d’une part et de prendre en compte le modéle de transition
d’une autre part.
La mise à jour de v(s) se fait à chaque transition et non pas
lorsqu’on atteindre le but graçe au formule suivante :
pour chaque transition de s’ à s :
V(s)=V(s)+α(R(s ) + (1 − α)V (s ) − V (s))
α : taux d’apprentissage.

Introduction
conclusion
diﬀérence temporelle
Figure : exemple calcule

Introduction
conclusion
Dans le cas actif , l’agent doit aussi chercher le plan optimal
qui maximise la somme de récomponses futurs espérées.
l’agent doit simultanément chercher le plan optimal et sa
fonction de valeur.
V(s) est maintenant une estimation de la fonction de valeur du
plan optimal.
Dans le cas PDA , trois changements sont à faire :
on va estimer P(s’|s,a) pour plus d’une action a.
on applique value iteration au MDP estimé .
l’action choisie par l’agent devient :
Π(s) = argmax s ∈S p(s |s, a) ∗ v(s )

Introduction
conclusion
On a principalement 2 téchniques d’apprentissage par renforcement
actif :
1 Exploration.
2 Apprentissage actif avec Q-learning.

Introduction
conclusion
Limites du l’agent PDA
Problème
Un agent PDA eﬀectue plusieurs variantes.
Après un nombre important d’essais, l’agent peut tient à une
politique ( qui lui permet d’obtenir une récompense +1 avec
une route basse) sans atteindre le but souhaité.On parle ici
d’un agent glouton .
→ L’agent n’arrive pas à apprendre ni les utilités ni la vraie
politique optimale.
Cause
Le modèle appris par l’agent n’est pas identique à
l’environnement réel.
Solution
Exploitation : lui permet de maximiser sa récompense.
Exploration : maximiser son bien être à long terme.

Introduction
conclusion
La dilemme exploration vs exploitation
Trop exploiter : mène à des politiques non optimaux.
Trop explorer : rend l’apprentissage lente.
Trouver la balance optimale entre l’exploration et l’exploitation
est un problème ouvert en général.

Introduction
conclusion
La dilemme exploration vs exploitation
Exemple : introduction d’une fonction d’exploration f(u,n)
Cette fonction augmente artiﬁciellement la récompense future
d’actions inexplorées.
où n : le nombre de fois que l’action a été choisie pour l’état s.
u : l’estimation actuelle de récompenses futurs espérées.
R+ : c’est une estimation optimale de récomponse future.
Ne : seuil ﬁxé.
→ on garantit que l’action a sera choisie dans s au moins Ne
fois durant l’apprentissage.

Introduction
conclusion
Apprentissage actif avec Q-learning
Il existe une variante de la méthode TD, nommée Q-learning,
qui apprend la fonction action-valeur Q(s,a).
on n’apprend plus U(s), soit la somme espérée des
renforcements à partir de s jusqu’à la ﬁn pour la politique
optimale.
on apprend plutôt Q(s,a), soit la somme espérée des
renforcements à partir de s et l’exécution de a, jusqu’à la ﬁn
pour la politique optimale.
le lien entre Q(s,a) et U(s) est que U(s) = maxQ(s, a)
Le plan de l’agent est alors Π(s) = argmaxQ(s, a)

Introduction
conclusion
AlphaGo :quand l’intelligence artiﬁcielle dépasse l’homme
Systéme intelligent developpé par DeepMind(Google).

Introduction
conclusion
Capable de jouer d’une façon autonome le jeu chinois GO.

Introduction
conclusion
Utilise une méthode d’apprentissage par renforcement(Monte
Carlo) mixée avec l’apprentissage profond(deep learning).

Introduction
conclusion
Utilise une méthode d’apprentissage par renforcement(Monte
Carlo) mixée avec l’apprentissage profond(deep learning).
En Mai 2017 ,AlphaGo a gagné le champion Ke Jie.

Introduction
conclusion
Figure : AlphaGO écrase Ke Jie

Introduction
conclusion
Au début(alpha zero), ne connait rien au jeu de Go (from scratch),
sauf les régles. Ses premiers coups sont joués aléatoirement.
En fonction du résultat de la partie, AlphaGO s’améliorent
légerement.
Voici quelques échelles de temps des progressions de AlphaGO :
19 heures :elle maitrise des concepts stratégiques avancés
comme la notion de territoire, de vie et de mort, etc.
3 jours : elle arrive au niveau d’un très bon joueur.
21 jours : AlphaGo Zero arrive au niveau d’AlphaGo Master,
l’IA qui avait terrassé le champion Ke Jie en 2017.
40 jours (29 millions de parties) : l’IA dépasse toutes les
versions d’AlphaGo et devient virtuellement le meilleur
joueur de Go au monde.

Introduction
conclusion

Apprentissage par renforcement

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Apprentissage par renforcement