1. L’algorithme KL-UCB pour les bandits born´s, et
e
au del` [arXiv:1102.2490]
a
Aur´lien Garivier et Olivier Capp´
e e
CNRS & Telecom ParisTech
10 juin 2011
2. Le mod`le
e
Plan de l’expos´
e
1 Le mod`le
e
2 Une borne inf´rieure pour le regret
e
3 KL-UCB : un algorithme optimiste
4 Et au del`...
a
3. Le mod`le
e
Apprentissage par renforcement
Etat St
dilemme
exploration
Agent Envir.
Action At
exploitation
R´compense Xt
e
RL = apprentissage classique (notion de r´compense)
e
RL = th´orie des jeux (environnement indiff´rent)
e e
4. Le mod`le
e
Exemple : essais cliniques s´quentiels
e
Pour fixer les id´es, on consid`re le cas de figure suivant :
e e
probl`me : des patients atteints d’une certaine maladies sont
e
diagnostiqu´s au fil du temps
e
outils : on dispose de plusieurs traitements mal dont
l’efficacit´ est a priori inconnue
e
d´roulement : on traite chaque patient avec un traitement, et on
e
observe le r´sultat (binaire)
e
objectif : soigner un maximum de patients (et pas connaˆıtre
pr´cis´ment l’efficacit´ de chaque traitement)
e e e
5. Le mod`le
e
Le probl`me des bandits stochastiques
e
Environment K bras, param`tre θ = (θ1 , . . . , θK ) ∈ [0, 1]K
e
L’allocation de bras at ∈ {1, . . . , K} conduit `a
r´compense
e
Yt = Xat ,t
o` Xi,s = 1{Us ≤ θi }, pour 1 ≤ i ≤ K, s ≥ 1, et
u
iid
(Us )s ∼ U[0, 1].
Strat´gie r`gle d’allocation dynamique : π = (π1 , π2 , . . . ) tq
e e
At = πt (Y1 , . . . , Yt−1 )
Nombre de tirages du bras b ∈ {1, . . . , K} :
Ntπ (b) = 1{As = b}
s≤t
6. Le mod`le
e
Performance, regret
R´compense cumul´e : Sn = Y1 + · · · + Yn ,
e e n≥1
Notre objectif : choisir π de mani`re ` maximiser
e a
n K
E [Sn ] = E E [Yt 1{At = b}|Y1 , . . . , Yt−1 ]
t=1 b=1
K
π
= θb E [Nn (b)]
b=1
Objectif ´quivalent : minimiser le regret
e
Rn (θ) = nθ∗ − E [Sn ] = (θ∗ − θb )E [Nn (b)]
π
b:θb <θ∗
o` θ∗ = max{θb : 1 ≤ b ≤ K}.
u
7. Une borne inf´rieure pour le regret
e
Plan de l’expos´
e
1 Le mod`le
e
2 Une borne inf´rieure pour le regret
e
3 KL-UCB : un algorithme optimiste
4 Et au del`...
a
8. Une borne inf´rieure pour le regret
e
Strat´gie consistante
e
une strat´gie π est dite consistante si, pour tout θ ∈ [0, 1]K ,
e
1
E[Sn ] → θ∗
n
c’est-`-dire si elle finit par se concentrer sur le meilleur
a
traitement
elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0,
Rn (θ) = o(na )
c’est-`-dire si le nombre de mauvais traitements adminsitr´s
a e
est sous-polynˆmial
o
on construit assez ais´ment des strat´gies efficaces, mais
e e
moins facilement des strat´gies optimales
e
9. Une borne inf´rieure pour le regret
e
La borne de Lai et Robbins
Th´or`me [Lai&Robbins, ’85]
e e
Si π est une strat´gie efficace, alors pour tout θ ∈ [0, 1]K
e
Rn (θ) θ ∗ − θb
lim inf ≥
n→∞ log(n) kl(θb , θ∗ )
b:θb <θ∗
o`
u
p 1−p
kl(p, q) = p log + (1 − p) log
q 1−q
d´signe la divergence de Kullback-Leibler entre la loi B(p) et la loi
e
B(q), 0 ≤ p, q ≤ 1.
10. KL-UCB : un algorithme optimiste
Plan de l’expos´
e
1 Le mod`le
e
2 Une borne inf´rieure pour le regret
e
3 KL-UCB : un algorithme optimiste
4 Et au del`...
a
11. KL-UCB : un algorithme optimiste
Principe d’optimisme
Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95]
Fais comme si tu te trouvais dans l’environnement qui t’est le plus
favorable parmi tous ceux qui rendent les observations
suffisamment vraisemblables
De fa¸on plutˆt inattendue, les m´thodes optimistes se r´v`lent
c o e e e
pertinentes dans des cadres tr`s diff´rents, efficaces, robustes et
e e
simples ` mettre en oeuvre
a
12. KL-UCB : un algorithme optimiste
Strat´gies ”Upper Confidence Bound”
e
UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07]
Construit une UCB pour chaque bras :
St (a) log(t)
+
Nt (a) 2Nt (a)
r´compense moyenne estim´e
e e bonus d’exploration
Choisis le bras qui la plus grande UCB
Avantage : comportement facilement interpr´table et “acceptable”
e
Borne sur le regret :
1
E[Rn ] ∗−θ )
log(n)
∗
2(θ a
a:θa <θ
Politique d’indice : on calcule un indice par bras et on choisit celui
qui est le plus ´lev´, cf. [Gittins ’79]
e e
13. KL-UCB : un algorithme optimiste
UCB en action
D´but
e
14. KL-UCB : un algorithme optimiste
UCB en action
D´but
e
15. KL-UCB : un algorithme optimiste
KL-UCB
Require: n (horizon), K (nb de bras), REWARD (r´compenses)
e
1: for t = 1 to K do
2: N [t] ← 1
3: S[t] ← REWARD(arm = t)
4: end for
5: for t = K + 1 to n do
6:
S[a]
a ← arg max max q ∈ Θ : N [a] kl ,q ≤ log(t)
1≤a≤K N [a]
7: r ← REWARD(arm = a)
8: N [a] ← N [a] + 1
9: S[a] ← S[a] + r
10: end for
16. KL-UCB : un algorithme optimiste
R´gion de confiance KL
e
iid
Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ)
ps = (Z1 + · · · + Zs )/s, alors
ˆ
−log(α)/s
P (ˆs < x) ≤ exp (−s kl(x, θ0 ))
p
0 x θ0
Autrement dit, si α = exp (−s kl(x, θ0 )) :
log(α)
P (ˆs < x) = P kl(ˆs , θ0 ) > −
p p , ps < θ
ˆ ≤α
s
D’o` une borne de confiance sup´rieure pour p au risque α :
u e
log(α)
us = sup θ > ps : kl(ˆs , θ) ≤ −
ˆ p
s
17. KL-UCB : un algorithme optimiste
R´gion de confiance KL
e
iid kl(ps,⋅)
Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ)
ps = (Z1 + · · · + Zs )/s, alors
ˆ
−log(α)/s
P (ˆs < x) ≤ exp (−s kl(x, θ0 ))
p
0
ps us
Autrement dit, si α = exp (−s kl(x, θ0 )) :
log(α)
P (ˆs < x) = P kl(ˆs , θ0 ) > −
p p , ps < θ
ˆ ≤α
s
D’o` une borne de confiance sup´rieure pour p au risque α :
u e
log(α)
us = sup θ > ps : kl(ˆs , θ) ≤ −
ˆ p
s
18. KL-UCB : un algorithme optimiste
Borne de regret
Th´or`me[G., Capp´ ’11] :
e e e
Soit θ ∈ [0, 1]K , et soit b ∈ {1, . . . , K} tel que θb < θ∗ . Pour tout
> 0 il existe C1 , C2 ( ) et β( ) tels que
KL−U CB log(n) C2 ( )
E[Nn (b)] ≤ ∗)
(1 + ) + C1 log(log(n)) + β( ) .
kl(θb , θ n
Corollaire :
θ ∗ − θb
Rn (θ) log(n)
kl(θb , θ∗ )
b:θb <θ∗
=⇒ KL-UCB est asymptotiquement optimal, et on dispose d’une
borne pour son regret en temps fini.
19. KL-UCB : un algorithme optimiste
Ingr´dient essentiel : d´viations auto-normalis´es
e e e
Pour l’analyse, il faut contrˆler les d´viations auto-normalis´es,
o e e
mesur´es dans la bonne m´trique, de la moyenne empirique :
e e
Th´or`me
e e
Soit (Xt )t ≥ 1 une suite de v.a. ind´pendantes de loi B(θ) sur
e
(Ω, F, P). Soit Ft be une suite croissante de tribus de F tq
∀t, σ(X1 . . . , Xt ) ⊂ Ft et pour s > t, Xs est ind´pendante de Ft .
e
Soit( t )t≥1 une suite pr´visible de variables de Bernoulli. On
e
d´finit, pour tout δ > 0 :
e
n n
ˆ S(n)
S(n) = s Xs , N (n) = s , θ(n) = ,
N (n)
s=1 s=1
ˆ ˆ
u(n) = max q > θn : N (n)d θ(n), q ≤ δ .
Alors
P (u(n) < θ) ≤ e δ log(n) exp(−δ)
P N (n)d(ˆ(n), θ) > δ ≤ 2e δ log(n) exp(−δ)
µ
20. KL-UCB : un algorithme optimiste
Simulations : sc´nario ` deux bras
e a
500 4000
450
UCB 3500
MOSS
400 UCB−Tuned
3000
UCB−V
350 DMED
KL−UCB 2500
300 bound
N (n)
N (n)
2000
2
250
2
200 1500
150
1000
100
500
50
0
0 UCB MOSS UCB−Tuned UCB−V DMED KL−UCB
2 3 4
10 10 10
n (log scale)
Fig.: Performance de diff´rents algorithmes dans le sc´nario ` deux bras
e e a
o` θ = (0.9, 0.8). A gauche : nombre moyen de tirages du bras
u
sous-optimal en fonction du temps. A droite : distribution du nombre de
tirages du bras 2 au temps n = 5000. R´sultats bas´s sur 50000
e e
exp´riences ind´pendantes.
e e
21. KL-UCB : un algorithme optimiste
Simulations : sc´nario ` r´compenses faibles
e a e
UCB MOSS UCB−V
500 500 500
400 400 400
300 300 300
Rn
200 200 200
100 100 100
0 2 3 4
0 2 3 4
0 2 3 4
10 10 10 10 10 10 10 10 10
UCB−Tuned DMED KL−UCB
500 500 500
400 400 400
300 300 300
Rn
200 200 200
100 100 100
0 2 0 2 0 2
10 103 104 10 103 104 10 103 104
CP−UCB DMED+ KL−UCB+
500 500 500
400 400 400
300 300 300
Rn
200 200 200
100 100 100
0 2 0 2 0 2
10 103 104 10 103 104 10 103 104
n (log scale) n (log scale) n (log scale)
Fig.: Regrets de diff´rents algorithmes en fonction du temps pour un
e
sc´nario ` dix bras o`
e a u
θ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rouge
pointill´e : borne inf´rieure de Lai&Robbins. Ligne ´paisse : regret moyen.
e e e
R´gions gris´es : r´gion centrale ` 99% et le quantile ` 99, 95%.
e e e a a
22. Et au del`...
a
Plan de l’expos´
e
1 Le mod`le
e
2 Une borne inf´rieure pour le regret
e
3 KL-UCB : un algorithme optimiste
4 Et au del`...
a
23. Et au del`...
a
R´compenses born´es
e e
Il suffit de ramener les r´compenses dans [0, 1], et on peut utiliser
e
le mˆme algorithme KL-UCB et obtenir les mˆmes bornes de regret
e e
grˆce au
a
Lemme :
soit X une variable al´atoire ` valeur dans [0, 1], et soit µ = E[X].
e a
Alors, pour tout λ ∈ R,
E [exp(λX)] ≤ 1 − µ + µ exp(λ) .
KL-UCB fait toujours mieux que UCB : In´galit´ de Pinsker
e e
kl(µ1 , µ2 ) ≥ 2(µ1 − µ2 )2
Toutefois, il peut y avoir mieux ` faire si les distributions des
a
r´compenses ont une faible variance par rapport ` la loi de
e a
Bernoulli correspondante.
24. Et au del`...
a
Comparaison UCB vs KL-UCB
1
0.9
kl(0.7, q)
0.8 2(0.7−q)2
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1 1.2
q
25. Et au del`...
a
Simulations : exponentielles born´es
e
1200
UCB
MOSS
UCB−Tuned
1000 UCB−V
KL−UCB
KL−UCB−exp
800
n
R
600
400
200
0
2 3 4
10 10 10
n (log scale)
Fig.: Regret de diff´rentes politiques en fonction du temps, sur le
e
sc´nario des exponentielles born´es.
e e
26. Et au del`...
a
R´compenses dans la famille exponentielle
e
La mˆme preuve se g´n´ralise directement ` des r´compenses
e e e a e
dont les distributions admettent par rapport ` une mesure
a
dominante une densit´ pouvant s’´crire
e e
pθa (x) = exp xθi − b(θa ) + c(x) , 1≤a≤K
pour un certain param`tre θ ∈ RK
e
L’algorithme reste le mˆme, seule la d´finition de la fonction
e e
kl est modifi´e - par exemple, pour des r´compenses de loi
e e
exponentielle :
x
kl(x, y) = y − x + x log
y
Une in´galit´ de d´viation analogue se prouve alors de la
e e e
mˆme fa¸on, et conduit aux mˆme bornes de regret
e c e
27. Et au del`...
a
Bandits non stationnaires
On autorise les distributions des r´compenses ` varier
e a
brutalement au cours du temps
L’objectif est alors de faire poursuivre le meilleur bras
Application : dans un scanner ` effet tunel, la qualit´ de
a e
l’image d´pend d’un r´glage mais les distributions peuvent
e e
brutalement changer en cas de d´placement inopin´ de la
e e
pointe
On ´tudie alors D-UCB et SW-UCB [G. Moulines ’08],
e
variantes qui incluent un oubli (progressif) du pass´
e
√
On montre des bornes de regret en O( n log n), qui sont
(presque) optimales
28. Et au del`...
a
Bandits lin´aires / lin´aires g´n´ralis´s
e e e e e
Mod`le de bandit avec information contextuelle :
e
E[Xt |At ] = µ(mAt θ∗ )
o` θ∗ ∈ Rd d´signe un param`tre inconnu et o` µ : R → R
u e e u
est la fonction de lien dans un mod`le lin´aire g´n´ralis´
e e e e e
Exemple : pour des r´compenses binaires
e
exp(x)
µ(x) =
1 + exp(x)
Application : publicit´ cibl´e sur internet
e e
GLM-UCB [Filippi, Capp´, G. ’10], borne de regret d´pendant
e e
de d et pas du nombre d’actions possibles
29. Et au del`...
a
Optimisation stochastique
Objectif : trouver le maximum (ou les quantiles) d’une
fonction f : C ⊂ Rd → R observ´e dans du bruit (ou pas)
e
Application : exposition aux ondes ´lectro-magn´tiques (indice
e e
DAS = SAR)
Mod´lisation : f est la r´alisation d’un processus Gaussien, ou
e e
alors fonction de faible norme dans le RKHS associ´ au noyau
e
de ce processus
GP-UCB : jouer le point x ∈ C pour lequel l’intervalle de
confiance est le plus haut
30. Et au del`...
a
Processus de D´cision Markoviens
e
Le syst`me est dans un ´tat St qui ´volue de fa¸on markovienne :
e e e c
St+1 ∼ P (·; St , At ) et Rt = r(St , At ) + t
Exemple / Benchmark : RiverSwim [Strehl&Littman’08]
0.4 0.6 0.6 0.6 0.6 0.6
Action 1
0.6 0.35 0.35 0.35 0.35
R=5 1 2 3 4 5 6 R=10000
0.05 0.05 0.05 0.05 0.4
Action 2
courant
31. Et au del`...
a
Optimisme pour les MDP
Le paradigme optimiste conduit ` la recherche d’une matrice de
a
transition ”la plus avantageuse” dans un voisinage de son
estimateur de maximum de vraisemblance.
L’utilisation de voisinages de Kullback-Leibler, autoris´e par des
e
in´galit´s de d´viations semblables ` celles montr´es plus haut,
e e e a e
conduisent ` des algorithmes plus efficaces ayant de meilleures
a
propri´t´s
ee