Bandits Algo KL-UCB par Garivier

L’algorithme KL-UCB pour les bandits born´s, et
e
au del` [arXiv:1102.2490]
a

Aur´lien Garivier et Olivier Capp´
e e

CNRS & Telecom ParisTech

10 juin 2011

Le mod`le
e

Plan de l’expos´
e

1 Le mod`le
e

2 Une borne inf´rieure pour le regret
e

3 KL-UCB : un algorithme optimiste

4 Et au del`...
a

Le mod`le
e

Apprentissage par renforcement

Etat St
dilemme
exploration
Agent Envir.
Action At
exploitation
Rćompense Xt
e

RL = apprentissage classique (notion de rćompense)
e
RL = thórie des jeux (environnement indiff´rent)
e e

Le mod`le
e

Exemple : essais cliniques s´quentiels
e

Pour fixer les idés, on consid`re le cas de figure suivant :
e e

probl`me : des patients atteints d’une certaine maladies sont
e
diagnostiqu´s au fil du temps
e
outils : on dispose de plusieurs traitements mal dont
l’efficacit´ est a priori inconnue
e
d´roulement : on traite chaque patient avec un traitement, et on
e
observe le r´sultat (binaire)
e
objectif : soigner un maximum de patients (et pas connaˆıtre
prćis´ment l’efficacit´ de chaque traitement)
e e e

Le mod`le
e

Le probl`me des bandits stochastiques
e

Environment K bras, param`tre θ = (θ1 , . . . , θK ) ∈ [0, 1]K
e
L’allocation de bras at ∈ {1, . . . , K} conduit `a
r´compense
e
Yt = Xat ,t
o` Xi,s = 1{Us ≤ θi }, pour 1 ≤ i ≤ K, s ≥ 1, et
u
iid
(Us )s ∼ U[0, 1].
Strat´gie r`gle d’allocation dynamique : π = (π1 , π2 , . . . ) tq
e e

At = πt (Y1 , . . . , Yt−1 )

Nombre de tirages du bras b ∈ {1, . . . , K} :

Ntπ (b) = 1{As = b}
s≤t

Le mod`le
e

Performance, regret

R´compense cumul´e : Sn = Y1 + · · · + Yn ,
e e n≥1
Notre objectif : choisir π de mani`re ` maximiser
e a
n K
E [Sn ] = E E [Yt 1{At = b}|Y1 , . . . , Yt−1 ]
t=1 b=1
K
π
= θb E [Nn (b)]
b=1

Objectif ´quivalent : minimiser le regret
e

Rn (θ) = nθ∗ − E [Sn ] = (θ∗ − θb )E [Nn (b)]
π

b:θb <θ∗

o` θ∗ = max{θb : 1 ≤ b ≤ K}.
u

Une borne inf´rieure pour le regret
e

Plan de l’expos´
e

1 Le mod`le
e

e


4 Et au del`...
a

e

Strat´gie consistante
e

une strat´gie π est dite consistante si, pour tout θ ∈ [0, 1]K ,
e
1
E[Sn ] → θ∗
n
c’est-`-dire si elle finit par se concentrer sur le meilleur
a
traitement
elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0,

Rn (θ) = o(na )

c’est-`-dire si le nombre de mauvais traitements adminsitr´s
a e
est sous-polynˆmial
o
on construit assez ais´ment des strat´gies efficaces, mais
e e
moins facilement des strat´gies optimales
e

e

La borne de Lai et Robbins

Th´or`me [Lai&Robbins, ’85]
e e
Si π est une strat´gie eﬃcace, alors pour tout θ ∈ [0, 1]K
e

Rn (θ) θ ∗ − θb
lim inf ≥
n→∞ log(n) kl(θb , θ∗ )
b:θb <θ∗

o`
u
p 1−p
kl(p, q) = p log + (1 − p) log
q 1−q
d´signe la divergence de Kullback-Leibler entre la loi B(p) et la loi
e
B(q), 0 ≤ p, q ≤ 1.

KL-UCB : un algorithme optimiste

Plan de l’expos´
e

1 Le mod`le
e

e


4 Et au del`...
a


Principe d’optimisme

Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95]

Fais comme si tu te trouvais dans l’environnement qui t’est le plus
favorable parmi tous ceux qui rendent les observations
suffisamment vraisemblables

De fa¸on plutˆt inattendue, les m´thodes optimistes se r´v`lent
c o e e e
pertinentes dans des cadres tr`s diff´rents, efficaces, robustes et
e e
simples ` mettre en oeuvre
a


Strat´gies ”Upper Confidence Bound”
e
UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07]

Construit une UCB pour chaque bras :

St (a) log(t)
+
Nt (a) 2Nt (a)
rćompense moyenne estimé
e e bonus d’exploration

Choisis le bras qui la plus grande UCB

Avantage : comportement facilement interpr´table et “acceptable”
e
Borne sur le regret :
1
E[Rn ] ∗−θ )
log(n)
∗
2(θ a
a:θa <θ
Politique d’indice : on calcule un indice par bras et on choisit celui
qui est le plus ´lev´, cf. [Gittins ’79]
e e


UCB en action

D´but
e


KL-UCB

Require: n (horizon), K (nb de bras), REWARD (r´compenses)
e
1: for t = 1 to K do
2: N [t] ← 1
3: S[t] ← REWARD(arm = t)
4: end for
5: for t = K + 1 to n do
6:

S[a]
a ← arg max max q ∈ Θ : N [a] kl ,q ≤ log(t)
1≤a≤K N [a]

7: r ← REWARD(arm = a)
8: N [a] ← N [a] + 1
9: S[a] ← S[a] + r
10: end for


R´gion de conﬁance KL
e

iid
Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ)

ps = (Z1 + · · · + Zs )/s, alors
ˆ
−log(α)/s
P (ˆs < x) ≤ exp (−s kl(x, θ0 ))
p

0 x θ0

Autrement dit, si α = exp (−s kl(x, θ0 )) :
log(α)
P (ˆs < x) = P kl(ˆs , θ0 ) > −
p p , ps < θ
ˆ ≤α
s
D’o` une borne de conﬁance sup´rieure pour p au risque α :
u e
log(α)
us = sup θ > ps : kl(ˆs , θ) ≤ −
ˆ p
s


R´gion de conﬁance KL
e

iid kl(ps,⋅)
Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ)

ps = (Z1 + · · · + Zs )/s, alors
ˆ
−log(α)/s
P (ˆs < x) ≤ exp (−s kl(x, θ0 ))
p

0
ps us

Autrement dit, si α = exp (−s kl(x, θ0 )) :
log(α)
P (ˆs < x) = P kl(ˆs , θ0 ) > −
p p , ps < θ
ˆ ≤α
s
D’o` une borne de conﬁance sup´rieure pour p au risque α :
u e
log(α)
us = sup θ > ps : kl(ˆs , θ) ≤ −
ˆ p
s


Borne de regret

Th´or`me[G., Capp´ ’11] :
e e e
Soit θ ∈ [0, 1]K , et soit b ∈ {1, . . . , K} tel que θb < θ∗ . Pour tout
> 0 il existe C1 , C2 ( ) et β( ) tels que

KL−U CB log(n) C2 ( )
E[Nn (b)] ≤ ∗)
(1 + ) + C1 log(log(n)) + β( ) .
kl(θb , θ n

Corollaire :
θ ∗ − θb
Rn (θ) log(n)
kl(θb , θ∗ )
b:θb <θ∗

=⇒ KL-UCB est asymptotiquement optimal, et on dispose d’une
borne pour son regret en temps ﬁni.


Ingr´dient essentiel : d´viations auto-normalisés
e e e
Pour l’analyse, il faut contrˆler les d´viations auto-normalisés,
o e e
mesurés dans la bonne m´trique, de la moyenne empirique :
e e
Thór`me
e e
Soit (Xt )t ≥ 1 une suite de v.a. ind´pendantes de loi B(θ) sur
e
(Ω, F, P). Soit Ft be une suite croissante de tribus de F tq
∀t, σ(X1 . . . , Xt ) ⊂ Ft et pour s > t, Xs est ind´pendante de Ft .
e
Soit( t )t≥1 une suite pr´visible de variables de Bernoulli. On
e
d´finit, pour tout δ > 0 :
e
n n
ˆ S(n)
S(n) = s Xs , N (n) = s , θ(n) = ,
N (n)
s=1 s=1
ˆ ˆ
u(n) = max q > θn : N (n)d θ(n), q ≤ δ .
Alors
P (u(n) < θ) ≤ e δ log(n) exp(−δ)
P N (n)d(ˆ(n), θ) > δ ≤ 2e δ log(n) exp(−δ)
µ


Simulations : scńario ` deux bras
e a

500 4000

450
UCB 3500
MOSS
400 UCB−Tuned
3000
UCB−V
350 DMED
KL−UCB 2500
300 bound

N (n)
N (n)

2000

2
250
2

200 1500

150
1000

100
500
50

0
0 UCB MOSS UCB−Tuned UCB−V DMED KL−UCB
2 3 4
10 10 10
n (log scale)

Fig.: Performance de diff´rents algorithmes dans le scńario ` deux bras
e e a
o` θ = (0.9, 0.8). A gauche : nombre moyen de tirages du bras
u
sous-optimal en fonction du temps. A droite : distribution du nombre de
tirages du bras 2 au temps n = 5000. R´sultats bas´s sur 50000
e e
exp´riences ind´pendantes.
e e


Simulations : scńario ` rćompenses faibles
e a e
UCB MOSS UCB−V
500 500 500
400 400 400
300 300 300

Rn
200 200 200
100 100 100
0 2 3 4
0 2 3 4
0 2 3 4
10 10 10 10 10 10 10 10 10
UCB−Tuned DMED KL−UCB
500 500 500
400 400 400
300 300 300
Rn

200 200 200
100 100 100
0 2 0 2 0 2
10 103 104 10 103 104 10 103 104
CP−UCB DMED+ KL−UCB+
500 500 500
400 400 400
300 300 300
Rn

200 200 200
100 100 100
0 2 0 2 0 2
10 103 104 10 103 104 10 103 104
n (log scale) n (log scale) n (log scale)

Fig.: Regrets de diff´rents algorithmes en fonction du temps pour un
e
scńario ` dix bras o`
e a u
θ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rouge
pointillé : borne inf´rieure de Lai&Robbins. Ligne ´paisse : regret moyen.
e e e
R´gions grisés : r´gion centrale ` 99% et le quantile ` 99, 95%.
e e e a a

Et au del`...
a

Plan de l’expos´
e

1 Le mod`le
e

e


4 Et au del`...
a

Et au del`...
a

Rćompenses bornés
e e
Il suffit de ramener les rćompenses dans [0, 1], et on peut utiliser
e
le mˆme algorithme KL-UCB et obtenir les mˆmes bornes de regret
e e
grˆce au
a
Lemme :
soit X une variable alátoire ` valeur dans [0, 1], et soit µ = E[X].
e a
Alors, pour tout λ ∈ R,

E [exp(λX)] ≤ 1 − µ + µ exp(λ) .

KL-UCB fait toujours mieux que UCB : In´galit´ de Pinsker
e e

kl(µ1 , µ2 ) ≥ 2(µ1 − µ2 )2

Toutefois, il peut y avoir mieux ` faire si les distributions des
a
rćompenses ont une faible variance par rapport ` la loi de
e a
Bernoulli correspondante.

Et au del`...
a

Comparaison UCB vs KL-UCB

1

0.9
kl(0.7, q)

0.8 2(0.7−q)2

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.2 0.4 0.6 0.8 1 1.2
q

Et au del`...
a

Simulations : exponentielles bornés
e

1200
UCB
MOSS
UCB−Tuned
1000 UCB−V
KL−UCB
KL−UCB−exp
800
n
R

600

400

200

0
2 3 4
10 10 10
n (log scale)

Fig.: Regret de diff´rentes politiques en fonction du temps, sur le
e
scńario des exponentielles bornés.
e e

Et au del`...
a

Rćompenses dans la famille exponentielle
e

La mˆme preuve se gń´ralise directement ` des rćompenses
e e e a e
dont les distributions admettent par rapport ` une mesure
a
dominante une densit´ pouvant s’ćrire
e e

pθa (x) = exp xθi − b(θa ) + c(x) , 1≤a≤K

pour un certain param`tre θ ∈ RK
e
L’algorithme reste le mˆme, seule la d´finition de la fonction
e e
kl est modifié - par exemple, pour des rćompenses de loi
e e
exponentielle :
x
kl(x, y) = y − x + x log
y
Une in´galit´ de d´viation analogue se prouve alors de la
e e e
mˆme fa¸on, et conduit aux mˆme bornes de regret
e c e

Et au del`...
a

Bandits non stationnaires

On autorise les distributions des r´compenses ` varier
e a
brutalement au cours du temps
L’objectif est alors de faire poursuivre le meilleur bras
Application : dans un scanner ` eﬀet tunel, la qualit´ de
a e
l’image d´pend d’un r´glage mais les distributions peuvent
e e
brutalement changer en cas de d´placement inopin´ de la
e e
pointe
On ´tudie alors D-UCB et SW-UCB [G. Moulines ’08],
e
variantes qui incluent un oubli (progressif) du pass´
e
√
On montre des bornes de regret en O( n log n), qui sont
(presque) optimales

Et au del`...
a

Bandits lináires / lináires gń´ralis´s
e e e e e

Mod`le de bandit avec information contextuelle :
e

E[Xt |At ] = µ(mAt θ∗ )

o` θ∗ ∈ Rd d´signe un param`tre inconnu et o` µ : R → R
u e e u
est la fonction de lien dans un mod`le lináire gń´ralis´
e e e e e
Exemple : pour des rćompenses binaires
e

exp(x)
µ(x) =
1 + exp(x)

Application : publicit´ ciblé sur internet
e e
GLM-UCB [Filippi, Capp´, G. ’10], borne de regret d´pendant
e e
de d et pas du nombre d’actions possibles

Et au del`...
a

Optimisation stochastique

Objectif : trouver le maximum (ou les quantiles) d’une
fonction f : C ⊂ Rd → R observé dans du bruit (ou pas)
e
Application : exposition aux ondes ´lectro-magn´tiques (indice
e e
DAS = SAR)
Mod´lisation : f est la rálisation d’un processus Gaussien, ou
e e
alors fonction de faible norme dans le RKHS associ´ au noyau
e
de ce processus
GP-UCB : jouer le point x ∈ C pour lequel l’intervalle de
confiance est le plus haut

Et au del`...
a

Processus de D´cision Markoviens
e

Le syst`me est dans un ´tat St qui ´volue de fa¸on markovienne :
e e e c

St+1 ∼ P (·; St , At ) et Rt = r(St , At ) + t

Exemple / Benchmark : RiverSwim [Strehl&Littman’08]
0.4 0.6 0.6 0.6 0.6 0.6
Action 1
0.6 0.35 0.35 0.35 0.35
R=5 1 2 3 4 5 6 R=10000

0.05 0.05 0.05 0.05 0.4
Action 2

courant

Et au del`...
a

Optimisme pour les MDP
Le paradigme optimiste conduit ` la recherche d’une matrice de
a
transition ”la plus avantageuse” dans un voisinage de son
estimateur de maximum de vraisemblance.

L’utilisation de voisinages de Kullback-Leibler, autorisé par des
e
in´galit´s de d´viations semblables ` celles montrés plus haut,
e e e a e
conduisent ` des algorithmes plus efficaces ayant de meilleures
a
propri´t´s
ee

Bandits Algo KL-UCB par Garivier

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Bandits Algo KL-UCB par Garivier

Similaire à Bandits Algo KL-UCB par Garivier (20)

Plus de Cdiscount

Plus de Cdiscount (20)

Bandits Algo KL-UCB par Garivier