SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
L’algorithme KL-UCB pour les bandits born´s, et
                                         e
          au del` [arXiv:1102.2490]
                a

          Aur´lien Garivier et Olivier Capp´
             e                             e

               CNRS & Telecom ParisTech


                    10 juin 2011
Le mod`le
                                  e


Plan de l’expos´
               e



   1 Le mod`le
           e


   2 Une borne inf´rieure pour le regret
                  e


   3 KL-UCB : un algorithme optimiste


   4 Et au del`...
              a
Le mod`le
                                   e


Apprentissage par renforcement


                   Etat St
                                                          dilemme
                                                         exploration
    Agent                                Envir.
                    Action At
                                                         exploitation
              R´compense Xt
               e


   RL = apprentissage classique (notion de r´compense)
                                            e
   RL = th´orie des jeux (environnement indiff´rent)
          e                                   e
Le mod`le
                                   e


Exemple : essais cliniques s´quentiels
                            e


   Pour fixer les id´es, on consid`re le cas de figure suivant :
                   e             e

     probl`me : des patients atteints d’une certaine maladies sont
          e
                diagnostiqu´s au fil du temps
                           e
        outils : on dispose de plusieurs traitements mal dont
                 l’efficacit´ est a priori inconnue
                          e
   d´roulement : on traite chaque patient avec un traitement, et on
    e
                observe le r´sultat (binaire)
                            e
      objectif : soigner un maximum de patients (et pas connaˆıtre
                 pr´cis´ment l’efficacit´ de chaque traitement)
                   e e                e
Le mod`le
                                     e


Le probl`me des bandits stochastiques
        e

   Environment K bras, param`tre θ = (θ1 , . . . , θK ) ∈ [0, 1]K
                              e
               L’allocation de bras at ∈ {1, . . . , K} conduit `a
               r´compense
                e
                                     Yt = Xat ,t
                 o` Xi,s = 1{Us ≤ θi }, pour 1 ≤ i ≤ K, s ≥ 1, et
                  u
                       iid
                 (Us )s ∼ U[0, 1].
      Strat´gie r`gle d’allocation dynamique : π = (π1 , π2 , . . . ) tq
           e     e

                                   At = πt (Y1 , . . . , Yt−1 )

                 Nombre de tirages du bras b ∈ {1, . . . , K} :

                                 Ntπ (b) =          1{As = b}
                                              s≤t
Le mod`le
                                     e


Performance, regret

   R´compense cumul´e : Sn = Y1 + · · · + Yn ,
    e              e                                           n≥1
   Notre objectif : choisir π de mani`re ` maximiser
                                     e a
                              n     K
                  E [Sn ] =                E E [Yt 1{At = b}|Y1 , . . . , Yt−1 ]
                              t=1 b=1
                               K
                                           π
                         =          θb E [Nn (b)]
                              b=1

   Objectif ´quivalent : minimiser le regret
            e

                  Rn (θ) = nθ∗ − E [Sn ] =                     (θ∗ − θb )E [Nn (b)]
                                                                             π

                                                    b:θb <θ∗

                o` θ∗ = max{θb : 1 ≤ b ≤ K}.
                 u
Une borne inf´rieure pour le regret
                           e


Plan de l’expos´
               e



   1 Le mod`le
           e


   2 Une borne inf´rieure pour le regret
                  e


   3 KL-UCB : un algorithme optimiste


   4 Et au del`...
              a
Une borne inf´rieure pour le regret
                            e


Strat´gie consistante
     e

       une strat´gie π est dite consistante si, pour tout θ ∈ [0, 1]K ,
                e
                                            1
                                              E[Sn ] → θ∗
                                            n
       c’est-`-dire si elle finit par se concentrer sur le meilleur
             a
       traitement
       elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0,

                                           Rn (θ) = o(na )

       c’est-`-dire si le nombre de mauvais traitements adminsitr´s
             a                                                   e
       est sous-polynˆmial
                       o
       on construit assez ais´ment des strat´gies efficaces, mais
                             e              e
       moins facilement des strat´gies optimales
                                 e
Une borne inf´rieure pour le regret
                            e


La borne de Lai et Robbins


   Th´or`me [Lai&Robbins, ’85]
     e e
   Si π est une strat´gie efficace, alors pour tout θ ∈ [0, 1]K
                     e

                                   Rn (θ)                        θ ∗ − θb
                      lim inf             ≥
                        n→∞        log(n)                       kl(θb , θ∗ )
                                                     b:θb <θ∗

   o`
    u
                                               p               1−p
                   kl(p, q) = p log              + (1 − p) log
                                               q               1−q
   d´signe la divergence de Kullback-Leibler entre la loi B(p) et la loi
    e
   B(q), 0 ≤ p, q ≤ 1.
KL-UCB : un algorithme optimiste


Plan de l’expos´
               e



   1 Le mod`le
           e


   2 Une borne inf´rieure pour le regret
                  e


   3 KL-UCB : un algorithme optimiste


   4 Et au del`...
              a
KL-UCB : un algorithme optimiste


Principe d’optimisme



   Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95]

   Fais comme si tu te trouvais dans l’environnement qui t’est le plus
         favorable parmi tous ceux qui rendent les observations
                      suffisamment vraisemblables

   De fa¸on plutˆt inattendue, les m´thodes optimistes se r´v`lent
         c       o                   e                     e e
   pertinentes dans des cadres tr`s diff´rents, efficaces, robustes et
                                 e     e
   simples ` mettre en oeuvre
           a
KL-UCB : un algorithme optimiste


Strat´gies ”Upper Confidence Bound”
     e
   UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07]

        Construit une UCB pour chaque bras :

                                 St (a)                      log(t)
                                                  +
                                 Nt (a)                     2Nt (a)
                    r´compense moyenne estim´e
                     e                      e         bonus d’exploration

        Choisis le bras qui la plus grande UCB

   Avantage : comportement facilement interpr´table et “acceptable”
                                             e
   Borne sur le regret :
                                        1
                    E[Rn ]             ∗−θ )
                                             log(n)
                                 ∗
                                   2(θ    a
                                    a:θa <θ
   Politique d’indice : on calcule un indice par bras et on choisit celui
   qui est le plus ´lev´, cf. [Gittins ’79]
                   e e
KL-UCB : un algorithme optimiste


UCB en action




  D´but
   e
KL-UCB : un algorithme optimiste


UCB en action




                                              D´but
                                               e
KL-UCB : un algorithme optimiste


KL-UCB

  Require: n (horizon), K (nb de bras), REWARD (r´compenses)
                                                 e
   1: for t = 1 to K do
   2:   N [t] ← 1
   3:   S[t] ← REWARD(arm = t)
   4: end for
   5: for t = K + 1 to n do
   6:

                                               S[a]
         a ← arg max max q ∈ Θ : N [a] kl            ,q   ≤ log(t)
              1≤a≤K                            N [a]

   7:   r ← REWARD(arm = a)
   8:   N [a] ← N [a] + 1
   9:   S[a] ← S[a] + r
  10: end for
KL-UCB : un algorithme optimiste


R´gion de confiance KL
 e


                   iid
  Si Z1 , . . . , Zs ∼ B(θ0 ), et si                            kl(⋅,θ)

  ps = (Z1 + · · · + Zs )/s, alors
  ˆ
                                                  −log(α)/s
  P (ˆs < x) ≤ exp (−s kl(x, θ0 ))
     p

                                                          0               x            θ0




  Autrement dit, si α = exp (−s kl(x, θ0 )) :
                                                              log(α)
         P (ˆs < x) = P kl(ˆs , θ0 ) > −
            p              p                                         , ps < θ
                                                                       ˆ                    ≤α
                                                                 s
  D’o` une borne de confiance sup´rieure pour p au risque α :
     u                          e
                                                                              log(α)
                us = sup θ > ps : kl(ˆs , θ) ≤ −
                             ˆ       p
                                                                                 s
KL-UCB : un algorithme optimiste


R´gion de confiance KL
 e


                   iid                                                                        kl(ps,⋅)
  Si Z1 , . . . , Zs ∼ B(θ0 ), et si                            kl(⋅,θ)

  ps = (Z1 + · · · + Zs )/s, alors
  ˆ
                                                  −log(α)/s
  P (ˆs < x) ≤ exp (−s kl(x, θ0 ))
     p

                                                          0
                                                                          ps            us




  Autrement dit, si α = exp (−s kl(x, θ0 )) :
                                                              log(α)
         P (ˆs < x) = P kl(ˆs , θ0 ) > −
            p              p                                         , ps < θ
                                                                       ˆ                     ≤α
                                                                 s
  D’o` une borne de confiance sup´rieure pour p au risque α :
     u                          e
                                                                               log(α)
                us = sup θ > ps : kl(ˆs , θ) ≤ −
                             ˆ       p
                                                                                  s
KL-UCB : un algorithme optimiste


Borne de regret

   Th´or`me[G., Capp´ ’11] :
     e e            e
   Soit θ ∈ [0, 1]K , et soit b ∈ {1, . . . , K} tel que θb < θ∗ . Pour tout
    > 0 il existe C1 , C2 ( ) et β( ) tels que

       KL−U CB                   log(n)                               C2 ( )
    E[Nn       (b)] ≤                     ∗)
                                             (1 + ) + C1 log(log(n)) + β( ) .
                                kl(θb , θ                             n


   Corollaire :
                                                      θ ∗ − θb
                          Rn (θ)                                  log(n)
                                                     kl(θb , θ∗ )
                                        b:θb <θ∗

    =⇒ KL-UCB est asymptotiquement optimal, et on dispose d’une
   borne pour son regret en temps fini.
KL-UCB : un algorithme optimiste


Ingr´dient essentiel : d´viations auto-normalis´es
    e                   e                      e
   Pour l’analyse, il faut contrˆler les d´viations auto-normalis´es,
                                  o        e                     e
   mesur´es dans la bonne m´trique, de la moyenne empirique :
         e                       e
   Th´or`me
       e e
   Soit (Xt )t ≥ 1 une suite de v.a. ind´pendantes de loi B(θ) sur
                                          e
   (Ω, F, P). Soit Ft be une suite croissante de tribus de F tq
   ∀t, σ(X1 . . . , Xt ) ⊂ Ft et pour s > t, Xs est ind´pendante de Ft .
                                                       e
   Soit( t )t≥1 une suite pr´visible de variables de Bernoulli. On
                              e
   d´finit, pour tout δ > 0 :
    e
                 n                                 n
                                                                 ˆ      S(n)
       S(n) =          s Xs   ,        N (n) =           s   ,   θ(n) =       ,
                                                                        N (n)
                s=1                                s=1
                      ˆ           ˆ
       u(n) = max q > θn : N (n)d θ(n), q ≤ δ                      .
   Alors
                            P (u(n) < θ) ≤ e δ log(n) exp(−δ)
            P N (n)d(ˆ(n), θ) > δ ≤ 2e δ log(n) exp(−δ)
                     µ
KL-UCB : un algorithme optimiste


Simulations : sc´nario ` deux bras
                e      a

            500                                                         4000


            450
                    UCB                                                 3500
                    MOSS
            400     UCB−Tuned
                                                                        3000
                    UCB−V
            350     DMED
                    KL−UCB                                              2500
            300     bound




                                                                N (n)
    N (n)




                                                                        2000




                                                                   2
            250
       2




            200                                                         1500


            150
                                                                        1000

            100
                                                                        500
             50

                                                                          0
              0                                                                UCB   MOSS   UCB−Tuned   UCB−V   DMED   KL−UCB
                2                    3                   4
              10                   10                   10
                                     n (log scale)




   Fig.: Performance de diff´rents algorithmes dans le sc´nario ` deux bras
                            e                             e     a
   o` θ = (0.9, 0.8). A gauche : nombre moyen de tirages du bras
     u
   sous-optimal en fonction du temps. A droite : distribution du nombre de
   tirages du bras 2 au temps n = 5000. R´sultats bas´s sur 50000
                                          e            e
   exp´riences ind´pendantes.
       e          e
KL-UCB : un algorithme optimiste


Simulations : sc´nario ` r´compenses faibles
                e      a e
                                    UCB                          MOSS                          UCB−V
                       500                           500                           500
                       400                           400                           400
                       300                           300                           300




                  Rn
                       200                           200                           200
                       100                           100                           100
                         0 2          3          4
                                                       0 2          3          4
                                                                                     0 2          3          4
                         10         10         10      10        10          10      10        10          10
                                UCB−Tuned                        DMED                         KL−UCB
                       500                           500                           500
                       400                           400                           400
                       300                           300                           300
                  Rn




                       200                           200                           200
                       100                           100                           100
                         0 2                           0 2                           0 2
                         10         103        104     10        103         104     10        103         104
                                  CP−UCB                        DMED+                        KL−UCB+
                       500                           500                           500
                       400                           400                           400
                       300                           300                           300
                  Rn




                       200                           200                           200
                       100                           100                           100
                         0 2                           0 2                           0 2
                         10         103        104     10         103        104     10         103        104
                               n (log scale)                 n (log scale)                 n (log scale)




   Fig.: Regrets de diff´rents algorithmes en fonction du temps pour un
                          e
   sc´nario ` dix bras o`
     e       a           u
   θ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rouge
   pointill´e : borne inf´rieure de Lai&Robbins. Ligne ´paisse : regret moyen.
           e             e                                 e
   R´gions gris´es : r´gion centrale ` 99% et le quantile ` 99, 95%.
     e           e     e               a                       a
Et au del`...
                                    a


Plan de l’expos´
               e



   1 Le mod`le
           e


   2 Une borne inf´rieure pour le regret
                  e


   3 KL-UCB : un algorithme optimiste


   4 Et au del`...
              a
Et au del`...
                                     a


R´compenses born´es
 e              e
  Il suffit de ramener les r´compenses dans [0, 1], et on peut utiliser
                          e
  le mˆme algorithme KL-UCB et obtenir les mˆmes bornes de regret
       e                                       e
  grˆce au
     a
  Lemme :
  soit X une variable al´atoire ` valeur dans [0, 1], et soit µ = E[X].
                        e       a
  Alors, pour tout λ ∈ R,

                   E [exp(λX)] ≤ 1 − µ + µ exp(λ) .


  KL-UCB fait toujours mieux que UCB : In´galit´ de Pinsker
                                         e     e

                        kl(µ1 , µ2 ) ≥ 2(µ1 − µ2 )2

  Toutefois, il peut y avoir mieux ` faire si les distributions des
                                   a
  r´compenses ont une faible variance par rapport ` la loi de
   e                                                   a
  Bernoulli correspondante.
Et au del`...
                                  a


Comparaison UCB vs KL-UCB

          1


         0.9
                                               kl(0.7, q)

         0.8                                   2(0.7−q)2


         0.7


         0.6


         0.5


         0.4


         0.3


         0.2


         0.1


          0
               0   0.2    0.4            0.6           0.8   1   1.2
                                         q
Et au del`...
                                             a


Simulations : exponentielles born´es
                                 e

                   1200
                           UCB
                           MOSS
                           UCB−Tuned
                   1000    UCB−V
                           KL−UCB
                           KL−UCB−exp
                   800
               n
              R




                   600




                   400




                   200




                     0
                       2                            3              4
                     10                         10                10
                                                  n (log scale)



   Fig.: Regret de diff´rentes politiques en fonction du temps, sur le
                      e
   sc´nario des exponentielles born´es.
     e                             e
Et au del`...
                                   a


R´compenses dans la famille exponentielle
 e

      La mˆme preuve se g´n´ralise directement ` des r´compenses
           e                e e                  a      e
      dont les distributions admettent par rapport ` une mesure
                                                   a
      dominante une densit´ pouvant s’´crire
                             e          e

            pθa (x) = exp xθi − b(θa ) + c(x) ,        1≤a≤K

      pour un certain param`tre θ ∈ RK
                           e
      L’algorithme reste le mˆme, seule la d´finition de la fonction
                             e              e
      kl est modifi´e - par exemple, pour des r´compenses de loi
                   e                          e
      exponentielle :
                                                   x
                        kl(x, y) = y − x + x log
                                                   y
      Une in´galit´ de d´viation analogue se prouve alors de la
            e     e     e
      mˆme fa¸on, et conduit aux mˆme bornes de regret
       e      c                      e
Et au del`...
                                     a


Bandits non stationnaires


       On autorise les distributions des r´compenses ` varier
                                          e          a
       brutalement au cours du temps
       L’objectif est alors de faire poursuivre le meilleur bras
       Application : dans un scanner ` effet tunel, la qualit´ de
                                     a                      e
       l’image d´pend d’un r´glage mais les distributions peuvent
                e            e
       brutalement changer en cas de d´placement inopin´ de la
                                       e                  e
       pointe
       On ´tudie alors D-UCB et SW-UCB [G. Moulines ’08],
           e
       variantes qui incluent un oubli (progressif) du pass´
                                                           e
                                              √
       On montre des bornes de regret en O( n log n), qui sont
       (presque) optimales
Et au del`...
                                     a


Bandits lin´aires / lin´aires g´n´ralis´s
           e           e       e e     e

       Mod`le de bandit avec information contextuelle :
          e

                            E[Xt |At ] = µ(mAt θ∗ )

       o` θ∗ ∈ Rd d´signe un param`tre inconnu et o` µ : R → R
        u            e               e                 u
       est la fonction de lien dans un mod`le lin´aire g´n´ralis´
                                          e      e       e e    e
       Exemple : pour des r´compenses binaires
                           e

                                              exp(x)
                             µ(x) =
                                            1 + exp(x)

       Application : publicit´ cibl´e sur internet
                             e     e
       GLM-UCB [Filippi, Capp´, G. ’10], borne de regret d´pendant
                              e                           e
       de d et pas du nombre d’actions possibles
Et au del`...
                                   a


Optimisation stochastique



      Objectif : trouver le maximum (ou les quantiles) d’une
      fonction f : C ⊂ Rd → R observ´e dans du bruit (ou pas)
                                      e
      Application : exposition aux ondes ´lectro-magn´tiques (indice
                                         e           e
      DAS = SAR)
      Mod´lisation : f est la r´alisation d’un processus Gaussien, ou
           e                    e
      alors fonction de faible norme dans le RKHS associ´ au noyau
                                                          e
      de ce processus
      GP-UCB : jouer le point x ∈ C pour lequel l’intervalle de
      confiance est le plus haut
Et au del`...
                                                 a


Processus de D´cision Markoviens
              e


   Le syst`me est dans un ´tat St qui ´volue de fa¸on markovienne :
          e               e           e           c

                    St+1 ∼ P (·; St , At ) et Rt = r(St , At ) +                            t

   Exemple / Benchmark : RiverSwim [Strehl&Littman’08]
              0.4          0.6             0.6                    0.6          0.6              0.6
   Action 1
                    0.6          0.35              0.35                 0.35         0.35
    R=5       1             2               3                     4             5               6     R=10000

                    0.05         0.05               0.05                0.05         0.4
   Action 2


                                                        courant
Et au del`...
                                     a


Optimisme pour les MDP
  Le paradigme optimiste conduit ` la recherche d’une matrice de
                                  a
  transition ”la plus avantageuse” dans un voisinage de son
  estimateur de maximum de vraisemblance.




  L’utilisation de voisinages de Kullback-Leibler, autoris´e par des
                                                          e
  in´galit´s de d´viations semblables ` celles montr´es plus haut,
    e     e       e                   a              e
  conduisent ` des algorithmes plus efficaces ayant de meilleures
               a
  propri´t´s
         ee

Contenu connexe

Tendances

Cours d'Analyse - FI-GL-SID
Cours d'Analyse - FI-GL-SIDCours d'Analyse - FI-GL-SID
Cours d'Analyse - FI-GL-SIDFATIHA AKEF
 
CAPES maths 2019 composition 2
CAPES maths 2019 composition 2CAPES maths 2019 composition 2
CAPES maths 2019 composition 2Dany-Jack Mercier
 
Ch2 Algorthmique Avancée - Récursivité
Ch2 Algorthmique Avancée - RécursivitéCh2 Algorthmique Avancée - Récursivité
Ch2 Algorthmique Avancée - Récursivitélotfibenromdhane
 
CAPES maths 2019 composition 1
CAPES maths 2019 composition 1CAPES maths 2019 composition 1
CAPES maths 2019 composition 1Dany-Jack Mercier
 
CAPES maths 2019 composition 1 (option informatique)
CAPES maths 2019 composition 1 (option informatique)CAPES maths 2019 composition 1 (option informatique)
CAPES maths 2019 composition 1 (option informatique)Dany-Jack Mercier
 
Ch3 Algorthmique Avancée - Méthodes Récursives
Ch3 Algorthmique Avancée - Méthodes RécursivesCh3 Algorthmique Avancée - Méthodes Récursives
Ch3 Algorthmique Avancée - Méthodes Récursiveslotfibenromdhane
 
Test d'évaluation math/physique
Test d'évaluation math/physiqueTest d'évaluation math/physique
Test d'évaluation math/physiqueCentre Epsilon
 
récursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de trirécursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de triYassine Anddam
 
Espace vectoriel euclidien
Espace vectoriel euclidienEspace vectoriel euclidien
Espace vectoriel euclidienTanger Outlets
 
Suite exercice
Suite exerciceSuite exercice
Suite exercicehassan1488
 
Chapitre 3 NP-complétude
Chapitre 3 NP-complétudeChapitre 3 NP-complétude
Chapitre 3 NP-complétudeSana Aroussi
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabouAchraf Manaa
 
Formulaire de thermodynamique
Formulaire de thermodynamiqueFormulaire de thermodynamique
Formulaire de thermodynamiqueCharles-Axel Dein
 
Matrices
MatricesMatrices
Matricesbades12
 
Mathématiques - Fonction génératrice
Mathématiques - Fonction génératriceMathématiques - Fonction génératrice
Mathématiques - Fonction génératriceLoïc Dilly
 

Tendances (20)

Cours d'Analyse - FI-GL-SID
Cours d'Analyse - FI-GL-SIDCours d'Analyse - FI-GL-SID
Cours d'Analyse - FI-GL-SID
 
Séries de Fourier
Séries de FourierSéries de Fourier
Séries de Fourier
 
CAPES maths 2019 composition 2
CAPES maths 2019 composition 2CAPES maths 2019 composition 2
CAPES maths 2019 composition 2
 
Ch2 Algorthmique Avancée - Récursivité
Ch2 Algorthmique Avancée - RécursivitéCh2 Algorthmique Avancée - Récursivité
Ch2 Algorthmique Avancée - Récursivité
 
CAPES maths 2019 composition 1
CAPES maths 2019 composition 1CAPES maths 2019 composition 1
CAPES maths 2019 composition 1
 
CAPES maths 2019 composition 1 (option informatique)
CAPES maths 2019 composition 1 (option informatique)CAPES maths 2019 composition 1 (option informatique)
CAPES maths 2019 composition 1 (option informatique)
 
Ch3 Algorthmique Avancée - Méthodes Récursives
Ch3 Algorthmique Avancée - Méthodes RécursivesCh3 Algorthmique Avancée - Méthodes Récursives
Ch3 Algorthmique Avancée - Méthodes Récursives
 
Test d'évaluation math/physique
Test d'évaluation math/physiqueTest d'évaluation math/physique
Test d'évaluation math/physique
 
récursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de trirécursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de tri
 
Arithmetique
ArithmetiqueArithmetique
Arithmetique
 
Espace vectoriel euclidien
Espace vectoriel euclidienEspace vectoriel euclidien
Espace vectoriel euclidien
 
Suite exercice
Suite exerciceSuite exercice
Suite exercice
 
Cours suite
Cours suiteCours suite
Cours suite
 
Chapitre 3 NP-complétude
Chapitre 3 NP-complétudeChapitre 3 NP-complétude
Chapitre 3 NP-complétude
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
 
Formulaire de thermodynamique
Formulaire de thermodynamiqueFormulaire de thermodynamique
Formulaire de thermodynamique
 
compte
comptecompte
compte
 
Matrices
MatricesMatrices
Matrices
 
Mathématiques - Fonction génératrice
Mathématiques - Fonction génératriceMathématiques - Fonction génératrice
Mathématiques - Fonction génératrice
 
Cours integrale riemann
Cours integrale riemannCours integrale riemann
Cours integrale riemann
 

Similaire à Bandits Algo KL-UCB par Garivier

Robust sequentiel learning
Robust sequentiel learningRobust sequentiel learning
Robust sequentiel learningCdiscount
 
chap 3 complexité (3).pdf
chap 3 complexité (3).pdfchap 3 complexité (3).pdf
chap 3 complexité (3).pdfdonixwm
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearChristian Robert
 
Td1 modelisation ess
Td1 modelisation essTd1 modelisation ess
Td1 modelisation essElsa von Licy
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Guesmi Amal
 
Suites numériques exercices corrigés
Suites numériques exercices corrigésSuites numériques exercices corrigés
Suites numériques exercices corrigésLamia Lazrak
 
Chapitre 2 -Complexité des problèmes avec correction.pdf
Chapitre 2 -Complexité des problèmes avec correction.pdfChapitre 2 -Complexité des problèmes avec correction.pdf
Chapitre 2 -Complexité des problèmes avec correction.pdfMbarkiIsraa
 
Euclidien12octobre
Euclidien12octobreEuclidien12octobre
Euclidien12octobreche7t
 
Algorithme d'approximation
Algorithme d'approximationAlgorithme d'approximation
Algorithme d'approximationMed Lassoued
 

Similaire à Bandits Algo KL-UCB par Garivier (20)

transparents-Algo-complexite.pdf
transparents-Algo-complexite.pdftransparents-Algo-complexite.pdf
transparents-Algo-complexite.pdf
 
DéNombrement
DéNombrementDéNombrement
DéNombrement
 
Slides 2040-2-0
Slides 2040-2-0Slides 2040-2-0
Slides 2040-2-0
 
Robust sequentiel learning
Robust sequentiel learningRobust sequentiel learning
Robust sequentiel learning
 
chap 3 complexité (3).pdf
chap 3 complexité (3).pdfchap 3 complexité (3).pdf
chap 3 complexité (3).pdf
 
Slide 2040-1-a2013
Slide 2040-1-a2013Slide 2040-1-a2013
Slide 2040-1-a2013
 
Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
Lmfi1
Lmfi1Lmfi1
Lmfi1
 
Td1 modelisation ess
Td1 modelisation essTd1 modelisation ess
Td1 modelisation ess
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)
 
Suites numériques exercices corrigés
Suites numériques exercices corrigésSuites numériques exercices corrigés
Suites numériques exercices corrigés
 
Mon intervention lors du Ciro10
Mon intervention lors du Ciro10Mon intervention lors du Ciro10
Mon intervention lors du Ciro10
 
Chapitre 2 -Complexité des problèmes avec correction.pdf
Chapitre 2 -Complexité des problèmes avec correction.pdfChapitre 2 -Complexité des problèmes avec correction.pdf
Chapitre 2 -Complexité des problèmes avec correction.pdf
 
Euclidien12octobre
Euclidien12octobreEuclidien12octobre
Euclidien12octobre
 
Algorithme d'approximation
Algorithme d'approximationAlgorithme d'approximation
Algorithme d'approximation
 
Oc1 2013
Oc1 2013Oc1 2013
Oc1 2013
 
Slide 2040-1
Slide 2040-1Slide 2040-1
Slide 2040-1
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
corr_exos.pdf
corr_exos.pdfcorr_exos.pdf
corr_exos.pdf
 

Plus de Cdiscount

Presentation r markdown
Presentation r markdown Presentation r markdown
Presentation r markdown Cdiscount
 
R2DOCX : R + WORD
R2DOCX : R + WORDR2DOCX : R + WORD
R2DOCX : R + WORDCdiscount
 
Fltau r interface
Fltau r interfaceFltau r interface
Fltau r interfaceCdiscount
 
Dataiku r users group v2
Dataiku   r users group v2Dataiku   r users group v2
Dataiku r users group v2Cdiscount
 
Paris2012 session4
Paris2012 session4Paris2012 session4
Paris2012 session4Cdiscount
 
Paris2012 session3b
Paris2012 session3bParis2012 session3b
Paris2012 session3bCdiscount
 
Scm prix blé_2012_11_06
Scm prix blé_2012_11_06Scm prix blé_2012_11_06
Scm prix blé_2012_11_06Cdiscount
 
Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06Cdiscount
 
State Space Model
State Space ModelState Space Model
State Space ModelCdiscount
 
Paris2012 session2
Paris2012 session2Paris2012 session2
Paris2012 session2Cdiscount
 
Paris2012 session1
Paris2012 session1Paris2012 session1
Paris2012 session1Cdiscount
 
Introduction à la cartographie avec R
Introduction à la cartographie avec RIntroduction à la cartographie avec R
Introduction à la cartographie avec RCdiscount
 
Prévisions trafic aérien
Prévisions trafic aérienPrévisions trafic aérien
Prévisions trafic aérienCdiscount
 
Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)Cdiscount
 
Premier pas de web scrapping avec R
Premier pas de  web scrapping avec RPremier pas de  web scrapping avec R
Premier pas de web scrapping avec RCdiscount
 
Incorporer du C dans R, créer son package
Incorporer du C dans R, créer son packageIncorporer du C dans R, créer son package
Incorporer du C dans R, créer son packageCdiscount
 

Plus de Cdiscount (20)

R Devtools
R DevtoolsR Devtools
R Devtools
 
Presentation r markdown
Presentation r markdown Presentation r markdown
Presentation r markdown
 
R2DOCX : R + WORD
R2DOCX : R + WORDR2DOCX : R + WORD
R2DOCX : R + WORD
 
Gur1009
Gur1009Gur1009
Gur1009
 
Fltau r interface
Fltau r interfaceFltau r interface
Fltau r interface
 
Dataiku r users group v2
Dataiku   r users group v2Dataiku   r users group v2
Dataiku r users group v2
 
Paris2012 session4
Paris2012 session4Paris2012 session4
Paris2012 session4
 
Paris2012 session3b
Paris2012 session3bParis2012 session3b
Paris2012 session3b
 
Scm prix blé_2012_11_06
Scm prix blé_2012_11_06Scm prix blé_2012_11_06
Scm prix blé_2012_11_06
 
Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06
 
Scm risques
Scm risquesScm risques
Scm risques
 
State Space Model
State Space ModelState Space Model
State Space Model
 
Paris2012 session2
Paris2012 session2Paris2012 session2
Paris2012 session2
 
Paris2012 session1
Paris2012 session1Paris2012 session1
Paris2012 session1
 
Introduction à la cartographie avec R
Introduction à la cartographie avec RIntroduction à la cartographie avec R
Introduction à la cartographie avec R
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Prévisions trafic aérien
Prévisions trafic aérienPrévisions trafic aérien
Prévisions trafic aérien
 
Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)
 
Premier pas de web scrapping avec R
Premier pas de  web scrapping avec RPremier pas de  web scrapping avec R
Premier pas de web scrapping avec R
 
Incorporer du C dans R, créer son package
Incorporer du C dans R, créer son packageIncorporer du C dans R, créer son package
Incorporer du C dans R, créer son package
 

Bandits Algo KL-UCB par Garivier

  • 1. L’algorithme KL-UCB pour les bandits born´s, et e au del` [arXiv:1102.2490] a Aur´lien Garivier et Olivier Capp´ e e CNRS & Telecom ParisTech 10 juin 2011
  • 2. Le mod`le e Plan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 3. Le mod`le e Apprentissage par renforcement Etat St dilemme exploration Agent Envir. Action At exploitation R´compense Xt e RL = apprentissage classique (notion de r´compense) e RL = th´orie des jeux (environnement indiff´rent) e e
  • 4. Le mod`le e Exemple : essais cliniques s´quentiels e Pour fixer les id´es, on consid`re le cas de figure suivant : e e probl`me : des patients atteints d’une certaine maladies sont e diagnostiqu´s au fil du temps e outils : on dispose de plusieurs traitements mal dont l’efficacit´ est a priori inconnue e d´roulement : on traite chaque patient avec un traitement, et on e observe le r´sultat (binaire) e objectif : soigner un maximum de patients (et pas connaˆıtre pr´cis´ment l’efficacit´ de chaque traitement) e e e
  • 5. Le mod`le e Le probl`me des bandits stochastiques e Environment K bras, param`tre θ = (θ1 , . . . , θK ) ∈ [0, 1]K e L’allocation de bras at ∈ {1, . . . , K} conduit `a r´compense e Yt = Xat ,t o` Xi,s = 1{Us ≤ θi }, pour 1 ≤ i ≤ K, s ≥ 1, et u iid (Us )s ∼ U[0, 1]. Strat´gie r`gle d’allocation dynamique : π = (π1 , π2 , . . . ) tq e e At = πt (Y1 , . . . , Yt−1 ) Nombre de tirages du bras b ∈ {1, . . . , K} : Ntπ (b) = 1{As = b} s≤t
  • 6. Le mod`le e Performance, regret R´compense cumul´e : Sn = Y1 + · · · + Yn , e e n≥1 Notre objectif : choisir π de mani`re ` maximiser e a n K E [Sn ] = E E [Yt 1{At = b}|Y1 , . . . , Yt−1 ] t=1 b=1 K π = θb E [Nn (b)] b=1 Objectif ´quivalent : minimiser le regret e Rn (θ) = nθ∗ − E [Sn ] = (θ∗ − θb )E [Nn (b)] π b:θb <θ∗ o` θ∗ = max{θb : 1 ≤ b ≤ K}. u
  • 7. Une borne inf´rieure pour le regret e Plan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 8. Une borne inf´rieure pour le regret e Strat´gie consistante e une strat´gie π est dite consistante si, pour tout θ ∈ [0, 1]K , e 1 E[Sn ] → θ∗ n c’est-`-dire si elle finit par se concentrer sur le meilleur a traitement elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0, Rn (θ) = o(na ) c’est-`-dire si le nombre de mauvais traitements adminsitr´s a e est sous-polynˆmial o on construit assez ais´ment des strat´gies efficaces, mais e e moins facilement des strat´gies optimales e
  • 9. Une borne inf´rieure pour le regret e La borne de Lai et Robbins Th´or`me [Lai&Robbins, ’85] e e Si π est une strat´gie efficace, alors pour tout θ ∈ [0, 1]K e Rn (θ) θ ∗ − θb lim inf ≥ n→∞ log(n) kl(θb , θ∗ ) b:θb <θ∗ o` u p 1−p kl(p, q) = p log + (1 − p) log q 1−q d´signe la divergence de Kullback-Leibler entre la loi B(p) et la loi e B(q), 0 ≤ p, q ≤ 1.
  • 10. KL-UCB : un algorithme optimiste Plan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 11. KL-UCB : un algorithme optimiste Principe d’optimisme Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95] Fais comme si tu te trouvais dans l’environnement qui t’est le plus favorable parmi tous ceux qui rendent les observations suffisamment vraisemblables De fa¸on plutˆt inattendue, les m´thodes optimistes se r´v`lent c o e e e pertinentes dans des cadres tr`s diff´rents, efficaces, robustes et e e simples ` mettre en oeuvre a
  • 12. KL-UCB : un algorithme optimiste Strat´gies ”Upper Confidence Bound” e UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07] Construit une UCB pour chaque bras : St (a) log(t) + Nt (a) 2Nt (a) r´compense moyenne estim´e e e bonus d’exploration Choisis le bras qui la plus grande UCB Avantage : comportement facilement interpr´table et “acceptable” e Borne sur le regret : 1 E[Rn ] ∗−θ ) log(n) ∗ 2(θ a a:θa <θ Politique d’indice : on calcule un indice par bras et on choisit celui qui est le plus ´lev´, cf. [Gittins ’79] e e
  • 13. KL-UCB : un algorithme optimiste UCB en action D´but e
  • 14. KL-UCB : un algorithme optimiste UCB en action D´but e
  • 15. KL-UCB : un algorithme optimiste KL-UCB Require: n (horizon), K (nb de bras), REWARD (r´compenses) e 1: for t = 1 to K do 2: N [t] ← 1 3: S[t] ← REWARD(arm = t) 4: end for 5: for t = K + 1 to n do 6: S[a] a ← arg max max q ∈ Θ : N [a] kl ,q ≤ log(t) 1≤a≤K N [a] 7: r ← REWARD(arm = a) 8: N [a] ← N [a] + 1 9: S[a] ← S[a] + r 10: end for
  • 16. KL-UCB : un algorithme optimiste R´gion de confiance KL e iid Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ) ps = (Z1 + · · · + Zs )/s, alors ˆ −log(α)/s P (ˆs < x) ≤ exp (−s kl(x, θ0 )) p 0 x θ0 Autrement dit, si α = exp (−s kl(x, θ0 )) : log(α) P (ˆs < x) = P kl(ˆs , θ0 ) > − p p , ps < θ ˆ ≤α s D’o` une borne de confiance sup´rieure pour p au risque α : u e log(α) us = sup θ > ps : kl(ˆs , θ) ≤ − ˆ p s
  • 17. KL-UCB : un algorithme optimiste R´gion de confiance KL e iid kl(ps,⋅) Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ) ps = (Z1 + · · · + Zs )/s, alors ˆ −log(α)/s P (ˆs < x) ≤ exp (−s kl(x, θ0 )) p 0 ps us Autrement dit, si α = exp (−s kl(x, θ0 )) : log(α) P (ˆs < x) = P kl(ˆs , θ0 ) > − p p , ps < θ ˆ ≤α s D’o` une borne de confiance sup´rieure pour p au risque α : u e log(α) us = sup θ > ps : kl(ˆs , θ) ≤ − ˆ p s
  • 18. KL-UCB : un algorithme optimiste Borne de regret Th´or`me[G., Capp´ ’11] : e e e Soit θ ∈ [0, 1]K , et soit b ∈ {1, . . . , K} tel que θb < θ∗ . Pour tout > 0 il existe C1 , C2 ( ) et β( ) tels que KL−U CB log(n) C2 ( ) E[Nn (b)] ≤ ∗) (1 + ) + C1 log(log(n)) + β( ) . kl(θb , θ n Corollaire : θ ∗ − θb Rn (θ) log(n) kl(θb , θ∗ ) b:θb <θ∗ =⇒ KL-UCB est asymptotiquement optimal, et on dispose d’une borne pour son regret en temps fini.
  • 19. KL-UCB : un algorithme optimiste Ingr´dient essentiel : d´viations auto-normalis´es e e e Pour l’analyse, il faut contrˆler les d´viations auto-normalis´es, o e e mesur´es dans la bonne m´trique, de la moyenne empirique : e e Th´or`me e e Soit (Xt )t ≥ 1 une suite de v.a. ind´pendantes de loi B(θ) sur e (Ω, F, P). Soit Ft be une suite croissante de tribus de F tq ∀t, σ(X1 . . . , Xt ) ⊂ Ft et pour s > t, Xs est ind´pendante de Ft . e Soit( t )t≥1 une suite pr´visible de variables de Bernoulli. On e d´finit, pour tout δ > 0 : e n n ˆ S(n) S(n) = s Xs , N (n) = s , θ(n) = , N (n) s=1 s=1 ˆ ˆ u(n) = max q > θn : N (n)d θ(n), q ≤ δ . Alors P (u(n) < θ) ≤ e δ log(n) exp(−δ) P N (n)d(ˆ(n), θ) > δ ≤ 2e δ log(n) exp(−δ) µ
  • 20. KL-UCB : un algorithme optimiste Simulations : sc´nario ` deux bras e a 500 4000 450 UCB 3500 MOSS 400 UCB−Tuned 3000 UCB−V 350 DMED KL−UCB 2500 300 bound N (n) N (n) 2000 2 250 2 200 1500 150 1000 100 500 50 0 0 UCB MOSS UCB−Tuned UCB−V DMED KL−UCB 2 3 4 10 10 10 n (log scale) Fig.: Performance de diff´rents algorithmes dans le sc´nario ` deux bras e e a o` θ = (0.9, 0.8). A gauche : nombre moyen de tirages du bras u sous-optimal en fonction du temps. A droite : distribution du nombre de tirages du bras 2 au temps n = 5000. R´sultats bas´s sur 50000 e e exp´riences ind´pendantes. e e
  • 21. KL-UCB : un algorithme optimiste Simulations : sc´nario ` r´compenses faibles e a e UCB MOSS UCB−V 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 3 4 0 2 3 4 0 2 3 4 10 10 10 10 10 10 10 10 10 UCB−Tuned DMED KL−UCB 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 0 2 0 2 10 103 104 10 103 104 10 103 104 CP−UCB DMED+ KL−UCB+ 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 0 2 0 2 10 103 104 10 103 104 10 103 104 n (log scale) n (log scale) n (log scale) Fig.: Regrets de diff´rents algorithmes en fonction du temps pour un e sc´nario ` dix bras o` e a u θ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rouge pointill´e : borne inf´rieure de Lai&Robbins. Ligne ´paisse : regret moyen. e e e R´gions gris´es : r´gion centrale ` 99% et le quantile ` 99, 95%. e e e a a
  • 22. Et au del`... a Plan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 23. Et au del`... a R´compenses born´es e e Il suffit de ramener les r´compenses dans [0, 1], et on peut utiliser e le mˆme algorithme KL-UCB et obtenir les mˆmes bornes de regret e e grˆce au a Lemme : soit X une variable al´atoire ` valeur dans [0, 1], et soit µ = E[X]. e a Alors, pour tout λ ∈ R, E [exp(λX)] ≤ 1 − µ + µ exp(λ) . KL-UCB fait toujours mieux que UCB : In´galit´ de Pinsker e e kl(µ1 , µ2 ) ≥ 2(µ1 − µ2 )2 Toutefois, il peut y avoir mieux ` faire si les distributions des a r´compenses ont une faible variance par rapport ` la loi de e a Bernoulli correspondante.
  • 24. Et au del`... a Comparaison UCB vs KL-UCB 1 0.9 kl(0.7, q) 0.8 2(0.7−q)2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 1.2 q
  • 25. Et au del`... a Simulations : exponentielles born´es e 1200 UCB MOSS UCB−Tuned 1000 UCB−V KL−UCB KL−UCB−exp 800 n R 600 400 200 0 2 3 4 10 10 10 n (log scale) Fig.: Regret de diff´rentes politiques en fonction du temps, sur le e sc´nario des exponentielles born´es. e e
  • 26. Et au del`... a R´compenses dans la famille exponentielle e La mˆme preuve se g´n´ralise directement ` des r´compenses e e e a e dont les distributions admettent par rapport ` une mesure a dominante une densit´ pouvant s’´crire e e pθa (x) = exp xθi − b(θa ) + c(x) , 1≤a≤K pour un certain param`tre θ ∈ RK e L’algorithme reste le mˆme, seule la d´finition de la fonction e e kl est modifi´e - par exemple, pour des r´compenses de loi e e exponentielle : x kl(x, y) = y − x + x log y Une in´galit´ de d´viation analogue se prouve alors de la e e e mˆme fa¸on, et conduit aux mˆme bornes de regret e c e
  • 27. Et au del`... a Bandits non stationnaires On autorise les distributions des r´compenses ` varier e a brutalement au cours du temps L’objectif est alors de faire poursuivre le meilleur bras Application : dans un scanner ` effet tunel, la qualit´ de a e l’image d´pend d’un r´glage mais les distributions peuvent e e brutalement changer en cas de d´placement inopin´ de la e e pointe On ´tudie alors D-UCB et SW-UCB [G. Moulines ’08], e variantes qui incluent un oubli (progressif) du pass´ e √ On montre des bornes de regret en O( n log n), qui sont (presque) optimales
  • 28. Et au del`... a Bandits lin´aires / lin´aires g´n´ralis´s e e e e e Mod`le de bandit avec information contextuelle : e E[Xt |At ] = µ(mAt θ∗ ) o` θ∗ ∈ Rd d´signe un param`tre inconnu et o` µ : R → R u e e u est la fonction de lien dans un mod`le lin´aire g´n´ralis´ e e e e e Exemple : pour des r´compenses binaires e exp(x) µ(x) = 1 + exp(x) Application : publicit´ cibl´e sur internet e e GLM-UCB [Filippi, Capp´, G. ’10], borne de regret d´pendant e e de d et pas du nombre d’actions possibles
  • 29. Et au del`... a Optimisation stochastique Objectif : trouver le maximum (ou les quantiles) d’une fonction f : C ⊂ Rd → R observ´e dans du bruit (ou pas) e Application : exposition aux ondes ´lectro-magn´tiques (indice e e DAS = SAR) Mod´lisation : f est la r´alisation d’un processus Gaussien, ou e e alors fonction de faible norme dans le RKHS associ´ au noyau e de ce processus GP-UCB : jouer le point x ∈ C pour lequel l’intervalle de confiance est le plus haut
  • 30. Et au del`... a Processus de D´cision Markoviens e Le syst`me est dans un ´tat St qui ´volue de fa¸on markovienne : e e e c St+1 ∼ P (·; St , At ) et Rt = r(St , At ) + t Exemple / Benchmark : RiverSwim [Strehl&Littman’08] 0.4 0.6 0.6 0.6 0.6 0.6 Action 1 0.6 0.35 0.35 0.35 0.35 R=5 1 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 Action 2 courant
  • 31. Et au del`... a Optimisme pour les MDP Le paradigme optimiste conduit ` la recherche d’une matrice de a transition ”la plus avantageuse” dans un voisinage de son estimateur de maximum de vraisemblance. L’utilisation de voisinages de Kullback-Leibler, autoris´e par des e in´galit´s de d´viations semblables ` celles montr´es plus haut, e e e a e conduisent ` des algorithmes plus efficaces ayant de meilleures a propri´t´s ee