SlideShare une entreprise Scribd logo
1  sur  284
Télécharger pour lire hors ligne
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)




                              Nouveaux outils informatiques
                              pour la Statistique exploratoire
                                        (=NOISE)

                                               Christian P. Robert

                                          Universit´ Paris Dauphine
                                                   e
                                  http://www.ceremade.dauphine.fr/~xian


                                             L3 MI2E, 2009–2010
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)




Outline


      1    Simulation de variables al´atoires
                                     e

      2    M´thodes de Monte Carlo
            e

      3    M´thode du bootstrap
            e

      4    Statistique non–param´trique
                                e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e




Chapitre 1 :
Simulation de variables al´atoires
                          e


                Introduction
                G´n´rateur pseudo-al´atoire
                  e e                e
                Distributions non-uniformes (1)
                Distributions non-uniformes (2)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Introduction

       Besoin de “produire le hasard” par ordinateur
               Evaluer le comportement d’un syst`me complexe (programme,
                                                  e
               r´seau, file d’attente, syst`me de particules, atmosph`re,
                e                         e                         e
               ´pid´mie, actions...)
               e e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Introduction

       Besoin de “produire le hasard” par ordinateur
               Evaluer le comportement d’un syst`me complexe (programme,
                                                  e
               r´seau, file d’attente, syst`me de particules, atmosph`re,
                e                         e                         e
               ´pid´mie, actions...)
               e e
               D´terminer les propri´t´s probabilistes d’une proc´dure
                 e                  ee                           e
               statistique non-standard ou sous une loi inconnue [bootstrap]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Introduction

       Besoin de “produire le hasard” par ordinateur
               Evaluer le comportement d’un syst`me complexe (programme,
                                                  e
               r´seau, file d’attente, syst`me de particules, atmosph`re,
                e                         e                         e
               ´pid´mie, actions...)
               e e
               D´terminer les propri´t´s probabilistes d’une proc´dure
                 e                  ee                           e
               statistique non-standard ou sous une loi inconnue [bootstrap]
               Validation d’un mod`le probabiliste
                                  e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Introduction

       Besoin de “produire le hasard” par ordinateur
               Evaluer le comportement d’un syst`me complexe (programme,
                                                  e
               r´seau, file d’attente, syst`me de particules, atmosph`re,
                e                         e                         e
               ´pid´mie, actions...)
               e e
               D´terminer les propri´t´s probabilistes d’une proc´dure
                 e                  ee                           e
               statistique non-standard ou sous une loi inconnue [bootstrap]
               Validation d’un mod`le probabiliste
                                  e
               Approcher une esp´rance/int´grale sous une loi non-standard
                                  e       e
               [loi des grands nombres]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Introduction

       Besoin de “produire le hasard” par ordinateur
               Evaluer le comportement d’un syst`me complexe (programme,
                                                  e
               r´seau, file d’attente, syst`me de particules, atmosph`re,
                e                         e                         e
               ´pid´mie, actions...)
               e e
               D´terminer les propri´t´s probabilistes d’une proc´dure
                 e                  ee                           e
               statistique non-standard ou sous une loi inconnue [bootstrap]
               Validation d’un mod`le probabiliste
                                  e
               Approcher une esp´rance/int´grale sous une loi non-standard
                                  e       e
               [loi des grands nombres]
               Maximiser une fonction/vraisemblance faiblement r´guli`re
                                                                e e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction




       Example (TCL pour la loi binomiale)
       Si
                                                  Xn ∼ B(n, p) ,
       Xn converge en loi vers la loi normale :
                                  √                    n→∞                     p(1 − p)
                                        n (Xn − p)              N         0,
                                                                                  n
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction




                                                         n= 4                                                                                 n= 8                                                                                     n= 16




                                                                                                 10 15 20 25




                                                                                                                                                                                        20
          30




                                                                                                                                                                                        15
          20




                                                                                                                                                                                        10
          10




                                                                                                                                                                                        5
                                                                                                 5
          0




                                                                                                 0




                                                                                                                                                                                        0
                         0.0      0.2              0.4           0.6            0.8        1.0                   0.0      0.2           0.4            0.6      0.8              1.0                       0.2         0.3     0.4    0.5      0.6          0.7      0.8      0.9




                                                         n= 32                                                                                n= 64                                                                                   n= 128
          14




                                                                                                 10 15 20 25




                                                                                                                                                                                        15
          0 2 4 6 8 10




                                                                                                                                                                                        10
                                                                                                                                                                                        5
                                                                                                 5
                                                                                                 0




                                                                                                                                                                                        0
                         0.2    0.3          0.4          0.5          0.6          0.7    0.8                   0.3            0.4              0.5                0.6                                  0.35      0.40        0.45    0.50     0.55          0.60         0.65




                                                     n= 256                                                                               n= 512                                                                                      n= 1024
          30




                                                                                                                                                                                        10 20 30 40 50
                                                                                                 5 10 15 20 25
          20
          5 10
          0




                                                                                                 0




                                                                                                                                                                                        0
                         0.40         0.45               0.50                0.55         0.60                   0.44   0.46     0.48     0.50     0.52      0.54         0.56   0.58                           0.46         0.48     0.50           0.52         0.54
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction




       Example (Minimisation al´atoire)
                               e
       On consid`re la fonction
                e

               h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)
                               + (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

        ` minimiser.
        a
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction




       Example (Minimisation al´atoire)
                               e
       On consid`re la fonction
                e

               h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)
                               + (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

        ` minimiser. (On sait que le minimum global vaut 0 en
        a
       (x, y) = (0, 0).)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction
       6
       5
       Z
       34
           21
            0




               1




                    0.5
                                                                                        1




                                                                                  0.5
                             0
                                 Y

                                                                              0
                                                                          X
                                        -0.5

                                                                  -0.5




                                                 -1
                                                      -1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



       Example (Minimisation al´atoire (2))
                               e
       Au lieu de chercher ` r´soudre les ´quations du premier ordre
                           a e            e

                                          ∂h(x, y)      ∂h(x, y)
                                                   = 0,          =0
                                            ∂x            ∂y
       et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite
          a e                                                e e
       al´atoire dans R
         e               2

                                                         αj
                                        θj+1 = θj +          ∆h(θj , βj ζj ) ζj
                                                         2βj
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



       Example (Minimisation al´atoire (2))
                               e
       Au lieu de chercher ` r´soudre les ´quations du premier ordre
                           a e            e

                                          ∂h(x, y)      ∂h(x, y)
                                                   = 0,          =0
                                            ∂x            ∂y
       et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite
          a e                                                e e
       al´atoire dans R
         e               2

                                                         αj
                                        θj+1 = θj +          ∆h(θj , βj ζj ) ζj
                                                         2βj

        o`
         u
           ⋄ les ζj sont uniformes sur le cercle unit´ x2 + y 2 = 1;
                                                     e
           ⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);
           ⋄ (αj ) et (βj ) tendent vers 0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction




                    0.8
                    0.6
                    0.4
                    0.2




                          -0.2          0.0             0.2               0.4   0.6




                                 Cas o` αj = 1/10 log(1 + j) et βj = 1/j
                                      u
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me du voyageur de commerce
     e



       Probl`me classique d’allocation:
            e
            Repr´sentant devant visiter
                e
            un ensemble de n villes
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me du voyageur de commerce
     e



       Probl`me classique d’allocation:
            e
            Repr´sentant devant visiter
                e
            un ensemble de n villes
            Coˆts de voyages entre deux
                u
            villes fix´s [et diff´rents]
                     e         e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me du voyageur de commerce
     e



       Probl`me classique d’allocation:
            e
            Repr´sentant devant visiter
                e
            un ensemble de n villes
            Coˆts de voyages entre deux
                u
            villes fix´s [et diff´rents]
                     e         e
            Recherche du coˆt global
                           u
            minimum
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me du voyageur de commerce
     e



       Probl`me classique d’allocation:
            e
            Repr´sentant devant visiter
                e
            un ensemble de n villes
            Coˆts de voyages entre deux
                u
            villes fix´s [et diff´rents]
                     e         e
            Recherche du coˆt global
                           u
            minimum
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me NP-complet
     e

       Probl`me du voyageur de
            e
       commerce repr´sentatif de
                     e
       probl`mes math´matiques
            e          e
       durs ` temps de r´solution
            a            e
       explosifs
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me NP-complet
     e

       Probl`me du voyageur de
             e
       commerce repr´sentatif de
                       e
       probl`mes math´matiques
            e            e
       durs ` temps de r´solution
            a              e
       explosifs
       Nombre de chemins possibles
       n! et solutions exactes
       disponibles en temps O(2n )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me NP-complet
     e

       Probl`me du voyageur de
             e
       commerce repr´sentatif de
                       e
       probl`mes math´matiques
            e            e
       durs ` temps de r´solution
            a              e
       explosifs
       Nombre de chemins possibles
       n! et solutions exactes
       disponibles en temps O(2n )
       Probl`me ` nombreuses
             e    a
       applications (r´seaux,
                      e
       conception de circuits
       imprim´s, s´quen¸age de
               e e         c
       g´nome, etc.)
        e                                                           Concours Procter & Gamble
                                                                    1962
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me toujours ouvert
     e




   Solution exacte pour 15, 112
   villes allemandes trouv´e en 2001
                          e
   en 22.6 ann´es CPU.
                e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Probl`me toujours ouvert
     e




   Solution exacte pour 15, 112                                   R´solution pour les 24, 978 villes
                                                                    e
   villes allemandes trouv´e en 2001
                          e                                       su´doises en 2004 en 84.8 ann´es
                                                                     e                            e
   en 22.6 ann´es CPU.
                e                                                 CPU
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



R´solution par simulation
 e

       Algorithme du recuit simul´:
                                 e
       R´p´ter
        e e
               Modifications al´atoires de parties du circuit de coˆt C0
                              e                                   u
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



R´solution par simulation
 e

       Algorithme du recuit simul´:
                                 e
       R´p´ter
        e e
               Modifications al´atoires de parties du circuit de coˆt C0
                              e                                   u
               Evaluation du coˆt C du nouveau circuit
                               u
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



R´solution par simulation
 e

       Algorithme du recuit simul´:
                                 e
       R´p´ter
        e e
               Modifications al´atoires de parties du circuit de coˆt C0
                              e                                   u
               Evaluation du coˆt C du nouveau circuit
                               u
               Acceptation du nouveau circuit avec probabilit´
                                                             e

                                                             C0 − C
                                                  exp                     ∧1
                                                               T
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



R´solution par simulation
 e

       Algorithme du recuit simul´:
                                 e
       R´p´ter
        e e
               Modifications al´atoires de parties du circuit de coˆt C0
                              e                                   u
               Evaluation du coˆt C du nouveau circuit
                               u
               Acceptation du nouveau circuit avec probabilit´
                                                             e

                                                             C0 − C
                                                  exp                     ∧1
                                                               T

       T , temp´rature, est r´duite progressivement.
               e             e
                                                                               [Metropolis, 1953]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Illustration

       Example (400 villes)




                                                        T = 1.2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Illustration

       Example (400 villes)




                                                        T = 0.8
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Illustration

       Example (400 villes)




                                                        T = 0.4
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Illustration

       Example (400 villes)




                                                        T = 0.0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Pricing d’options

       Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ],
                             e
       n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ]
        e              e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Pricing d’options

       Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ],
                             e
       n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ]
        e              e

       Example (Options europ´ennes)
                             e
       Cas o`
            u
                                                CT = (ST − K)+
       avec

            ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Pricing d’options

       Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ],
                             e
       n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ]
        e              e

       Example (Options europ´ennes)
                             e
       Cas o`
            u
                                                CT = (ST − K)+
       avec

            ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

       R´solution par simulation des binomiales Yi
        e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Pricing d’options (suite)


       Example (Options asiatiques)
       Mod`le en temps continu o`
          e                     u

                                                               +              T                +
                                            T
                               1                                          1
                CT =                            S(t)dt − K         ≈                S(n) − K       ,
                               T        0                                 T
                                                                              n=1

       avec
                                                                                       iid
             S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Introduction



Pricing d’options (suite)


       Example (Options asiatiques)
       Mod`le en temps continu o`
          e                     u

                                                               +              T                +
                                            T
                               1                                          1
                CT =                            S(t)dt − K         ≈                S(n) − K       ,
                               T        0                                 T
                                                                              n=1

       avec
                                                                                       iid
             S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) .

       R´solution par simulation des normales ∆Xi
        e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e



G´n´rateur pseudo-al´atoire
 e e                e
       El´ment central des m´thodes de simulation : elles reposent toutes
         e                    e
       sur la transformation de variables uniformes U (0, 1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e



G´n´rateur pseudo-al´atoire
 e e                e
       El´ment central des m´thodes de simulation : elles reposent toutes
         e                    e
       sur la transformation de variables uniformes U (0, 1)
       Definition (G´n´rateur pseudo-al´atoire)
                   e e                e
       Un g´n´rateur pseudo-al´atoire est une transformation
             e e                  e
       d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur
         e
       initiale u0 et tout n, la suite

                                   {u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )}

       a le mˆme comportement statistique qu’une suite iid U (0, 1)
             e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e



G´n´rateur pseudo-al´atoire
 e e                e
       El´ment central des m´thodes de simulation : elles reposent toutes
         e                    e
       sur la transformation de variables uniformes U (0, 1)
       Definition (G´n´rateur pseudo-al´atoire)
                   e e                e
       Un g´n´rateur pseudo-al´atoire est une transformation
             e e                  e
       d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur
         e
       initiale u0 et tout n, la suite

                                   {u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )}

       a le mˆme comportement statistique qu’une suite iid U (0, 1)
             e

       ¡Paradoxe!
       Sans appel au “hasard”, la suite d´terministe
                                            e
       (u0 , u1 = Ψ(u0 ), . . . , un = Ψ(un−1 ))
       doit ressembler ` une suite al´atoire
                        a               e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e




       En R, appel ` la proc´dure
                   a        e
       runif( )
       Description:
       ‘runif’ generates random deviates.
       Example:
       u = runif(20)
       ‘Random.seed’ is an integer vector, containing the random number
       generator (RNG) state for random number generation in R. It can
       be saved and restored, but should not be altered by the user.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e




                    0.0 0.2 0.4 0.6 0.8 1.0




                                              500   520    540                    560   580   600

                                                                 uniform sample
                    1.5
                    1.0
                    0.5
                    0.0




                                              0.0   0.2    0.4                    0.6   0.8   1.0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e




       En C, appel ` la proc´dure
                   a        e

       rand() / random()
       SYNOPSIS
       # include <stdlib.h>
       long int random(void);
       DESCRIPTION
       The random() function uses a non-linear additive feedback random
       number generator employing a default table of size 31 long
       integers to return successive pseudo-random numbers in the range
       from 0 to RAND MAX. The period of this random generator is
       very large, approximately 16*((2**31)-1).
       RETURN VALUE
       random() returns a value between 0 and RAND MAX.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e




       En Scilab, appel ` la proc´dure
                        a        e
       rand()
       rand() : with no arguments gives a scalar whose value changes
       each time it is referenced. By default, random numbers are
       uniformly distributed in the interval (0,1). rand(’normal’) switches
       to a normal distribution with mean 0 and variance 1.
       rand(’uniform’) switches back to the uniform distribution
       EXAMPLE
       x=rand(10,10,’uniform’)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e



       Example (G´n´rateur usuel)
                 e e
       Le g´n´rateur congruenciel
           e e

                                                                D(x) = (ax + b) mod (M + 1).

       est de p´riode M pour les bons choix de (a, b) et se transforme en
               e
       g´n´rateur sur ]0, 1[ par division par M + 2.
        e e
                                                                v = u*69069069 (1)




                                                                                                        1.0
                      0.0 0.2 0.4 0.6 0.8 1.0 1.2




                                                                                                        0.8
                                                                                                        0.6
                                                                                                 t+1

                                                                                                        0.4
                                                                                                        0.2
                                                                                                        0.0
                                                    0.0   0.2     0.4        0.6     0.8   1.0                0.0   0.2   0.4       0.6   0.8   1.0

                                                                                                                                t
                      1.0




                                                                                                        1.0
                      0.8




                                                                                                        0.8
                      0.6




                                                                                                        0.6
                                                                                                 t+10
                t+5

                      0.4




                                                                                                        0.4
                      0.2




                                                                                                        0.2
                      0.0




                                                                                                        0.0




                                                    0.0   0.2     0.4        0.6     0.8   1.0                0.0   0.2   0.4       0.6   0.8   1.0

                                                                        t                                                       t
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     G´n´rateur pseudo-al´atoire
      e e                e




       Conclusion :
       Utiliser la fonction appropri´e sur l’ordinateur ou le logiciel en
                                    e
       service plutˆt que de construire un g´n´rateur al´atoire de
                    o                         e e         e
       mauvaise qualit´ e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Autres distributions que la loi uniforme (1)

       Probl`me r´gl´ en principe puisque
            e    e e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Autres distributions que la loi uniforme (1)

       Probl`me r´gl´ en principe puisque
            e    e e

       Theorem (Inversion g´n´rique)
                           e e
       Si U est une variable al´atoire uniforme sur [0, 1) et FX est la
                               e
                                                  −1
       fonction de r´partition de la variable X, FX (U ) a mˆme loi que X
                    e                                         e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Autres distributions que la loi uniforme (1)

       Probl`me r´gl´ en principe puisque
            e    e e

       Theorem (Inversion g´n´rique)
                           e e
       Si U est une variable al´atoire uniforme sur [0, 1) et FX est la
                               e
                                                  −1
       fonction de r´partition de la variable X, FX (U ) a mˆme loi que X
                    e                                         e

       Preuve. On a
                               −1
                           P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Autres distributions que la loi uniforme (1)

       Probl`me r´gl´ en principe puisque
            e    e e

       Theorem (Inversion g´n´rique)
                           e e
       Si U est une variable al´atoire uniforme sur [0, 1) et FX est la
                               e
                                                  −1
       fonction de r´partition de la variable X, FX (U ) a mˆme loi que X
                    e                                         e

       Preuve. On a
                               −1
                           P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x)

       Note. Si FX n’est pas strictement croissante, on prend
                                         −1
                                        FX (u) = inf {x; FX (x) ≥ u}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Applications...
               Loi binomiale, B(n, p),

                                                                  n i
                                         FX (x) =                   p (1 − p)n−i
                                                                  i
                                                         i≤x

                   −1
               et FX (u) s’obtient num´riquement
                                      e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Applications...
               Loi binomiale, B(n, p),

                                                                  n i
                                         FX (x) =                   p (1 − p)n−i
                                                                  i
                                                         i≤x

                   −1
               et FX (u) s’obtient num´riquement
                                      e
               Loi exponentielle, E xp(λ),
                                                                           −1
                     FX (x) = 1 − exp(λx)                        et       FX (u) = − log(u)/λ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Applications...
               Loi binomiale, B(n, p),

                                                                  n i
                                         FX (x) =                   p (1 − p)n−i
                                                                  i
                                                         i≤x

                   −1
               et FX (u) s’obtient num´riquement
                                      e
               Loi exponentielle, E xp(λ),
                                                                           −1
                     FX (x) = 1 − exp(λx)                        et       FX (u) = − log(u)/λ


               Loi de Cauchy, C (0, 1),
                                 1            1                            −1
               FX (x) =            arctan(x)+                    et       FX (u) = tan(π(u−1/2))
                                 π            2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Autres transformations...
       [Indice]
       Trouver des transformations reliant la loi d’int´rˆt et des lois plus
                                                       ee
       simples/mieux connues
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Autres transformations...
       [Indice]
       Trouver des transformations reliant la loi d’int´rˆt et des lois plus
                                                       ee
       simples/mieux connues

       Example (Transformation de Box-M¨ller)
                                       u
                                                                          i.i.d.
       Pour la loi normale N (0, 1), si X1 , X2 ∼ N (0, 1),

                      X1 + X2 ∼ χ2 ,
                       2    2
                                 2                     arctan(X1 /X2 ) ∼ U ([0, 2π])

                                                                [Jacobien]
       Comme χ2 est identique ` E xp(1/2), il vient par inversion
              2               a

       X1 =           −2 log(U1 ) sin(2πU2 )                      X2 =             −2 log(U1 ) cos(2πU2 )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)




       Example
       Les lois de Student et de Fisher se d´duisent naturellement de la
                                             e
       loi normale et de la loi du chi-deux.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)




       Example
       Les lois de Student et de Fisher se d´duisent naturellement de la
                                             e
       loi normale et de la loi du chi-deux.

       Example
       La loi de Cauchy se d´duit de la loi normale par : si
                            e
               i.i.d.
       X1 , X2 ∼ N (0, 1), X1 /X2 ∼ C (0, 1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)




       Example
       La loi Beta B(α, β), de densit´
                                     e

                                                Γ(α + β) α−1
                                 fX (x) =                x   (1 − x)β−1 ,
                                                Γ(α)Γ(β)

       s’obtient ` partir de la loi gamma par: si X1 ∼ G a(α, 1),
                 a
       X2 ∼ G a(β, 1), alors

                                                X1
                                                      ∼ B(α, β)
                                              X1 + X2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Lois multidimensionnelles


       Soit ` g´n´rer dans Rp
            a e e

                                        (X1 , . . . , Xp ) ∼ f (x1 , . . . , xp )

       dont les composantes ne sont pas n´cessairement ind´pendantes
                                         e                e
       Cascade rule

        f (x1 , . . . , xp ) = f1 (x1 ) × f2|1 (x2 |x1 ) . . . × fp|−p (xp |x1 , . . . , xp−1 )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (1)



Impl´mentation
    e



        Simuler pour t = 1, . . . , T
            1    X1 ∼ f1 (x1 )
            2    X2 ∼ f2|1 (x2 |x1 )
                 .
                 .
                 .
           p. Xp ∼ fp|−p (xp |x1 , . . . , xp−1 )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Autres distributions que la loi uniforme (2)




                −1
               FX rarement disponible
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Autres distributions que la loi uniforme (2)




                −1
               FX rarement disponible
               algorithme r´sident sur machine seulement pour lois usuelles
                           e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Autres distributions que la loi uniforme (2)




                −1
               FX rarement disponible
               algorithme r´sident sur machine seulement pour lois usuelles
                           e
               lemme d’inversion ne s’applique qu’en dimension 1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Autres distributions que la loi uniforme (2)




                −1
               FX rarement disponible
               algorithme r´sident sur machine seulement pour lois usuelles
                           e
               lemme d’inversion ne s’applique qu’en dimension 1
               nouvelle distribution demandant r´solution rapide
                                                e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



 M´thode d’acceptation–rejet
  e
       Distribution de densit´ f ` simuler
                             e a
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



 M´thode d’acceptation–rejet
  e
       Distribution de densit´ f ` simuler
                             e a

       Theorem (fondamental de la simulation)




                                                                                 0.25
       La loi uniforme sur le sous-graphe




                                                                                 0.20
           Sf = {(x, u); 0 ≤ u ≤ f (x)}




                                                                                 0.15
                                                                          f(x)

                                                                                 0.10
       a comme loi marginale en x la loi
       de densit´ f .
                e

                                                                                 0.05
                                                                                 0.00
                                                                                        0   2   4       6   8   10

                                                                                                    x
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Raison :
       Loi marginale donn´e par
                         e
                                                ∞
                                                    I0≤u≤f (x) du = f (x)
                                            0

       et ind´pendance ` la constante de normalisation
             e         a
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Raison :
       Loi marginale donn´e par
                         e
                                                ∞
                                                    I0≤u≤f (x) du = f (x)
                                            0

       et ind´pendance ` la constante de normalisation
             e         a

       Example
       Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans

                                        {(u, x); 0 ≤ u ≤ exp(−x2 /2)}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Algorithme d’acceptation-rejet
           1   Trouver une densit´ g simulable telle que
                                 e

                                                         f (x)
                                                  sup          =M <∞
                                                    x    g(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Algorithme d’acceptation-rejet
           1   Trouver une densit´ g simulable telle que
                                 e

                                                          f (x)
                                                  sup           =M <∞
                                                      x   g(x)

           2   G´n´rer
                e e
                                             i.i.d.                          i.i.d.
                             Y1 , Y2 , . . . ∼ g ,               U1 , U2 , . . . ∼ U ([0, 1])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Algorithme d’acceptation-rejet
           1   Trouver une densit´ g simulable telle que
                                 e

                                                          f (x)
                                                  sup           =M <∞
                                                      x   g(x)

           2   G´n´rer
                e e
                                             i.i.d.                          i.i.d.
                             Y1 , Y2 , . . . ∼ g ,               U1 , U2 , . . . ∼ U ([0, 1])


           3   Prendre X = Yk o`
                               u

                                        k = inf{n ; Un ≤ f (Yn )/M g(Yn )}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)


       Theorem (Acceptation–rejet)
       La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e
                                    e         e                         e
       suivant la loi fX
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)


       Theorem (Acceptation–rejet)
       La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e
                                    e         e                         e
       suivant la loi fX

       Preuve (1) : On a
                                        ∞
       P (X ≤ x) =                          P (X = Yk , Yk ≤ x)
                                    k=1
                                     ∞                     k−1
                                                   1
                             =               1−                  P (Uk ≤ f (Yk )/M g(Yk ) , Yk ≤ x)
                                                   M
                                    k=1
                                     ∞                     k−1       x        f (y)/M g(y)
                                                   1
                             =               1−                                              du g(y)dy
                                                   M                −∞    0
                                    k=1
                                     ∞                     k−1            x
                                                   1              1
                             =               1−                                f (y)dy
                                                   M              M       −∞
                                    k=1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Preuve (2)




                                                                          5
                                                                          4
       Si (X, U ) est uniforme sur




                                                                          3
       A ⊃ B, la distribution de (X, U )




                                                                          2
       retreinte ` B est uniforme sur B.
                 a




                                                                          1
                                                                          0
                                                                              −4   −2   0   2   4
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Propri´t´s
      e e



               Fonctionne sans constante de normalisation
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Propri´t´s
      e e



               Fonctionne sans constante de normalisation
               Ne n´cessite pas une borne exacte M
                   e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Propri´t´s
      e e



               Fonctionne sans constante de normalisation
               Ne n´cessite pas une borne exacte M
                   e
               Autorise le recyclage des Yk pour une autre loi f (les Yk
               refus´s ne sont plus de loi g)
                    e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Propri´t´s
      e e



               Fonctionne sans constante de normalisation
               Ne n´cessite pas une borne exacte M
                   e
               Autorise le recyclage des Yk pour une autre loi f (les Yk
               refus´s ne sont plus de loi g)
                    e
               Demande en moyenne M va Yk pour un X (mesure
               d’efficacit´)
                        e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Example
       Soit f (x) = exp(−x2 /2) et g(x) = 1/(1 + x2 )

                                        f (x)                2       √
                                              = (1 + x2 ) e−x /2 ≤ 2/ e
                                        g(x)

       Probabilit´ d’acceptation
                 e                                    e/2π = 0.66
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Theorem (Enveloppe)
         S’il existe une densit´ gm , une fonction gl et une constante M
                               e
       telles que
                             gl (x) ≤ f (x) ≤ M gm (x) ,
       alors
            1    G´n´rer X ∼ gm (x), U ∼ U[0,1] ;
                  e e
            2    Accepter X si U ≤ gl (X)/M gm (X);
            3    sinon, accepter X si U ≤ f (X)/M gm (X)
       donne des variables al´atoires suivant la loi f .
                             e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Algorithme du rapport d’uniformes
          Slice sampler


       R´sultat :
        e
       Simulation uniforme sur

                                        {(u, v); 0 ≤ u ≤                  2f (v/u)}

       produit
                                                  X = V /U ∼ f
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)



Algorithme du rapport d’uniformes
          Slice sampler


       R´sultat :
        e
       Simulation uniforme sur

                                        {(u, v); 0 ≤ u ≤                  2f (v/u)}

       produit
                                                  X = V /U ∼ f

       Raison :
       Changement de variable (u, v) → (x, u) de Jacobien u et loi
       marginale de x donn´e par
                          e
                           √                       2
                             2f (x)
                                            2f (x)
                    x∼              u du =           = f (x)
                         0                   2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   Simulation de variables al´atoires
                             e
     Distributions non-uniformes (2)




       Example




                                                                              0.6
       Pour une loi normale, simuler




                                                                              0.4
                                                                          v
       (u, v) au hasard dans




                                                                              0.2
                                                                              0.0
                                                                                    0.0   0.2   0.4   0.6       0.8   1.0   1.2   1.4

                                                                                                            u




                                        √           2 /4u2                                  √
        {(u, v); 0 ≤ u ≤                    2 e−v            } = {(u, v); v 2 ≤ −4 u2 log(u/ 2)}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e




Chapitre 2 :
M´thodes de Monte Carlo
 e


                Introduction
                Int´gration par la m´thode de Monte Carlo
                   e                e
                Fonctions d’importance
                M´thodes d’acc´leration
                  e             e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction



Utilisations de la simulation

          1    int´gration
                  e

                                        I = Ef [h(X)] =                   h(x)f (x)dx
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction



Utilisations de la simulation

          1    int´gration
                  e

                                        I = Ef [h(X)] =                   h(x)f (x)dx


          2    comportement limite/stationnaire de syst`mes complexes
                                                       e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction



Utilisations de la simulation

          1    int´gration
                  e

                                        I = Ef [h(X)] =                   h(x)f (x)dx


          2    comportement limite/stationnaire de syst`mes complexes
                                                       e
          3    optimisation

                          arg min h(x) = arg max exp{−βh(x)}                            β>0
                                  x                          x
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction




       Example (Propagation d’une ´pid´mie)
                                  e e
       Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es
                                 e         e                           e
       d’un point.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction




       Example (Propagation d’une ´pid´mie)
                                  e e
       Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es
                                 e         e                           e
       d’un point.
       La probabilit´ d’attraper la maladie est
                    e

                                               exp(α + β · nx,y )
                                Px,y =                             In >0
                                             1 + exp(α + β · nx,y ) x,y

       si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette
                e                                           ea
       maladie.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction




       Example (Propagation d’une ´pid´mie)
                                  e e
       Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es
                                 e         e                           e
       d’un point.
       La probabilit´ d’attraper la maladie est
                    e

                                               exp(α + β · nx,y )
                                Px,y =                             In >0
                                             1 + exp(α + β · nx,y ) x,y

       si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette
                e                                           ea
       maladie.
       La probabilit´ de gu´rir de la maladie est
                    e      e

                                                     exp(δ + γ · nx,y )
                                      Qx,y =
                                                   1 + exp(δ + γ · nx,y )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Introduction




       Example (Propagation d’une ´pid´mie (2))
                                  e e

       Question
       En fonction de (α, β, γ, δ), quelle est la vitesse de propagation de
       cette ´pid´mie ? la dur´e moyenne ? le nombre de personnes
             e e              e
       infect´es ?
             e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e



Int´gration par Monte Carlo
   e




       Loi des grands nombres
       Si X1 , . . . , Xn simul´s suivant f ,
                               e
                                                          n
                                          ˆ    1
                                          In =                h(Xi ) −→ I
                                               n
                                                        i=1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e



Th´or`me Central Limit
  e e



       Evaluation de l’erreur par
                                                          n
                                                   1                     ˆ
                                         ˆ2
                                         σn =                  (h(Xi ) − I)2
                                                   n2
                                                         i=1

       et
                                                  ˆ          ˆ2
                                                  In ≈ N (I, σn )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (Normale)
       Pour une loi normale, E[X 4 ] = 3. Par la m´thode de Monte Carlo,
                                                  e
             n      5      50     500 5000 50,000 500,000
             ˆ
             In 1.65 5.69 3.24 3.13 3.038                   3.029
                                    3.0
                                    2.5
                                    2.0
                                    1.5
                               In

                                    1.0
                                    0.5
                                    0.0




                                          5   10    50   100       500    1000   5000   10000   50000

                                                                    n
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (Cauchy / Normale)
       On consid`re le mod`le joint
                e         e

                                      X|θ ∼ N (θ, 1),                θ ∼ C(0, 1)

       Apr`s observation de X, on estime θ par
          e
                                                     ∞
                                                            θ           2
                                                               2
                                                                 e−(x−θ) /2 dθ
                                                    −∞    1+θ
                                  δ π (x) =          ∞
                                                            1           2
                                                                 e−(x−θ) /2 dθ
                                                    −∞    1 + θ2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (Cauchy / Normale (2))
       Cette forme δ π sugg`re de simuler des variables iid
                           e

                                            θ1 , · · · , θm ∼ N (x, 1)

       et de calculer
                                                               m       θi
                                                               i=1        2
                                           ˆπ                        1 + θi
                                           δm (x) =                         .
                                                               m       1
                                                               i=1        2
                                                                     1 + θi
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (Cauchy / Normale (2))
       Cette forme δ π sugg`re de simuler des variables iid
                           e

                                            θ1 , · · · , θm ∼ N (x, 1)

       et de calculer
                                                               m       θi
                                                               i=1        2
                                           ˆπ                        1 + θi
                                           δm (x) =                         .
                                                               m       1
                                                               i=1        2
                                                                     1 + θi
       Par la Loi des Grands Nombres,
                                ˆπ
                                δm (x) −→ δ π (x)                quand m −→ ∞.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (FdR normale)
       Approximation de la fonction de r´partition de la loi normale
                                        e
                                                         t
                                                               1   2
                                        Φ(t) =                √ e−y /2 dy
                                                       −∞      2π
       par
                                                                 n
                                              ˆ      1
                                              Φ(t) =                 IXi ≤t ,
                                                     n
                                                               i=1

       ayant g´n´r´ un ´chantillon de taille n, (X1 , . . . , Xn ), via
                e ee    e
       l’algorithme de Box-Muller.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (FdR normale (2))
           • Variance
                                                   Φ(t)(1 − Φ(t))/n,
               car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (FdR normale (2))
           • Variance
                                                   Φ(t)(1 − Φ(t))/n,
               car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
           • Pour t pr`s de t = 0 la variance vaut approximativement 1/4n:
                      e
             une pr´cision de quatre d´cimales demande en moyenne
                   e                   e
                                      √      √
                                        n = 2 104

               simulations, donc, 200 millions d’it´rations.
                                                   e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (FdR normale (2))
           • Variance
                                                   Φ(t)(1 − Φ(t))/n,
               car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
           • Pour t pr`s de t = 0 la variance vaut approximativement 1/4n:
                      e
             une pr´cision de quatre d´cimales demande en moyenne
                   e                   e
                                      √      √
                                        n = 2 104

               simulations, donc, 200 millions d’it´rations.
                                                   e
           • Plus grande pr´cision [absolue] dans les queues
                           e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Int´gration par la m´thode de Monte Carlo
        e                e




       Example (FdR normale (3))

            n       0.0        0.67       0.84       1.28       1.65       2.32     2.58     3.09     3.72

          102      0.485      0.74       0.77         0.9       0.945     0.985    0.995       1        1
          103     0.4925     0.7455     0.801       0.902      0.9425     0.9885   0.9955   0.9985      1
          104     0.4962     0.7425     0.7941        0.9      0.9498     0.9896    0.995   0.999    0.9999
          105     0.4995     0.7489     0.7993      0.9003     0.9498     0.9898    0.995   0.9989   0.9999
          106     0.5001     0.7497       0.8       0.9002     0.9502      0.99     0.995   0.999    0.9999
          107     0.5002     0.7499       0.8       0.9001     0.9501      0.99     0.995   0.999    0.9999
          108       0.5       0.75        0.8         0.9       0.95       0.99     0.995   0.999    0.9999




       Evaluation de quantiles normaux par Monte Carlo fond´e sur
                                                           e
       n g´n´rations normales.
          e e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Fonctions d’importance



       Repr´sentation alternative :
           e
                                                                             f (x)
                            I=          h(x)f (x)dx =                 h(x)         g(x)dx
                                                                             g(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Fonctions d’importance



       Repr´sentation alternative :
           e
                                                                             f (x)
                            I=          h(x)f (x)dx =                 h(x)         g(x)dx
                                                                             g(x)
       Donc, si Y1 , . . . , Yn simul´s suivant g,
                                     e
                                                     n
                                      ˜    1                       f (Yi )
                                      In =                h(Yi )           −→ I
                                           n                       g(Yi )
                                                    i=1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Int´rˆt
   ee


               Fonctionne pour tout choix de g tel que

                                                   supp(g) ⊃ supp(f )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Int´rˆt
   ee


               Fonctionne pour tout choix de g tel que

                                                   supp(g) ⊃ supp(f )


               Am´lioration possible de la variance
                 e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Int´rˆt
   ee


               Fonctionne pour tout choix de g tel que

                                                   supp(g) ⊃ supp(f )


               Am´lioration possible de la variance
                 e
               Recyclage de simulations Yi ∼ g pour d’autres densit´s f
                                                                   e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Int´rˆt
   ee


               Fonctionne pour tout choix de g tel que

                                                   supp(g) ⊃ supp(f )


               Am´lioration possible de la variance
                 e
               Recyclage de simulations Yi ∼ g pour d’autres densit´s f
                                                                   e
               Utilisation de lois simples g
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance


       Example (Normale)
       Pour la loi normale et l’approximation de E[X 4 ],
                               ∞                                                  ∞
                                              2 /2          [y=x2 ]                        1
                                     x4 e−x          dx       =       2               y 3/2 e−y/2 dy
                               −∞                                             0            2

       sugg`re d’utiliser g(y) = exp(−y/2)/2
           e
                   n       5      50    500                                           5000   50000
                   ˜n 3.29 2.89 3.032
                   I                                                                  2.97   3.041
                    0.5
                    0.4
                    0.3
                    0.2
               In

                    0.1
                    0.0
                    −0.1




                           5    10             50     100             500         1000       5000   10000   50000

                                                                          n
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Choix de la fonction d’importance



       La “bonne” fonction g d´pend de la densit´ f et de la fonction h
                              e                 e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Choix de la fonction d’importance



       La “bonne” fonction g d´pend de la densit´ f et de la fonction h
                              e                 e

       Theorem (Importance optimale)
                                               ˜
       Le choix de g minimisant la variance de In est

                                                             |h(x)|f (x)
                                              g ⋆ (x) =
                                                                 I
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Remarques
               Variance finie seulement si
                                             f (X)                            f (X)
                           Ef h2 (X)               =                 h2 (x)         dx < ∞ .
                                             g(X)               X             g(X)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Remarques
               Variance finie seulement si
                                             f (X)                            f (X)
                           Ef h2 (X)               =                 h2 (x)         dx < ∞ .
                                             g(X)               X             g(X)


               Variance nulle pour g ⋆ si h positive (!!)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Remarques
               Variance finie seulement si
                                             f (X)                            f (X)
                           Ef h2 (X)               =                 h2 (x)         dx < ∞ .
                                             g(X)               X             g(X)


               Variance nulle pour g ⋆ si h positive (!!)
               g ⋆ d´pend de I que l’on cherche ` estimer (??)
                    e                           a
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance



Remarques
               Variance finie seulement si
                                             f (X)                            f (X)
                           Ef h2 (X)               =                 h2 (x)         dx < ∞ .
                                             g(X)               X             g(X)


               Variance nulle pour g ⋆ si h positive (!!)
               g ⋆ d´pend de I que l’on cherche ` estimer (??)
                    e                           a
               Remplacement de I ˜n par moyenne harmonique
                                                            n
                                              ˇ             i=1 h(yi )/|h(yi )|
                                              In =            n
                                                              i=1 1/|h(yi )|

               (num´rateur et d´nominateur sont convergents)
                    e          e
               souvent mauvais (variance infinie)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance


       Example (Normale)
       Pour la loi normale et l’approximation de E[X 4 ],
       g ⋆ (x) ∝ x4 exp(−x2 /2), loi de la racine d’une G a(5/2, 1/2)
                                                                   [Exercice]

                    n       5            50            500        5,000    50,000   500,000
                    ˇ
                    In    4.877        2.566          2.776       2.317     2.897    3.160
                    2
                    1
               In

                    0
                    −1




                              1e+01           1e+02            1e+03       1e+04     1e+05

                                                                       n
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance




       Example (Loi de Student)
       X ∼ T (ν, θ, σ 2 ), de densit´
                                    e
                                                                                 −(ν+1)/2
                              Γ((ν + 1)/2)                            (x − θ)2
                      f (x) = √                               1+                            .
                             σ νπ Γ(ν/2)                                νσ 2

       Soient θ = 0, σ = 1 et
                                                          ∞
                                              I=              x5 f (x)dx.
                                                        2.1

       ` calculer
       a
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance




       Example (Loi de Student (2))

       • Choix de fonctions
         d’importance
               ◦ f , car f = √ (0,1)
                             N
                                2       χν /ν
               ◦ Cauchy C(0, 1)
               ◦ Normale N (0, 1)
               ◦ U ([0, 1/2.1])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance




       Example (Loi de Student (2))

       • Choix de fonctions
                                                                  R´sultats:
                                                                   e
         d’importance
               ◦ f , car f = √ (0,1)
                             N                                        ◦ Uniforme optimale
                                2       χν /ν
               ◦ Cauchy C(0, 1)
                                                                      ◦ Cauchy OK
               ◦ Normale N (0, 1)                                     ◦ f et Normale mauvaises
               ◦ U ([0, 1/2.1])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     Fonctions d’importance




       Example (Loi de Student (2))

       • Choix de fonctions
                                                                    R´sultats:
                                                                     e
         d’importance
               ◦ f , car f = √ (0,1)
                             N                                        ◦ Uniforme optimale
                                2         χν /ν
               ◦ Cauchy C(0, 1)
                                                                      ◦ Cauchy OK
               ◦ Normale N (0, 1)                                     ◦ f et Normale mauvaises
               ◦ U ([0, 1/2.1])
                                    7.0
                                    6.5
                                    6.0
                                    5.5
                                    5.0




                                          0       10000     20000         30000   40000   50000
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Simulations corr´l´es
                ee

       La correlation n´gative...
                       e
       Deux ´chantillons (X1 , . . . , Xm ) et (Y1 , . . . , Ym ) suivant f pour
             e
       estimer
                              I=         h(x)f (x)dx .
                                                      R
       Soient
                                        m                                      m
                       ˆ    1                                         ˆ    1
                       I1 =                   h(Xi )          et      I2 =           h(Yi )
                            m                                              m
                                       i=1                                     i=1

       de moyenne I et variance σ 2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Simulations corr´l´es (2)
                ee


       ...r´duit la variance
           e
       La variance de la moyenne vaut

                                        ˆ    ˆ
                                        I1 + I2                σ2 1
                               var                        =            ˆ ˆ
                                                                 + cov(I1 , I2 ).
                                           2                   2  2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Simulations corr´l´es (2)
                ee


       ...r´duit la variance
           e
       La variance de la moyenne vaut

                                        ˆ    ˆ
                                        I1 + I2                σ2 1
                               var                        =            ˆ ˆ
                                                                 + cov(I1 , I2 ).
                                           2                   2  2

       Par cons´quent, si les deux ´chantillons sont n´gativement
               e                   e                  e
       corr´l´s,
           ee
                                     ˆ ˆ
                                cov(I1 , I2 ) ≤ 0 ,
       ils font mieux que deux ´chantillons ind´pendants de mˆme taille
                               e               e             e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Variables antith´tiques
                e



       Construction de variables n´gativement corr´l´es
                                  e               ee
          1    Si f sym´trique autour de µ, prendre Yi = 2µ − Xi
                       e
          2    Si Xi = F −1 (Ui ), prendre Yi = F −1 (1 − Ui )
          3    Si (Ai )i est une partition de X , ´chantillonnage partitionn´ en
                                                  e                         e
               prenant des Xj dans chaque Ai (n´cessite de connaˆ
                                                    e                ıtre
               Pr(Ai ))
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Variables de contrˆle
                  o



       Soit
                                               I=          h(x)f (x)dx

       ` ´valuer et
       ae
                                             I0 =          h0 (x)f (x)dx
       connue
                                   ˆ            ˆ
       On estime quand mˆme I0 par I0 (et I par I)
                        e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Variables de contrˆle (2)
                  o



       Estimateur combin´
                        e
                                              ˆ    ˆ     ˆ
                                              I∗ = I + β(I0 − I0 )

                                       ˆ
                                       I∗ est sans biais pour I et
                              ˆ          ˆ            ˆ          ˆ ˆ
                          var(I∗ ) = var(I) + β 2 var(I) + 2βcov(I, I0 )
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Variables de contrˆle (3)
                  o



       Choix optimal de β
                                                               ˆ ˆ
                                                           cov(I, I0 )
                                              β⋆ = −                   ,
                                                                ˆ
                                                            var(I0 )
       avec
                                            ˆ                    ˆ
                                        var(I⋆ ) = (1 − ρ2 ) var(I) ,
                              ˆ    ˆ
       o` ρ corr´lation entre I et I0
        u       e
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e




       Example (Approximation de quantiles)
       Soit ` ´valuer
            ae
                                                                          ∞
                                     ̺ = Pr(X > a) =                          f (x)dx
                                                                      a

       par
                                                n
                                           1                                      iid
                                   ̺=
                                   ˆ                 I(Xi > a),                Xi ∼ f
                                           n
                                               i=1
                                       1
       avec Pr(X > µ) =                2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e




       Example (Approximation de quantiles (2))
       La variable de contrˆle
                           o
                       n                                     n
                 1                                     1
                           I(Xi > a) + β                         I(Xi > µ) − Pr(X > µ)
                 n                                     n
                     i=1                                   i=1

       am´liore ̺ si
         e      ˆ

                                                           cov(δ1 , δ3 )    Pr(X > a)
                      β<0            et      |β| < 2                     =2           .
                                                             var(δ3 )       Pr(X > µ)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
   M´thodes de Monte Carlo
    e
     M´thodes d’acc´leration
      e            e



Int´gration par conditionnement
   e
       Tirer parti de l’in´galit´
                          e     e

                                     var(E[δ(X)|Y]) ≤ var(δ(X))

       appel´e aussi Th´or`me de Rao-Blackwell
            e          e e
       Cons´quence :
           e
          ˆ
       Si I est un estimateur sans biais de I = Ef [h(X)], avec X simul´
                                                                       e
       a                    e        ˜
       ` partir de la densit´ jointe f (x, y), o`
                                                u

                                                  ˜
                                                  f (x, y)dy = f (x),
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R

Contenu connexe

En vedette

Comptabilité Nationale avec R
Comptabilité Nationale avec RComptabilité Nationale avec R
Comptabilité Nationale avec RCdiscount
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAhmadou DICKO
 
Sujets de pfe pour etudiants en grh
Sujets de  pfe pour etudiants en  grhSujets de  pfe pour etudiants en  grh
Sujets de pfe pour etudiants en grhezzeddine mbarek
 
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...HAFID Ait Bihi
 
Herve aide-memoire-statistique r
Herve aide-memoire-statistique rHerve aide-memoire-statistique r
Herve aide-memoire-statistique rDies Diassa
 
Traballo sobre as abellas.jesús e ángeles
Traballo sobre as abellas.jesús e ángelesTraballo sobre as abellas.jesús e ángeles
Traballo sobre as abellas.jesús e ángelesMarta Pérez Lage
 
Presentation Mobilead Syconseil 270411
Presentation Mobilead Syconseil 270411Presentation Mobilead Syconseil 270411
Presentation Mobilead Syconseil 270411AFMM
 
Le Champagne
Le ChampagneLe Champagne
Le ChampagnejeanpyXD
 
Integration des ressources numeriques dans l’offre documentaire
Integration des ressources numeriques dans l’offre documentaireIntegration des ressources numeriques dans l’offre documentaire
Integration des ressources numeriques dans l’offre documentairePierre Naegelen
 
Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...
Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...
Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...Oeko-Institut
 
Présentation des 4ème 5 (3)
Présentation des 4ème 5 (3)Présentation des 4ème 5 (3)
Présentation des 4ème 5 (3)medfsb
 
Qué existe y qué no...
Qué existe y qué no...Qué existe y qué no...
Qué existe y qué no...Celeste Box
 

En vedette (20)

Initiation r
Initiation rInitiation r
Initiation r
 
Comptabilité Nationale avec R
Comptabilité Nationale avec RComptabilité Nationale avec R
Comptabilité Nationale avec R
 
R Devtools
R DevtoolsR Devtools
R Devtools
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
 
R versur Python
R versur PythonR versur Python
R versur Python
 
Atelier r-gerad
Atelier r-geradAtelier r-gerad
Atelier r-gerad
 
Sujets de pfe pour etudiants en grh
Sujets de  pfe pour etudiants en  grhSujets de  pfe pour etudiants en  grh
Sujets de pfe pour etudiants en grh
 
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
 
Herve aide-memoire-statistique r
Herve aide-memoire-statistique rHerve aide-memoire-statistique r
Herve aide-memoire-statistique r
 
Traballo sobre as abellas.jesús e ángeles
Traballo sobre as abellas.jesús e ángelesTraballo sobre as abellas.jesús e ángeles
Traballo sobre as abellas.jesús e ángeles
 
Presentation Mobilead Syconseil 270411
Presentation Mobilead Syconseil 270411Presentation Mobilead Syconseil 270411
Presentation Mobilead Syconseil 270411
 
Le Champagne
Le ChampagneLe Champagne
Le Champagne
 
Integration des ressources numeriques dans l’offre documentaire
Integration des ressources numeriques dans l’offre documentaireIntegration des ressources numeriques dans l’offre documentaire
Integration des ressources numeriques dans l’offre documentaire
 
Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...
Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...
Ein Jahr nach Fukushima: Ablauf einer Katastrophe -- was wir mittlerweile übe...
 
Santa fe
Santa fe Santa fe
Santa fe
 
Présentation des 4ème 5 (3)
Présentation des 4ème 5 (3)Présentation des 4ème 5 (3)
Présentation des 4ème 5 (3)
 
Qué existe y qué no...
Qué existe y qué no...Qué existe y qué no...
Qué existe y qué no...
 
+El Hijo Mensaje
+El Hijo Mensaje+El Hijo Mensaje
+El Hijo Mensaje
 
Accueil up1
Accueil up1Accueil up1
Accueil up1
 
D.A.D.A.(Fam)
D.A.D.A.(Fam)D.A.D.A.(Fam)
D.A.D.A.(Fam)
 

Plus de Christian Robert

Asymptotics of ABC, lecture, Collège de France
Asymptotics of ABC, lecture, Collège de FranceAsymptotics of ABC, lecture, Collège de France
Asymptotics of ABC, lecture, Collège de FranceChristian Robert
 
Workshop in honour of Don Poskitt and Gael Martin
Workshop in honour of Don Poskitt and Gael MartinWorkshop in honour of Don Poskitt and Gael Martin
Workshop in honour of Don Poskitt and Gael MartinChristian Robert
 
How many components in a mixture?
How many components in a mixture?How many components in a mixture?
How many components in a mixture?Christian Robert
 
Testing for mixtures at BNP 13
Testing for mixtures at BNP 13Testing for mixtures at BNP 13
Testing for mixtures at BNP 13Christian Robert
 
Inferring the number of components: dream or reality?
Inferring the number of components: dream or reality?Inferring the number of components: dream or reality?
Inferring the number of components: dream or reality?Christian Robert
 
Testing for mixtures by seeking components
Testing for mixtures by seeking componentsTesting for mixtures by seeking components
Testing for mixtures by seeking componentsChristian Robert
 
discussion on Bayesian restricted likelihood
discussion on Bayesian restricted likelihooddiscussion on Bayesian restricted likelihood
discussion on Bayesian restricted likelihoodChristian Robert
 
NCE, GANs & VAEs (and maybe BAC)
NCE, GANs & VAEs (and maybe BAC)NCE, GANs & VAEs (and maybe BAC)
NCE, GANs & VAEs (and maybe BAC)Christian Robert
 
Coordinate sampler : A non-reversible Gibbs-like sampler
Coordinate sampler : A non-reversible Gibbs-like samplerCoordinate sampler : A non-reversible Gibbs-like sampler
Coordinate sampler : A non-reversible Gibbs-like samplerChristian Robert
 
Laplace's Demon: seminar #1
Laplace's Demon: seminar #1Laplace's Demon: seminar #1
Laplace's Demon: seminar #1Christian Robert
 
Likelihood-free Design: a discussion
Likelihood-free Design: a discussionLikelihood-free Design: a discussion
Likelihood-free Design: a discussionChristian Robert
 

Plus de Christian Robert (20)

Asymptotics of ABC, lecture, Collège de France
Asymptotics of ABC, lecture, Collège de FranceAsymptotics of ABC, lecture, Collège de France
Asymptotics of ABC, lecture, Collège de France
 
Workshop in honour of Don Poskitt and Gael Martin
Workshop in honour of Don Poskitt and Gael MartinWorkshop in honour of Don Poskitt and Gael Martin
Workshop in honour of Don Poskitt and Gael Martin
 
discussion of ICML23.pdf
discussion of ICML23.pdfdiscussion of ICML23.pdf
discussion of ICML23.pdf
 
How many components in a mixture?
How many components in a mixture?How many components in a mixture?
How many components in a mixture?
 
restore.pdf
restore.pdfrestore.pdf
restore.pdf
 
Testing for mixtures at BNP 13
Testing for mixtures at BNP 13Testing for mixtures at BNP 13
Testing for mixtures at BNP 13
 
Inferring the number of components: dream or reality?
Inferring the number of components: dream or reality?Inferring the number of components: dream or reality?
Inferring the number of components: dream or reality?
 
CDT 22 slides.pdf
CDT 22 slides.pdfCDT 22 slides.pdf
CDT 22 slides.pdf
 
Testing for mixtures by seeking components
Testing for mixtures by seeking componentsTesting for mixtures by seeking components
Testing for mixtures by seeking components
 
discussion on Bayesian restricted likelihood
discussion on Bayesian restricted likelihooddiscussion on Bayesian restricted likelihood
discussion on Bayesian restricted likelihood
 
NCE, GANs & VAEs (and maybe BAC)
NCE, GANs & VAEs (and maybe BAC)NCE, GANs & VAEs (and maybe BAC)
NCE, GANs & VAEs (and maybe BAC)
 
ABC-Gibbs
ABC-GibbsABC-Gibbs
ABC-Gibbs
 
Coordinate sampler : A non-reversible Gibbs-like sampler
Coordinate sampler : A non-reversible Gibbs-like samplerCoordinate sampler : A non-reversible Gibbs-like sampler
Coordinate sampler : A non-reversible Gibbs-like sampler
 
eugenics and statistics
eugenics and statisticseugenics and statistics
eugenics and statistics
 
Laplace's Demon: seminar #1
Laplace's Demon: seminar #1Laplace's Demon: seminar #1
Laplace's Demon: seminar #1
 
ABC-Gibbs
ABC-GibbsABC-Gibbs
ABC-Gibbs
 
asymptotics of ABC
asymptotics of ABCasymptotics of ABC
asymptotics of ABC
 
ABC-Gibbs
ABC-GibbsABC-Gibbs
ABC-Gibbs
 
Likelihood-free Design: a discussion
Likelihood-free Design: a discussionLikelihood-free Design: a discussion
Likelihood-free Design: a discussion
 
the ABC of ABC
the ABC of ABCthe ABC of ABC
the ABC of ABC
 

Dernier

Exercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositionsExercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositionslaetitiachassagne
 
Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024frizzole
 
Semaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptxSemaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptxMartin M Flynn
 
La Projection orthogonale en dessin technique
La Projection orthogonale en dessin techniqueLa Projection orthogonale en dessin technique
La Projection orthogonale en dessin techniquessuser4dbdf2
 
Formation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changementFormation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changementM2i Formation
 
Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2JeanLucHusson
 
Rapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFERapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFEAhmam Abderrahmane
 

Dernier (7)

Exercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositionsExercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositions
 
Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024
 
Semaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptxSemaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptx
 
La Projection orthogonale en dessin technique
La Projection orthogonale en dessin techniqueLa Projection orthogonale en dessin technique
La Projection orthogonale en dessin technique
 
Formation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changementFormation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changement
 
Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2
 
Rapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFERapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFE
 

NOISE: Statistiques exploratoires avec R

  • 1. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Christian P. Robert Universit´ Paris Dauphine e http://www.ceremade.dauphine.fr/~xian L3 MI2E, 2009–2010
  • 2. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Outline 1 Simulation de variables al´atoires e 2 M´thodes de Monte Carlo e 3 M´thode du bootstrap e 4 Statistique non–param´trique e
  • 3. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Chapitre 1 : Simulation de variables al´atoires e Introduction G´n´rateur pseudo-al´atoire e e e Distributions non-uniformes (1) Distributions non-uniformes (2)
  • 4. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e
  • 5. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap]
  • 6. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap] Validation d’un mod`le probabiliste e
  • 7. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap] Validation d’un mod`le probabiliste e Approcher une esp´rance/int´grale sous une loi non-standard e e [loi des grands nombres]
  • 8. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap] Validation d’un mod`le probabiliste e Approcher une esp´rance/int´grale sous une loi non-standard e e [loi des grands nombres] Maximiser une fonction/vraisemblance faiblement r´guli`re e e
  • 9. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (TCL pour la loi binomiale) Si Xn ∼ B(n, p) , Xn converge en loi vers la loi normale : √ n→∞ p(1 − p) n (Xn − p) N 0, n
  • 10. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction n= 4 n= 8 n= 16 10 15 20 25 20 30 15 20 10 10 5 5 0 0 0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 n= 32 n= 64 n= 128 14 10 15 20 25 15 0 2 4 6 8 10 10 5 5 0 0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.35 0.40 0.45 0.50 0.55 0.60 0.65 n= 256 n= 512 n= 1024 30 10 20 30 40 50 5 10 15 20 25 20 5 10 0 0 0 0.40 0.45 0.50 0.55 0.60 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.46 0.48 0.50 0.52 0.54
  • 11. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire) e On consid`re la fonction e h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x) + (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) , ` minimiser. a
  • 12. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire) e On consid`re la fonction e h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x) + (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) , ` minimiser. (On sait que le minimum global vaut 0 en a (x, y) = (0, 0).)
  • 13. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction 6 5 Z 34 21 0 1 0.5 1 0.5 0 Y 0 X -0.5 -0.5 -1 -1
  • 14. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire (2)) e Au lieu de chercher ` r´soudre les ´quations du premier ordre a e e ∂h(x, y) ∂h(x, y) = 0, =0 ∂x ∂y et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite a e e e al´atoire dans R e 2 αj θj+1 = θj + ∆h(θj , βj ζj ) ζj 2βj
  • 15. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire (2)) e Au lieu de chercher ` r´soudre les ´quations du premier ordre a e e ∂h(x, y) ∂h(x, y) = 0, =0 ∂x ∂y et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite a e e e al´atoire dans R e 2 αj θj+1 = θj + ∆h(θj , βj ζj ) ζj 2βj o` u ⋄ les ζj sont uniformes sur le cercle unit´ x2 + y 2 = 1; e ⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ); ⋄ (αj ) et (βj ) tendent vers 0
  • 16. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction 0.8 0.6 0.4 0.2 -0.2 0.0 0.2 0.4 0.6 Cas o` αj = 1/10 log(1 + j) et βj = 1/j u
  • 17. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes
  • 18. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes Coˆts de voyages entre deux u villes fix´s [et diff´rents] e e
  • 19. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes Coˆts de voyages entre deux u villes fix´s [et diff´rents] e e Recherche du coˆt global u minimum
  • 20. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes Coˆts de voyages entre deux u villes fix´s [et diff´rents] e e Recherche du coˆt global u minimum
  • 21. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me NP-complet e Probl`me du voyageur de e commerce repr´sentatif de e probl`mes math´matiques e e durs ` temps de r´solution a e explosifs
  • 22. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me NP-complet e Probl`me du voyageur de e commerce repr´sentatif de e probl`mes math´matiques e e durs ` temps de r´solution a e explosifs Nombre de chemins possibles n! et solutions exactes disponibles en temps O(2n )
  • 23. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me NP-complet e Probl`me du voyageur de e commerce repr´sentatif de e probl`mes math´matiques e e durs ` temps de r´solution a e explosifs Nombre de chemins possibles n! et solutions exactes disponibles en temps O(2n ) Probl`me ` nombreuses e a applications (r´seaux, e conception de circuits imprim´s, s´quen¸age de e e c g´nome, etc.) e Concours Procter & Gamble 1962
  • 24. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me toujours ouvert e Solution exacte pour 15, 112 villes allemandes trouv´e en 2001 e en 22.6 ann´es CPU. e
  • 25. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me toujours ouvert e Solution exacte pour 15, 112 R´solution pour les 24, 978 villes e villes allemandes trouv´e en 2001 e su´doises en 2004 en 84.8 ann´es e e en 22.6 ann´es CPU. e CPU
  • 26. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u
  • 27. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u Evaluation du coˆt C du nouveau circuit u
  • 28. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u Evaluation du coˆt C du nouveau circuit u Acceptation du nouveau circuit avec probabilit´ e C0 − C exp ∧1 T
  • 29. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u Evaluation du coˆt C du nouveau circuit u Acceptation du nouveau circuit avec probabilit´ e C0 − C exp ∧1 T T , temp´rature, est r´duite progressivement. e e [Metropolis, 1953]
  • 30. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 1.2
  • 31. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 0.8
  • 32. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 0.4
  • 33. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 0.0
  • 34. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ], e n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ] e e
  • 35. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ], e n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ] e e Example (Options europ´ennes) e Cas o` u CT = (ST − K)+ avec ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
  • 36. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ], e n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ] e e Example (Options europ´ennes) e Cas o` u CT = (ST − K)+ avec ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p . R´solution par simulation des binomiales Yi e
  • 37. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options (suite) Example (Options asiatiques) Mod`le en temps continu o` e u + T + T 1 1 CT = S(t)dt − K ≈ S(n) − K , T 0 T n=1 avec iid S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) .
  • 38. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options (suite) Example (Options asiatiques) Mod`le en temps continu o` e u + T + T 1 1 CT = S(t)dt − K ≈ S(n) − K , T 0 T n=1 avec iid S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) . R´solution par simulation des normales ∆Xi e
  • 39. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e G´n´rateur pseudo-al´atoire e e e El´ment central des m´thodes de simulation : elles reposent toutes e e sur la transformation de variables uniformes U (0, 1)
  • 40. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e G´n´rateur pseudo-al´atoire e e e El´ment central des m´thodes de simulation : elles reposent toutes e e sur la transformation de variables uniformes U (0, 1) Definition (G´n´rateur pseudo-al´atoire) e e e Un g´n´rateur pseudo-al´atoire est une transformation e e e d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur e initiale u0 et tout n, la suite {u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )} a le mˆme comportement statistique qu’une suite iid U (0, 1) e
  • 41. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e G´n´rateur pseudo-al´atoire e e e El´ment central des m´thodes de simulation : elles reposent toutes e e sur la transformation de variables uniformes U (0, 1) Definition (G´n´rateur pseudo-al´atoire) e e e Un g´n´rateur pseudo-al´atoire est une transformation e e e d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur e initiale u0 et tout n, la suite {u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )} a le mˆme comportement statistique qu’une suite iid U (0, 1) e ¡Paradoxe! Sans appel au “hasard”, la suite d´terministe e (u0 , u1 = Ψ(u0 ), . . . , un = Ψ(un−1 )) doit ressembler ` une suite al´atoire a e
  • 42. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e En R, appel ` la proc´dure a e runif( ) Description: ‘runif’ generates random deviates. Example: u = runif(20) ‘Random.seed’ is an integer vector, containing the random number generator (RNG) state for random number generation in R. It can be saved and restored, but should not be altered by the user.
  • 43. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e 0.0 0.2 0.4 0.6 0.8 1.0 500 520 540 560 580 600 uniform sample 1.5 1.0 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0
  • 44. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e En C, appel ` la proc´dure a e rand() / random() SYNOPSIS # include <stdlib.h> long int random(void); DESCRIPTION The random() function uses a non-linear additive feedback random number generator employing a default table of size 31 long integers to return successive pseudo-random numbers in the range from 0 to RAND MAX. The period of this random generator is very large, approximately 16*((2**31)-1). RETURN VALUE random() returns a value between 0 and RAND MAX.
  • 45. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e En Scilab, appel ` la proc´dure a e rand() rand() : with no arguments gives a scalar whose value changes each time it is referenced. By default, random numbers are uniformly distributed in the interval (0,1). rand(’normal’) switches to a normal distribution with mean 0 and variance 1. rand(’uniform’) switches back to the uniform distribution EXAMPLE x=rand(10,10,’uniform’)
  • 46. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e Example (G´n´rateur usuel) e e Le g´n´rateur congruenciel e e D(x) = (ax + b) mod (M + 1). est de p´riode M pour les bons choix de (a, b) et se transforme en e g´n´rateur sur ]0, 1[ par division par M + 2. e e v = u*69069069 (1) 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.8 0.6 t+1 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t 1.0 1.0 0.8 0.8 0.6 0.6 t+10 t+5 0.4 0.4 0.2 0.2 0.0 0.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t t
  • 47. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e Conclusion : Utiliser la fonction appropri´e sur l’ordinateur ou le logiciel en e service plutˆt que de construire un g´n´rateur al´atoire de o e e e mauvaise qualit´ e
  • 48. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e
  • 49. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e Theorem (Inversion g´n´rique) e e Si U est une variable al´atoire uniforme sur [0, 1) et FX est la e −1 fonction de r´partition de la variable X, FX (U ) a mˆme loi que X e e
  • 50. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e Theorem (Inversion g´n´rique) e e Si U est une variable al´atoire uniforme sur [0, 1) et FX est la e −1 fonction de r´partition de la variable X, FX (U ) a mˆme loi que X e e Preuve. On a −1 P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x)
  • 51. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e Theorem (Inversion g´n´rique) e e Si U est une variable al´atoire uniforme sur [0, 1) et FX est la e −1 fonction de r´partition de la variable X, FX (U ) a mˆme loi que X e e Preuve. On a −1 P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x) Note. Si FX n’est pas strictement croissante, on prend −1 FX (u) = inf {x; FX (x) ≥ u}
  • 52. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Applications... Loi binomiale, B(n, p), n i FX (x) = p (1 − p)n−i i i≤x −1 et FX (u) s’obtient num´riquement e
  • 53. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Applications... Loi binomiale, B(n, p), n i FX (x) = p (1 − p)n−i i i≤x −1 et FX (u) s’obtient num´riquement e Loi exponentielle, E xp(λ), −1 FX (x) = 1 − exp(λx) et FX (u) = − log(u)/λ
  • 54. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Applications... Loi binomiale, B(n, p), n i FX (x) = p (1 − p)n−i i i≤x −1 et FX (u) s’obtient num´riquement e Loi exponentielle, E xp(λ), −1 FX (x) = 1 − exp(λx) et FX (u) = − log(u)/λ Loi de Cauchy, C (0, 1), 1 1 −1 FX (x) = arctan(x)+ et FX (u) = tan(π(u−1/2)) π 2
  • 55. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres transformations... [Indice] Trouver des transformations reliant la loi d’int´rˆt et des lois plus ee simples/mieux connues
  • 56. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres transformations... [Indice] Trouver des transformations reliant la loi d’int´rˆt et des lois plus ee simples/mieux connues Example (Transformation de Box-M¨ller) u i.i.d. Pour la loi normale N (0, 1), si X1 , X2 ∼ N (0, 1), X1 + X2 ∼ χ2 , 2 2 2 arctan(X1 /X2 ) ∼ U ([0, 2π]) [Jacobien] Comme χ2 est identique ` E xp(1/2), il vient par inversion 2 a X1 = −2 log(U1 ) sin(2πU2 ) X2 = −2 log(U1 ) cos(2πU2 )
  • 57. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Example Les lois de Student et de Fisher se d´duisent naturellement de la e loi normale et de la loi du chi-deux.
  • 58. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Example Les lois de Student et de Fisher se d´duisent naturellement de la e loi normale et de la loi du chi-deux. Example La loi de Cauchy se d´duit de la loi normale par : si e i.i.d. X1 , X2 ∼ N (0, 1), X1 /X2 ∼ C (0, 1)
  • 59. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Example La loi Beta B(α, β), de densit´ e Γ(α + β) α−1 fX (x) = x (1 − x)β−1 , Γ(α)Γ(β) s’obtient ` partir de la loi gamma par: si X1 ∼ G a(α, 1), a X2 ∼ G a(β, 1), alors X1 ∼ B(α, β) X1 + X2
  • 60. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Lois multidimensionnelles Soit ` g´n´rer dans Rp a e e (X1 , . . . , Xp ) ∼ f (x1 , . . . , xp ) dont les composantes ne sont pas n´cessairement ind´pendantes e e Cascade rule f (x1 , . . . , xp ) = f1 (x1 ) × f2|1 (x2 |x1 ) . . . × fp|−p (xp |x1 , . . . , xp−1 )
  • 61. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Impl´mentation e Simuler pour t = 1, . . . , T 1 X1 ∼ f1 (x1 ) 2 X2 ∼ f2|1 (x2 |x1 ) . . . p. Xp ∼ fp|−p (xp |x1 , . . . , xp−1 )
  • 62. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible
  • 63. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible algorithme r´sident sur machine seulement pour lois usuelles e
  • 64. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible algorithme r´sident sur machine seulement pour lois usuelles e lemme d’inversion ne s’applique qu’en dimension 1
  • 65. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible algorithme r´sident sur machine seulement pour lois usuelles e lemme d’inversion ne s’applique qu’en dimension 1 nouvelle distribution demandant r´solution rapide e
  • 66. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) M´thode d’acceptation–rejet e Distribution de densit´ f ` simuler e a
  • 67. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) M´thode d’acceptation–rejet e Distribution de densit´ f ` simuler e a Theorem (fondamental de la simulation) 0.25 La loi uniforme sur le sous-graphe 0.20 Sf = {(x, u); 0 ≤ u ≤ f (x)} 0.15 f(x) 0.10 a comme loi marginale en x la loi de densit´ f . e 0.05 0.00 0 2 4 6 8 10 x
  • 68. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Raison : Loi marginale donn´e par e ∞ I0≤u≤f (x) du = f (x) 0 et ind´pendance ` la constante de normalisation e a
  • 69. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Raison : Loi marginale donn´e par e ∞ I0≤u≤f (x) du = f (x) 0 et ind´pendance ` la constante de normalisation e a Example Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans {(u, x); 0 ≤ u ≤ exp(−x2 /2)}
  • 70. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme d’acceptation-rejet 1 Trouver une densit´ g simulable telle que e f (x) sup =M <∞ x g(x)
  • 71. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme d’acceptation-rejet 1 Trouver une densit´ g simulable telle que e f (x) sup =M <∞ x g(x) 2 G´n´rer e e i.i.d. i.i.d. Y1 , Y2 , . . . ∼ g , U1 , U2 , . . . ∼ U ([0, 1])
  • 72. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme d’acceptation-rejet 1 Trouver une densit´ g simulable telle que e f (x) sup =M <∞ x g(x) 2 G´n´rer e e i.i.d. i.i.d. Y1 , Y2 , . . . ∼ g , U1 , U2 , . . . ∼ U ([0, 1]) 3 Prendre X = Yk o` u k = inf{n ; Un ≤ f (Yn )/M g(Yn )}
  • 73. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Theorem (Acceptation–rejet) La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e e e e suivant la loi fX
  • 74. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Theorem (Acceptation–rejet) La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e e e e suivant la loi fX Preuve (1) : On a ∞ P (X ≤ x) = P (X = Yk , Yk ≤ x) k=1 ∞ k−1 1 = 1− P (Uk ≤ f (Yk )/M g(Yk ) , Yk ≤ x) M k=1 ∞ k−1 x f (y)/M g(y) 1 = 1− du g(y)dy M −∞ 0 k=1 ∞ k−1 x 1 1 = 1− f (y)dy M M −∞ k=1
  • 75. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Preuve (2) 5 4 Si (X, U ) est uniforme sur 3 A ⊃ B, la distribution de (X, U ) 2 retreinte ` B est uniforme sur B. a 1 0 −4 −2 0 2 4
  • 76. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation
  • 77. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation Ne n´cessite pas une borne exacte M e
  • 78. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation Ne n´cessite pas une borne exacte M e Autorise le recyclage des Yk pour une autre loi f (les Yk refus´s ne sont plus de loi g) e
  • 79. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation Ne n´cessite pas une borne exacte M e Autorise le recyclage des Yk pour une autre loi f (les Yk refus´s ne sont plus de loi g) e Demande en moyenne M va Yk pour un X (mesure d’efficacit´) e
  • 80. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Example Soit f (x) = exp(−x2 /2) et g(x) = 1/(1 + x2 ) f (x) 2 √ = (1 + x2 ) e−x /2 ≤ 2/ e g(x) Probabilit´ d’acceptation e e/2π = 0.66
  • 81. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Theorem (Enveloppe) S’il existe une densit´ gm , une fonction gl et une constante M e telles que gl (x) ≤ f (x) ≤ M gm (x) , alors 1 G´n´rer X ∼ gm (x), U ∼ U[0,1] ; e e 2 Accepter X si U ≤ gl (X)/M gm (X); 3 sinon, accepter X si U ≤ f (X)/M gm (X) donne des variables al´atoires suivant la loi f . e
  • 82. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme du rapport d’uniformes Slice sampler R´sultat : e Simulation uniforme sur {(u, v); 0 ≤ u ≤ 2f (v/u)} produit X = V /U ∼ f
  • 83. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme du rapport d’uniformes Slice sampler R´sultat : e Simulation uniforme sur {(u, v); 0 ≤ u ≤ 2f (v/u)} produit X = V /U ∼ f Raison : Changement de variable (u, v) → (x, u) de Jacobien u et loi marginale de x donn´e par e √ 2 2f (x) 2f (x) x∼ u du = = f (x) 0 2
  • 84. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Example 0.6 Pour une loi normale, simuler 0.4 v (u, v) au hasard dans 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 u √ 2 /4u2 √ {(u, v); 0 ≤ u ≤ 2 e−v } = {(u, v); v 2 ≤ −4 u2 log(u/ 2)}
  • 85. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Chapitre 2 : M´thodes de Monte Carlo e Introduction Int´gration par la m´thode de Monte Carlo e e Fonctions d’importance M´thodes d’acc´leration e e
  • 86. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Utilisations de la simulation 1 int´gration e I = Ef [h(X)] = h(x)f (x)dx
  • 87. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Utilisations de la simulation 1 int´gration e I = Ef [h(X)] = h(x)f (x)dx 2 comportement limite/stationnaire de syst`mes complexes e
  • 88. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Utilisations de la simulation 1 int´gration e I = Ef [h(X)] = h(x)f (x)dx 2 comportement limite/stationnaire de syst`mes complexes e 3 optimisation arg min h(x) = arg max exp{−βh(x)} β>0 x x
  • 89. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie) e e Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es e e e d’un point.
  • 90. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie) e e Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es e e e d’un point. La probabilit´ d’attraper la maladie est e exp(α + β · nx,y ) Px,y = In >0 1 + exp(α + β · nx,y ) x,y si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette e ea maladie.
  • 91. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie) e e Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es e e e d’un point. La probabilit´ d’attraper la maladie est e exp(α + β · nx,y ) Px,y = In >0 1 + exp(α + β · nx,y ) x,y si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette e ea maladie. La probabilit´ de gu´rir de la maladie est e e exp(δ + γ · nx,y ) Qx,y = 1 + exp(δ + γ · nx,y )
  • 92. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie (2)) e e Question En fonction de (α, β, γ, δ), quelle est la vitesse de propagation de cette ´pid´mie ? la dur´e moyenne ? le nombre de personnes e e e infect´es ? e
  • 93. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Int´gration par Monte Carlo e Loi des grands nombres Si X1 , . . . , Xn simul´s suivant f , e n ˆ 1 In = h(Xi ) −→ I n i=1
  • 94. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Th´or`me Central Limit e e Evaluation de l’erreur par n 1 ˆ ˆ2 σn = (h(Xi ) − I)2 n2 i=1 et ˆ ˆ2 In ≈ N (I, σn )
  • 95. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Normale) Pour une loi normale, E[X 4 ] = 3. Par la m´thode de Monte Carlo, e n 5 50 500 5000 50,000 500,000 ˆ In 1.65 5.69 3.24 3.13 3.038 3.029 3.0 2.5 2.0 1.5 In 1.0 0.5 0.0 5 10 50 100 500 1000 5000 10000 50000 n
  • 96. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Cauchy / Normale) On consid`re le mod`le joint e e X|θ ∼ N (θ, 1), θ ∼ C(0, 1) Apr`s observation de X, on estime θ par e ∞ θ 2 2 e−(x−θ) /2 dθ −∞ 1+θ δ π (x) = ∞ 1 2 e−(x−θ) /2 dθ −∞ 1 + θ2
  • 97. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Cauchy / Normale (2)) Cette forme δ π sugg`re de simuler des variables iid e θ1 , · · · , θm ∼ N (x, 1) et de calculer m θi i=1 2 ˆπ 1 + θi δm (x) = . m 1 i=1 2 1 + θi
  • 98. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Cauchy / Normale (2)) Cette forme δ π sugg`re de simuler des variables iid e θ1 , · · · , θm ∼ N (x, 1) et de calculer m θi i=1 2 ˆπ 1 + θi δm (x) = . m 1 i=1 2 1 + θi Par la Loi des Grands Nombres, ˆπ δm (x) −→ δ π (x) quand m −→ ∞.
  • 99. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale) Approximation de la fonction de r´partition de la loi normale e t 1 2 Φ(t) = √ e−y /2 dy −∞ 2π par n ˆ 1 Φ(t) = IXi ≤t , n i=1 ayant g´n´r´ un ´chantillon de taille n, (X1 , . . . , Xn ), via e ee e l’algorithme de Box-Muller.
  • 100. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (2)) • Variance Φ(t)(1 − Φ(t))/n, car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
  • 101. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (2)) • Variance Φ(t)(1 − Φ(t))/n, car les variables IXi ≤t sont iid Bernoulli(Φ(t)). • Pour t pr`s de t = 0 la variance vaut approximativement 1/4n: e une pr´cision de quatre d´cimales demande en moyenne e e √ √ n = 2 104 simulations, donc, 200 millions d’it´rations. e
  • 102. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (2)) • Variance Φ(t)(1 − Φ(t))/n, car les variables IXi ≤t sont iid Bernoulli(Φ(t)). • Pour t pr`s de t = 0 la variance vaut approximativement 1/4n: e une pr´cision de quatre d´cimales demande en moyenne e e √ √ n = 2 104 simulations, donc, 200 millions d’it´rations. e • Plus grande pr´cision [absolue] dans les queues e
  • 103. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (3)) n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72 102 0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1 103 0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1 104 0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999 105 0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999 106 0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999 107 0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999 108 0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999 Evaluation de quantiles normaux par Monte Carlo fond´e sur e n g´n´rations normales. e e
  • 104. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Fonctions d’importance Repr´sentation alternative : e f (x) I= h(x)f (x)dx = h(x) g(x)dx g(x)
  • 105. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Fonctions d’importance Repr´sentation alternative : e f (x) I= h(x)f (x)dx = h(x) g(x)dx g(x) Donc, si Y1 , . . . , Yn simul´s suivant g, e n ˜ 1 f (Yi ) In = h(Yi ) −→ I n g(Yi ) i=1
  • 106. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f )
  • 107. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f ) Am´lioration possible de la variance e
  • 108. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f ) Am´lioration possible de la variance e Recyclage de simulations Yi ∼ g pour d’autres densit´s f e
  • 109. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f ) Am´lioration possible de la variance e Recyclage de simulations Yi ∼ g pour d’autres densit´s f e Utilisation de lois simples g
  • 110. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Normale) Pour la loi normale et l’approximation de E[X 4 ], ∞ ∞ 2 /2 [y=x2 ] 1 x4 e−x dx = 2 y 3/2 e−y/2 dy −∞ 0 2 sugg`re d’utiliser g(y) = exp(−y/2)/2 e n 5 50 500 5000 50000 ˜n 3.29 2.89 3.032 I 2.97 3.041 0.5 0.4 0.3 0.2 In 0.1 0.0 −0.1 5 10 50 100 500 1000 5000 10000 50000 n
  • 111. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Choix de la fonction d’importance La “bonne” fonction g d´pend de la densit´ f et de la fonction h e e
  • 112. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Choix de la fonction d’importance La “bonne” fonction g d´pend de la densit´ f et de la fonction h e e Theorem (Importance optimale) ˜ Le choix de g minimisant la variance de In est |h(x)|f (x) g ⋆ (x) = I
  • 113. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X)
  • 114. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X) Variance nulle pour g ⋆ si h positive (!!)
  • 115. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X) Variance nulle pour g ⋆ si h positive (!!) g ⋆ d´pend de I que l’on cherche ` estimer (??) e a
  • 116. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X) Variance nulle pour g ⋆ si h positive (!!) g ⋆ d´pend de I que l’on cherche ` estimer (??) e a Remplacement de I ˜n par moyenne harmonique n ˇ i=1 h(yi )/|h(yi )| In = n i=1 1/|h(yi )| (num´rateur et d´nominateur sont convergents) e e souvent mauvais (variance infinie)
  • 117. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Normale) Pour la loi normale et l’approximation de E[X 4 ], g ⋆ (x) ∝ x4 exp(−x2 /2), loi de la racine d’une G a(5/2, 1/2) [Exercice] n 5 50 500 5,000 50,000 500,000 ˇ In 4.877 2.566 2.776 2.317 2.897 3.160 2 1 In 0 −1 1e+01 1e+02 1e+03 1e+04 1e+05 n
  • 118. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student) X ∼ T (ν, θ, σ 2 ), de densit´ e −(ν+1)/2 Γ((ν + 1)/2) (x − θ)2 f (x) = √ 1+ . σ νπ Γ(ν/2) νσ 2 Soient θ = 0, σ = 1 et ∞ I= x5 f (x)dx. 2.1 ` calculer a
  • 119. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student (2)) • Choix de fonctions d’importance ◦ f , car f = √ (0,1) N 2 χν /ν ◦ Cauchy C(0, 1) ◦ Normale N (0, 1) ◦ U ([0, 1/2.1])
  • 120. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student (2)) • Choix de fonctions R´sultats: e d’importance ◦ f , car f = √ (0,1) N ◦ Uniforme optimale 2 χν /ν ◦ Cauchy C(0, 1) ◦ Cauchy OK ◦ Normale N (0, 1) ◦ f et Normale mauvaises ◦ U ([0, 1/2.1])
  • 121. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student (2)) • Choix de fonctions R´sultats: e d’importance ◦ f , car f = √ (0,1) N ◦ Uniforme optimale 2 χν /ν ◦ Cauchy C(0, 1) ◦ Cauchy OK ◦ Normale N (0, 1) ◦ f et Normale mauvaises ◦ U ([0, 1/2.1]) 7.0 6.5 6.0 5.5 5.0 0 10000 20000 30000 40000 50000
  • 122. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Simulations corr´l´es ee La correlation n´gative... e Deux ´chantillons (X1 , . . . , Xm ) et (Y1 , . . . , Ym ) suivant f pour e estimer I= h(x)f (x)dx . R Soient m m ˆ 1 ˆ 1 I1 = h(Xi ) et I2 = h(Yi ) m m i=1 i=1 de moyenne I et variance σ 2
  • 123. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Simulations corr´l´es (2) ee ...r´duit la variance e La variance de la moyenne vaut ˆ ˆ I1 + I2 σ2 1 var = ˆ ˆ + cov(I1 , I2 ). 2 2 2
  • 124. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Simulations corr´l´es (2) ee ...r´duit la variance e La variance de la moyenne vaut ˆ ˆ I1 + I2 σ2 1 var = ˆ ˆ + cov(I1 , I2 ). 2 2 2 Par cons´quent, si les deux ´chantillons sont n´gativement e e e corr´l´s, ee ˆ ˆ cov(I1 , I2 ) ≤ 0 , ils font mieux que deux ´chantillons ind´pendants de mˆme taille e e e
  • 125. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables antith´tiques e Construction de variables n´gativement corr´l´es e ee 1 Si f sym´trique autour de µ, prendre Yi = 2µ − Xi e 2 Si Xi = F −1 (Ui ), prendre Yi = F −1 (1 − Ui ) 3 Si (Ai )i est une partition de X , ´chantillonnage partitionn´ en e e prenant des Xj dans chaque Ai (n´cessite de connaˆ e ıtre Pr(Ai ))
  • 126. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables de contrˆle o Soit I= h(x)f (x)dx ` ´valuer et ae I0 = h0 (x)f (x)dx connue ˆ ˆ On estime quand mˆme I0 par I0 (et I par I) e
  • 127. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables de contrˆle (2) o Estimateur combin´ e ˆ ˆ ˆ I∗ = I + β(I0 − I0 ) ˆ I∗ est sans biais pour I et ˆ ˆ ˆ ˆ ˆ var(I∗ ) = var(I) + β 2 var(I) + 2βcov(I, I0 )
  • 128. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables de contrˆle (3) o Choix optimal de β ˆ ˆ cov(I, I0 ) β⋆ = − , ˆ var(I0 ) avec ˆ ˆ var(I⋆ ) = (1 − ρ2 ) var(I) , ˆ ˆ o` ρ corr´lation entre I et I0 u e
  • 129. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Approximation de quantiles) Soit ` ´valuer ae ∞ ̺ = Pr(X > a) = f (x)dx a par n 1 iid ̺= ˆ I(Xi > a), Xi ∼ f n i=1 1 avec Pr(X > µ) = 2
  • 130. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Approximation de quantiles (2)) La variable de contrˆle o n n 1 1 I(Xi > a) + β I(Xi > µ) − Pr(X > µ) n n i=1 i=1 am´liore ̺ si e ˆ cov(δ1 , δ3 ) Pr(X > a) β<0 et |β| < 2 =2 . var(δ3 ) Pr(X > µ)
  • 131. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Int´gration par conditionnement e Tirer parti de l’in´galit´ e e var(E[δ(X)|Y]) ≤ var(δ(X)) appel´e aussi Th´or`me de Rao-Blackwell e e e Cons´quence : e ˆ Si I est un estimateur sans biais de I = Ef [h(X)], avec X simul´ e a e ˜ ` partir de la densit´ jointe f (x, y), o` u ˜ f (x, y)dy = f (x),