1. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Nouveaux outils informatiques
pour la Statistique exploratoire
(=NOISE)
Christian P. Robert
Universit´ Paris Dauphine
e
http://www.ceremade.dauphine.fr/~xian
L3 MI2E, 2009–2010
2. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Outline
1 Simulation de variables al´atoires
e
2 M´thodes de Monte Carlo
e
3 M´thode du bootstrap
e
4 Statistique non–param´trique
e
3. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Chapitre 1 :
Simulation de variables al´atoires
e
Introduction
G´n´rateur pseudo-al´atoire
e e e
Distributions non-uniformes (1)
Distributions non-uniformes (2)
4. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un syst`me complexe (programme,
e
r´seau, file d’attente, syst`me de particules, atmosph`re,
e e e
´pid´mie, actions...)
e e
5. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un syst`me complexe (programme,
e
r´seau, file d’attente, syst`me de particules, atmosph`re,
e e e
´pid´mie, actions...)
e e
D´terminer les propri´t´s probabilistes d’une proc´dure
e ee e
statistique non-standard ou sous une loi inconnue [bootstrap]
6. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un syst`me complexe (programme,
e
r´seau, file d’attente, syst`me de particules, atmosph`re,
e e e
´pid´mie, actions...)
e e
D´terminer les propri´t´s probabilistes d’une proc´dure
e ee e
statistique non-standard ou sous une loi inconnue [bootstrap]
Validation d’un mod`le probabiliste
e
7. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un syst`me complexe (programme,
e
r´seau, file d’attente, syst`me de particules, atmosph`re,
e e e
´pid´mie, actions...)
e e
D´terminer les propri´t´s probabilistes d’une proc´dure
e ee e
statistique non-standard ou sous une loi inconnue [bootstrap]
Validation d’un mod`le probabiliste
e
Approcher une esp´rance/int´grale sous une loi non-standard
e e
[loi des grands nombres]
8. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un syst`me complexe (programme,
e
r´seau, file d’attente, syst`me de particules, atmosph`re,
e e e
´pid´mie, actions...)
e e
D´terminer les propri´t´s probabilistes d’une proc´dure
e ee e
statistique non-standard ou sous une loi inconnue [bootstrap]
Validation d’un mod`le probabiliste
e
Approcher une esp´rance/int´grale sous une loi non-standard
e e
[loi des grands nombres]
Maximiser une fonction/vraisemblance faiblement r´guli`re
e e
9. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Example (TCL pour la loi binomiale)
Si
Xn ∼ B(n, p) ,
Xn converge en loi vers la loi normale :
√ n→∞ p(1 − p)
n (Xn − p) N 0,
n
11. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Example (Minimisation al´atoire)
e
On consid`re la fonction
e
h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)
+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,
` minimiser.
a
12. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Example (Minimisation al´atoire)
e
On consid`re la fonction
e
h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)
+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,
` minimiser. (On sait que le minimum global vaut 0 en
a
(x, y) = (0, 0).)
13. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
6
5
Z
34
21
0
1
0.5
1
0.5
0
Y
0
X
-0.5
-0.5
-1
-1
14. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Example (Minimisation al´atoire (2))
e
Au lieu de chercher ` r´soudre les ´quations du premier ordre
a e e
∂h(x, y) ∂h(x, y)
= 0, =0
∂x ∂y
et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite
a e e e
al´atoire dans R
e 2
αj
θj+1 = θj + ∆h(θj , βj ζj ) ζj
2βj
15. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Example (Minimisation al´atoire (2))
e
Au lieu de chercher ` r´soudre les ´quations du premier ordre
a e e
∂h(x, y) ∂h(x, y)
= 0, =0
∂x ∂y
et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite
a e e e
al´atoire dans R
e 2
αj
θj+1 = θj + ∆h(θj , βj ζj ) ζj
2βj
o`
u
⋄ les ζj sont uniformes sur le cercle unit´ x2 + y 2 = 1;
e
⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);
⋄ (αj ) et (βj ) tendent vers 0
16. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
0.8
0.6
0.4
0.2
-0.2 0.0 0.2 0.4 0.6
Cas o` αj = 1/10 log(1 + j) et βj = 1/j
u
17. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me du voyageur de commerce
e
Probl`me classique d’allocation:
e
Repr´sentant devant visiter
e
un ensemble de n villes
18. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me du voyageur de commerce
e
Probl`me classique d’allocation:
e
Repr´sentant devant visiter
e
un ensemble de n villes
Coˆts de voyages entre deux
u
villes fix´s [et diff´rents]
e e
19. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me du voyageur de commerce
e
Probl`me classique d’allocation:
e
Repr´sentant devant visiter
e
un ensemble de n villes
Coˆts de voyages entre deux
u
villes fix´s [et diff´rents]
e e
Recherche du coˆt global
u
minimum
20. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me du voyageur de commerce
e
Probl`me classique d’allocation:
e
Repr´sentant devant visiter
e
un ensemble de n villes
Coˆts de voyages entre deux
u
villes fix´s [et diff´rents]
e e
Recherche du coˆt global
u
minimum
21. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me NP-complet
e
Probl`me du voyageur de
e
commerce repr´sentatif de
e
probl`mes math´matiques
e e
durs ` temps de r´solution
a e
explosifs
22. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me NP-complet
e
Probl`me du voyageur de
e
commerce repr´sentatif de
e
probl`mes math´matiques
e e
durs ` temps de r´solution
a e
explosifs
Nombre de chemins possibles
n! et solutions exactes
disponibles en temps O(2n )
23. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me NP-complet
e
Probl`me du voyageur de
e
commerce repr´sentatif de
e
probl`mes math´matiques
e e
durs ` temps de r´solution
a e
explosifs
Nombre de chemins possibles
n! et solutions exactes
disponibles en temps O(2n )
Probl`me ` nombreuses
e a
applications (r´seaux,
e
conception de circuits
imprim´s, s´quen¸age de
e e c
g´nome, etc.)
e Concours Procter & Gamble
1962
24. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me toujours ouvert
e
Solution exacte pour 15, 112
villes allemandes trouv´e en 2001
e
en 22.6 ann´es CPU.
e
25. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Probl`me toujours ouvert
e
Solution exacte pour 15, 112 R´solution pour les 24, 978 villes
e
villes allemandes trouv´e en 2001
e su´doises en 2004 en 84.8 ann´es
e e
en 22.6 ann´es CPU.
e CPU
26. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
R´solution par simulation
e
Algorithme du recuit simul´:
e
R´p´ter
e e
Modifications al´atoires de parties du circuit de coˆt C0
e u
27. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
R´solution par simulation
e
Algorithme du recuit simul´:
e
R´p´ter
e e
Modifications al´atoires de parties du circuit de coˆt C0
e u
Evaluation du coˆt C du nouveau circuit
u
28. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
R´solution par simulation
e
Algorithme du recuit simul´:
e
R´p´ter
e e
Modifications al´atoires de parties du circuit de coˆt C0
e u
Evaluation du coˆt C du nouveau circuit
u
Acceptation du nouveau circuit avec probabilit´
e
C0 − C
exp ∧1
T
29. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
R´solution par simulation
e
Algorithme du recuit simul´:
e
R´p´ter
e e
Modifications al´atoires de parties du circuit de coˆt C0
e u
Evaluation du coˆt C du nouveau circuit
u
Acceptation du nouveau circuit avec probabilit´
e
C0 − C
exp ∧1
T
T , temp´rature, est r´duite progressivement.
e e
[Metropolis, 1953]
30. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Illustration
Example (400 villes)
T = 1.2
31. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Illustration
Example (400 villes)
T = 0.8
32. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Illustration
Example (400 villes)
T = 0.4
33. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Illustration
Example (400 villes)
T = 0.0
34. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Pricing d’options
Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ],
e
n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ]
e e
35. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Pricing d’options
Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ],
e
n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ]
e e
Example (Options europ´ennes)
e
Cas o`
u
CT = (ST − K)+
avec
ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
36. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Pricing d’options
Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ],
e
n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ]
e e
Example (Options europ´ennes)
e
Cas o`
u
CT = (ST − K)+
avec
ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
R´solution par simulation des binomiales Yi
e
37. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Pricing d’options (suite)
Example (Options asiatiques)
Mod`le en temps continu o`
e u
+ T +
T
1 1
CT = S(t)dt − K ≈ S(n) − K ,
T 0 T
n=1
avec
iid
S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) .
38. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Introduction
Pricing d’options (suite)
Example (Options asiatiques)
Mod`le en temps continu o`
e u
+ T +
T
1 1
CT = S(t)dt − K ≈ S(n) − K ,
T 0 T
n=1
avec
iid
S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) .
R´solution par simulation des normales ∆Xi
e
39. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
G´n´rateur pseudo-al´atoire
e e e
El´ment central des m´thodes de simulation : elles reposent toutes
e e
sur la transformation de variables uniformes U (0, 1)
40. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
G´n´rateur pseudo-al´atoire
e e e
El´ment central des m´thodes de simulation : elles reposent toutes
e e
sur la transformation de variables uniformes U (0, 1)
Definition (G´n´rateur pseudo-al´atoire)
e e e
Un g´n´rateur pseudo-al´atoire est une transformation
e e e
d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur
e
initiale u0 et tout n, la suite
{u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )}
a le mˆme comportement statistique qu’une suite iid U (0, 1)
e
41. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
G´n´rateur pseudo-al´atoire
e e e
El´ment central des m´thodes de simulation : elles reposent toutes
e e
sur la transformation de variables uniformes U (0, 1)
Definition (G´n´rateur pseudo-al´atoire)
e e e
Un g´n´rateur pseudo-al´atoire est une transformation
e e e
d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur
e
initiale u0 et tout n, la suite
{u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )}
a le mˆme comportement statistique qu’une suite iid U (0, 1)
e
¡Paradoxe!
Sans appel au “hasard”, la suite d´terministe
e
(u0 , u1 = Ψ(u0 ), . . . , un = Ψ(un−1 ))
doit ressembler ` une suite al´atoire
a e
42. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
En R, appel ` la proc´dure
a e
runif( )
Description:
‘runif’ generates random deviates.
Example:
u = runif(20)
‘Random.seed’ is an integer vector, containing the random number
generator (RNG) state for random number generation in R. It can
be saved and restored, but should not be altered by the user.
43. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
0.0 0.2 0.4 0.6 0.8 1.0
500 520 540 560 580 600
uniform sample
1.5
1.0
0.5
0.0
0.0 0.2 0.4 0.6 0.8 1.0
44. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
En C, appel ` la proc´dure
a e
rand() / random()
SYNOPSIS
# include <stdlib.h>
long int random(void);
DESCRIPTION
The random() function uses a non-linear additive feedback random
number generator employing a default table of size 31 long
integers to return successive pseudo-random numbers in the range
from 0 to RAND MAX. The period of this random generator is
very large, approximately 16*((2**31)-1).
RETURN VALUE
random() returns a value between 0 and RAND MAX.
45. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
En Scilab, appel ` la proc´dure
a e
rand()
rand() : with no arguments gives a scalar whose value changes
each time it is referenced. By default, random numbers are
uniformly distributed in the interval (0,1). rand(’normal’) switches
to a normal distribution with mean 0 and variance 1.
rand(’uniform’) switches back to the uniform distribution
EXAMPLE
x=rand(10,10,’uniform’)
46. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
Example (G´n´rateur usuel)
e e
Le g´n´rateur congruenciel
e e
D(x) = (ax + b) mod (M + 1).
est de p´riode M pour les bons choix de (a, b) et se transforme en
e
g´n´rateur sur ]0, 1[ par division par M + 2.
e e
v = u*69069069 (1)
1.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0.8
0.6
t+1
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
t
1.0
1.0
0.8
0.8
0.6
0.6
t+10
t+5
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
t t
47. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
G´n´rateur pseudo-al´atoire
e e e
Conclusion :
Utiliser la fonction appropri´e sur l’ordinateur ou le logiciel en
e
service plutˆt que de construire un g´n´rateur al´atoire de
o e e e
mauvaise qualit´ e
48. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probl`me r´gl´ en principe puisque
e e e
49. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probl`me r´gl´ en principe puisque
e e e
Theorem (Inversion g´n´rique)
e e
Si U est une variable al´atoire uniforme sur [0, 1) et FX est la
e
−1
fonction de r´partition de la variable X, FX (U ) a mˆme loi que X
e e
50. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probl`me r´gl´ en principe puisque
e e e
Theorem (Inversion g´n´rique)
e e
Si U est une variable al´atoire uniforme sur [0, 1) et FX est la
e
−1
fonction de r´partition de la variable X, FX (U ) a mˆme loi que X
e e
Preuve. On a
−1
P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x)
51. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probl`me r´gl´ en principe puisque
e e e
Theorem (Inversion g´n´rique)
e e
Si U est une variable al´atoire uniforme sur [0, 1) et FX est la
e
−1
fonction de r´partition de la variable X, FX (U ) a mˆme loi que X
e e
Preuve. On a
−1
P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x)
Note. Si FX n’est pas strictement croissante, on prend
−1
FX (u) = inf {x; FX (x) ≥ u}
52. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Applications...
Loi binomiale, B(n, p),
n i
FX (x) = p (1 − p)n−i
i
i≤x
−1
et FX (u) s’obtient num´riquement
e
53. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Applications...
Loi binomiale, B(n, p),
n i
FX (x) = p (1 − p)n−i
i
i≤x
−1
et FX (u) s’obtient num´riquement
e
Loi exponentielle, E xp(λ),
−1
FX (x) = 1 − exp(λx) et FX (u) = − log(u)/λ
54. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Applications...
Loi binomiale, B(n, p),
n i
FX (x) = p (1 − p)n−i
i
i≤x
−1
et FX (u) s’obtient num´riquement
e
Loi exponentielle, E xp(λ),
−1
FX (x) = 1 − exp(λx) et FX (u) = − log(u)/λ
Loi de Cauchy, C (0, 1),
1 1 −1
FX (x) = arctan(x)+ et FX (u) = tan(π(u−1/2))
π 2
55. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Autres transformations...
[Indice]
Trouver des transformations reliant la loi d’int´rˆt et des lois plus
ee
simples/mieux connues
56. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Autres transformations...
[Indice]
Trouver des transformations reliant la loi d’int´rˆt et des lois plus
ee
simples/mieux connues
Example (Transformation de Box-M¨ller)
u
i.i.d.
Pour la loi normale N (0, 1), si X1 , X2 ∼ N (0, 1),
X1 + X2 ∼ χ2 ,
2 2
2 arctan(X1 /X2 ) ∼ U ([0, 2π])
[Jacobien]
Comme χ2 est identique ` E xp(1/2), il vient par inversion
2 a
X1 = −2 log(U1 ) sin(2πU2 ) X2 = −2 log(U1 ) cos(2πU2 )
57. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Example
Les lois de Student et de Fisher se d´duisent naturellement de la
e
loi normale et de la loi du chi-deux.
58. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Example
Les lois de Student et de Fisher se d´duisent naturellement de la
e
loi normale et de la loi du chi-deux.
Example
La loi de Cauchy se d´duit de la loi normale par : si
e
i.i.d.
X1 , X2 ∼ N (0, 1), X1 /X2 ∼ C (0, 1)
59. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Example
La loi Beta B(α, β), de densit´
e
Γ(α + β) α−1
fX (x) = x (1 − x)β−1 ,
Γ(α)Γ(β)
s’obtient ` partir de la loi gamma par: si X1 ∼ G a(α, 1),
a
X2 ∼ G a(β, 1), alors
X1
∼ B(α, β)
X1 + X2
60. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Lois multidimensionnelles
Soit ` g´n´rer dans Rp
a e e
(X1 , . . . , Xp ) ∼ f (x1 , . . . , xp )
dont les composantes ne sont pas n´cessairement ind´pendantes
e e
Cascade rule
f (x1 , . . . , xp ) = f1 (x1 ) × f2|1 (x2 |x1 ) . . . × fp|−p (xp |x1 , . . . , xp−1 )
61. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (1)
Impl´mentation
e
Simuler pour t = 1, . . . , T
1 X1 ∼ f1 (x1 )
2 X2 ∼ f2|1 (x2 |x1 )
.
.
.
p. Xp ∼ fp|−p (xp |x1 , . . . , xp−1 )
62. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
−1
FX rarement disponible
63. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
−1
FX rarement disponible
algorithme r´sident sur machine seulement pour lois usuelles
e
64. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
−1
FX rarement disponible
algorithme r´sident sur machine seulement pour lois usuelles
e
lemme d’inversion ne s’applique qu’en dimension 1
65. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
−1
FX rarement disponible
algorithme r´sident sur machine seulement pour lois usuelles
e
lemme d’inversion ne s’applique qu’en dimension 1
nouvelle distribution demandant r´solution rapide
e
66. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
M´thode d’acceptation–rejet
e
Distribution de densit´ f ` simuler
e a
67. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
M´thode d’acceptation–rejet
e
Distribution de densit´ f ` simuler
e a
Theorem (fondamental de la simulation)
0.25
La loi uniforme sur le sous-graphe
0.20
Sf = {(x, u); 0 ≤ u ≤ f (x)}
0.15
f(x)
0.10
a comme loi marginale en x la loi
de densit´ f .
e
0.05
0.00
0 2 4 6 8 10
x
68. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Raison :
Loi marginale donn´e par
e
∞
I0≤u≤f (x) du = f (x)
0
et ind´pendance ` la constante de normalisation
e a
69. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Raison :
Loi marginale donn´e par
e
∞
I0≤u≤f (x) du = f (x)
0
et ind´pendance ` la constante de normalisation
e a
Example
Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans
{(u, x); 0 ≤ u ≤ exp(−x2 /2)}
70. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Algorithme d’acceptation-rejet
1 Trouver une densit´ g simulable telle que
e
f (x)
sup =M <∞
x g(x)
71. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Algorithme d’acceptation-rejet
1 Trouver une densit´ g simulable telle que
e
f (x)
sup =M <∞
x g(x)
2 G´n´rer
e e
i.i.d. i.i.d.
Y1 , Y2 , . . . ∼ g , U1 , U2 , . . . ∼ U ([0, 1])
72. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Algorithme d’acceptation-rejet
1 Trouver une densit´ g simulable telle que
e
f (x)
sup =M <∞
x g(x)
2 G´n´rer
e e
i.i.d. i.i.d.
Y1 , Y2 , . . . ∼ g , U1 , U2 , . . . ∼ U ([0, 1])
3 Prendre X = Yk o`
u
k = inf{n ; Un ≤ f (Yn )/M g(Yn )}
73. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Theorem (Acceptation–rejet)
La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e
e e e
suivant la loi fX
74. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Theorem (Acceptation–rejet)
La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e
e e e
suivant la loi fX
Preuve (1) : On a
∞
P (X ≤ x) = P (X = Yk , Yk ≤ x)
k=1
∞ k−1
1
= 1− P (Uk ≤ f (Yk )/M g(Yk ) , Yk ≤ x)
M
k=1
∞ k−1 x f (y)/M g(y)
1
= 1− du g(y)dy
M −∞ 0
k=1
∞ k−1 x
1 1
= 1− f (y)dy
M M −∞
k=1
75. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Preuve (2)
5
4
Si (X, U ) est uniforme sur
3
A ⊃ B, la distribution de (X, U )
2
retreinte ` B est uniforme sur B.
a
1
0
−4 −2 0 2 4
76. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Propri´t´s
e e
Fonctionne sans constante de normalisation
77. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Propri´t´s
e e
Fonctionne sans constante de normalisation
Ne n´cessite pas une borne exacte M
e
78. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Propri´t´s
e e
Fonctionne sans constante de normalisation
Ne n´cessite pas une borne exacte M
e
Autorise le recyclage des Yk pour une autre loi f (les Yk
refus´s ne sont plus de loi g)
e
79. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Propri´t´s
e e
Fonctionne sans constante de normalisation
Ne n´cessite pas une borne exacte M
e
Autorise le recyclage des Yk pour une autre loi f (les Yk
refus´s ne sont plus de loi g)
e
Demande en moyenne M va Yk pour un X (mesure
d’efficacit´)
e
80. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Example
Soit f (x) = exp(−x2 /2) et g(x) = 1/(1 + x2 )
f (x) 2 √
= (1 + x2 ) e−x /2 ≤ 2/ e
g(x)
Probabilit´ d’acceptation
e e/2π = 0.66
81. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Theorem (Enveloppe)
S’il existe une densit´ gm , une fonction gl et une constante M
e
telles que
gl (x) ≤ f (x) ≤ M gm (x) ,
alors
1 G´n´rer X ∼ gm (x), U ∼ U[0,1] ;
e e
2 Accepter X si U ≤ gl (X)/M gm (X);
3 sinon, accepter X si U ≤ f (X)/M gm (X)
donne des variables al´atoires suivant la loi f .
e
82. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Algorithme du rapport d’uniformes
Slice sampler
R´sultat :
e
Simulation uniforme sur
{(u, v); 0 ≤ u ≤ 2f (v/u)}
produit
X = V /U ∼ f
83. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Algorithme du rapport d’uniformes
Slice sampler
R´sultat :
e
Simulation uniforme sur
{(u, v); 0 ≤ u ≤ 2f (v/u)}
produit
X = V /U ∼ f
Raison :
Changement de variable (u, v) → (x, u) de Jacobien u et loi
marginale de x donn´e par
e
√ 2
2f (x)
2f (x)
x∼ u du = = f (x)
0 2
84. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables al´atoires
e
Distributions non-uniformes (2)
Example
0.6
Pour une loi normale, simuler
0.4
v
(u, v) au hasard dans
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
u
√ 2 /4u2 √
{(u, v); 0 ≤ u ≤ 2 e−v } = {(u, v); v 2 ≤ −4 u2 log(u/ 2)}
85. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Chapitre 2 :
M´thodes de Monte Carlo
e
Introduction
Int´gration par la m´thode de Monte Carlo
e e
Fonctions d’importance
M´thodes d’acc´leration
e e
86. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Utilisations de la simulation
1 int´gration
e
I = Ef [h(X)] = h(x)f (x)dx
87. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Utilisations de la simulation
1 int´gration
e
I = Ef [h(X)] = h(x)f (x)dx
2 comportement limite/stationnaire de syst`mes complexes
e
88. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Utilisations de la simulation
1 int´gration
e
I = Ef [h(X)] = h(x)f (x)dx
2 comportement limite/stationnaire de syst`mes complexes
e
3 optimisation
arg min h(x) = arg max exp{−βh(x)} β>0
x x
89. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Example (Propagation d’une ´pid´mie)
e e
Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es
e e e
d’un point.
90. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Example (Propagation d’une ´pid´mie)
e e
Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es
e e e
d’un point.
La probabilit´ d’attraper la maladie est
e
exp(α + β · nx,y )
Px,y = In >0
1 + exp(α + β · nx,y ) x,y
si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette
e ea
maladie.
91. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Example (Propagation d’une ´pid´mie)
e e
Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es
e e e
d’un point.
La probabilit´ d’attraper la maladie est
e
exp(α + β · nx,y )
Px,y = In >0
1 + exp(α + β · nx,y ) x,y
si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette
e ea
maladie.
La probabilit´ de gu´rir de la maladie est
e e
exp(δ + γ · nx,y )
Qx,y =
1 + exp(δ + γ · nx,y )
92. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Introduction
Example (Propagation d’une ´pid´mie (2))
e e
Question
En fonction de (α, β, γ, δ), quelle est la vitesse de propagation de
cette ´pid´mie ? la dur´e moyenne ? le nombre de personnes
e e e
infect´es ?
e
93. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Int´gration par Monte Carlo
e
Loi des grands nombres
Si X1 , . . . , Xn simul´s suivant f ,
e
n
ˆ 1
In = h(Xi ) −→ I
n
i=1
94. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Th´or`me Central Limit
e e
Evaluation de l’erreur par
n
1 ˆ
ˆ2
σn = (h(Xi ) − I)2
n2
i=1
et
ˆ ˆ2
In ≈ N (I, σn )
95. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (Normale)
Pour une loi normale, E[X 4 ] = 3. Par la m´thode de Monte Carlo,
e
n 5 50 500 5000 50,000 500,000
ˆ
In 1.65 5.69 3.24 3.13 3.038 3.029
3.0
2.5
2.0
1.5
In
1.0
0.5
0.0
5 10 50 100 500 1000 5000 10000 50000
n
96. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (Cauchy / Normale)
On consid`re le mod`le joint
e e
X|θ ∼ N (θ, 1), θ ∼ C(0, 1)
Apr`s observation de X, on estime θ par
e
∞
θ 2
2
e−(x−θ) /2 dθ
−∞ 1+θ
δ π (x) = ∞
1 2
e−(x−θ) /2 dθ
−∞ 1 + θ2
97. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (Cauchy / Normale (2))
Cette forme δ π sugg`re de simuler des variables iid
e
θ1 , · · · , θm ∼ N (x, 1)
et de calculer
m θi
i=1 2
ˆπ 1 + θi
δm (x) = .
m 1
i=1 2
1 + θi
98. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (Cauchy / Normale (2))
Cette forme δ π sugg`re de simuler des variables iid
e
θ1 , · · · , θm ∼ N (x, 1)
et de calculer
m θi
i=1 2
ˆπ 1 + θi
δm (x) = .
m 1
i=1 2
1 + θi
Par la Loi des Grands Nombres,
ˆπ
δm (x) −→ δ π (x) quand m −→ ∞.
99. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (FdR normale)
Approximation de la fonction de r´partition de la loi normale
e
t
1 2
Φ(t) = √ e−y /2 dy
−∞ 2π
par
n
ˆ 1
Φ(t) = IXi ≤t ,
n
i=1
ayant g´n´r´ un ´chantillon de taille n, (X1 , . . . , Xn ), via
e ee e
l’algorithme de Box-Muller.
100. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (FdR normale (2))
• Variance
Φ(t)(1 − Φ(t))/n,
car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
101. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (FdR normale (2))
• Variance
Φ(t)(1 − Φ(t))/n,
car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
• Pour t pr`s de t = 0 la variance vaut approximativement 1/4n:
e
une pr´cision de quatre d´cimales demande en moyenne
e e
√ √
n = 2 104
simulations, donc, 200 millions d’it´rations.
e
102. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (FdR normale (2))
• Variance
Φ(t)(1 − Φ(t))/n,
car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
• Pour t pr`s de t = 0 la variance vaut approximativement 1/4n:
e
une pr´cision de quatre d´cimales demande en moyenne
e e
√ √
n = 2 104
simulations, donc, 200 millions d’it´rations.
e
• Plus grande pr´cision [absolue] dans les queues
e
103. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Int´gration par la m´thode de Monte Carlo
e e
Example (FdR normale (3))
n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72
102 0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1
103 0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1
104 0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999
105 0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999
106 0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999
107 0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999
108 0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999
Evaluation de quantiles normaux par Monte Carlo fond´e sur
e
n g´n´rations normales.
e e
104. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Fonctions d’importance
Repr´sentation alternative :
e
f (x)
I= h(x)f (x)dx = h(x) g(x)dx
g(x)
105. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Fonctions d’importance
Repr´sentation alternative :
e
f (x)
I= h(x)f (x)dx = h(x) g(x)dx
g(x)
Donc, si Y1 , . . . , Yn simul´s suivant g,
e
n
˜ 1 f (Yi )
In = h(Yi ) −→ I
n g(Yi )
i=1
106. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Int´rˆt
ee
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f )
107. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Int´rˆt
ee
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f )
Am´lioration possible de la variance
e
108. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Int´rˆt
ee
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f )
Am´lioration possible de la variance
e
Recyclage de simulations Yi ∼ g pour d’autres densit´s f
e
109. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Int´rˆt
ee
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f )
Am´lioration possible de la variance
e
Recyclage de simulations Yi ∼ g pour d’autres densit´s f
e
Utilisation de lois simples g
110. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Example (Normale)
Pour la loi normale et l’approximation de E[X 4 ],
∞ ∞
2 /2 [y=x2 ] 1
x4 e−x dx = 2 y 3/2 e−y/2 dy
−∞ 0 2
sugg`re d’utiliser g(y) = exp(−y/2)/2
e
n 5 50 500 5000 50000
˜n 3.29 2.89 3.032
I 2.97 3.041
0.5
0.4
0.3
0.2
In
0.1
0.0
−0.1
5 10 50 100 500 1000 5000 10000 50000
n
111. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Choix de la fonction d’importance
La “bonne” fonction g d´pend de la densit´ f et de la fonction h
e e
112. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Choix de la fonction d’importance
La “bonne” fonction g d´pend de la densit´ f et de la fonction h
e e
Theorem (Importance optimale)
˜
Le choix de g minimisant la variance de In est
|h(x)|f (x)
g ⋆ (x) =
I
113. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Remarques
Variance finie seulement si
f (X) f (X)
Ef h2 (X) = h2 (x) dx < ∞ .
g(X) X g(X)
114. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Remarques
Variance finie seulement si
f (X) f (X)
Ef h2 (X) = h2 (x) dx < ∞ .
g(X) X g(X)
Variance nulle pour g ⋆ si h positive (!!)
115. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Remarques
Variance finie seulement si
f (X) f (X)
Ef h2 (X) = h2 (x) dx < ∞ .
g(X) X g(X)
Variance nulle pour g ⋆ si h positive (!!)
g ⋆ d´pend de I que l’on cherche ` estimer (??)
e a
116. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Remarques
Variance finie seulement si
f (X) f (X)
Ef h2 (X) = h2 (x) dx < ∞ .
g(X) X g(X)
Variance nulle pour g ⋆ si h positive (!!)
g ⋆ d´pend de I que l’on cherche ` estimer (??)
e a
Remplacement de I ˜n par moyenne harmonique
n
ˇ i=1 h(yi )/|h(yi )|
In = n
i=1 1/|h(yi )|
(num´rateur et d´nominateur sont convergents)
e e
souvent mauvais (variance infinie)
117. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Example (Normale)
Pour la loi normale et l’approximation de E[X 4 ],
g ⋆ (x) ∝ x4 exp(−x2 /2), loi de la racine d’une G a(5/2, 1/2)
[Exercice]
n 5 50 500 5,000 50,000 500,000
ˇ
In 4.877 2.566 2.776 2.317 2.897 3.160
2
1
In
0
−1
1e+01 1e+02 1e+03 1e+04 1e+05
n
118. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Example (Loi de Student)
X ∼ T (ν, θ, σ 2 ), de densit´
e
−(ν+1)/2
Γ((ν + 1)/2) (x − θ)2
f (x) = √ 1+ .
σ νπ Γ(ν/2) νσ 2
Soient θ = 0, σ = 1 et
∞
I= x5 f (x)dx.
2.1
` calculer
a
119. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Example (Loi de Student (2))
• Choix de fonctions
d’importance
◦ f , car f = √ (0,1)
N
2 χν /ν
◦ Cauchy C(0, 1)
◦ Normale N (0, 1)
◦ U ([0, 1/2.1])
120. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Example (Loi de Student (2))
• Choix de fonctions
R´sultats:
e
d’importance
◦ f , car f = √ (0,1)
N ◦ Uniforme optimale
2 χν /ν
◦ Cauchy C(0, 1)
◦ Cauchy OK
◦ Normale N (0, 1) ◦ f et Normale mauvaises
◦ U ([0, 1/2.1])
121. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
Fonctions d’importance
Example (Loi de Student (2))
• Choix de fonctions
R´sultats:
e
d’importance
◦ f , car f = √ (0,1)
N ◦ Uniforme optimale
2 χν /ν
◦ Cauchy C(0, 1)
◦ Cauchy OK
◦ Normale N (0, 1) ◦ f et Normale mauvaises
◦ U ([0, 1/2.1])
7.0
6.5
6.0
5.5
5.0
0 10000 20000 30000 40000 50000
122. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Simulations corr´l´es
ee
La correlation n´gative...
e
Deux ´chantillons (X1 , . . . , Xm ) et (Y1 , . . . , Ym ) suivant f pour
e
estimer
I= h(x)f (x)dx .
R
Soient
m m
ˆ 1 ˆ 1
I1 = h(Xi ) et I2 = h(Yi )
m m
i=1 i=1
de moyenne I et variance σ 2
123. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Simulations corr´l´es (2)
ee
...r´duit la variance
e
La variance de la moyenne vaut
ˆ ˆ
I1 + I2 σ2 1
var = ˆ ˆ
+ cov(I1 , I2 ).
2 2 2
124. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Simulations corr´l´es (2)
ee
...r´duit la variance
e
La variance de la moyenne vaut
ˆ ˆ
I1 + I2 σ2 1
var = ˆ ˆ
+ cov(I1 , I2 ).
2 2 2
Par cons´quent, si les deux ´chantillons sont n´gativement
e e e
corr´l´s,
ee
ˆ ˆ
cov(I1 , I2 ) ≤ 0 ,
ils font mieux que deux ´chantillons ind´pendants de mˆme taille
e e e
125. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Variables antith´tiques
e
Construction de variables n´gativement corr´l´es
e ee
1 Si f sym´trique autour de µ, prendre Yi = 2µ − Xi
e
2 Si Xi = F −1 (Ui ), prendre Yi = F −1 (1 − Ui )
3 Si (Ai )i est une partition de X , ´chantillonnage partitionn´ en
e e
prenant des Xj dans chaque Ai (n´cessite de connaˆ
e ıtre
Pr(Ai ))
126. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Variables de contrˆle
o
Soit
I= h(x)f (x)dx
` ´valuer et
ae
I0 = h0 (x)f (x)dx
connue
ˆ ˆ
On estime quand mˆme I0 par I0 (et I par I)
e
127. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Variables de contrˆle (2)
o
Estimateur combin´
e
ˆ ˆ ˆ
I∗ = I + β(I0 − I0 )
ˆ
I∗ est sans biais pour I et
ˆ ˆ ˆ ˆ ˆ
var(I∗ ) = var(I) + β 2 var(I) + 2βcov(I, I0 )
128. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Variables de contrˆle (3)
o
Choix optimal de β
ˆ ˆ
cov(I, I0 )
β⋆ = − ,
ˆ
var(I0 )
avec
ˆ ˆ
var(I⋆ ) = (1 − ρ2 ) var(I) ,
ˆ ˆ
o` ρ corr´lation entre I et I0
u e
129. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Example (Approximation de quantiles)
Soit ` ´valuer
ae
∞
̺ = Pr(X > a) = f (x)dx
a
par
n
1 iid
̺=
ˆ I(Xi > a), Xi ∼ f
n
i=1
1
avec Pr(X > µ) = 2
130. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Example (Approximation de quantiles (2))
La variable de contrˆle
o
n n
1 1
I(Xi > a) + β I(Xi > µ) − Pr(X > µ)
n n
i=1 i=1
am´liore ̺ si
e ˆ
cov(δ1 , δ3 ) Pr(X > a)
β<0 et |β| < 2 =2 .
var(δ3 ) Pr(X > µ)
131. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
M´thodes de Monte Carlo
e
M´thodes d’acc´leration
e e
Int´gration par conditionnement
e
Tirer parti de l’in´galit´
e e
var(E[δ(X)|Y]) ≤ var(δ(X))
appel´e aussi Th´or`me de Rao-Blackwell
e e e
Cons´quence :
e
ˆ
Si I est un estimateur sans biais de I = Ef [h(X)], avec X simul´
e
a e ˜
` partir de la densit´ jointe f (x, y), o`
u
˜
f (x, y)dy = f (x),