Slides Lycée Jules Fil 2014

Méthodes de sondages, le pouvoir de l’alea
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
nathalie.villa@toulouse.inra.fr
Chargée de recherche INRA, Statistique
Lycée Jules Fil, Carcassonne - 27 Mars 2014
Sondage & alea (INRA, Unité MIA-T) Nathalie Villa-Vialaneix Carcassonne, 27 mars 2014 1 / 18

Loi des grands nombres
Outline
1 Loi des grands nombres
2 Utiliser le hasard pour un sondage
3 Théorème Centrale Limite

Jeu de pile ou face
Issues possibles dans un jeu de pile ou face : {pile, face}

Jeu de pile ou face
n jeux de pile ou face ; on considère
P =
pile
n
(fréquences de “pile” parmi les lancers)

Jeu de pile ou face
P =
pile
n
n valeurs possibles pour P Probabilité d’avoir cette valeur
1 0, 1

Jeu de pile ou face
P =
pile
n
1 0, 1
2 0, 1
2 , 1

Jeu de pile ou face
P =
pile
n
1 0, 1
2 0, 1
2 , 1
3 0, 1
3 , 2
3 , 1

Jeu de pile ou face
P =
pile
n
1 0, 1
2 0, 1
2 , 1
3 0, 1
3 , 2
3 , 1
... ...
n 0, 1
n , 2
n , ..., 1

Jeu de pile ou face
P =
pile
n
1 0, 1 1
2 , 1
2
2 0, 1
2 , 1
3 0, 1
3 , 2
3 , 1
... ...
n 0, 1
n , 2
n , ..., 1

Jeu de pile ou face
P =
pile
n
1 0, 1 1
2 , 1
2
2 0, 1
2 , 1 1
4 , 1
2 , 1
4
3 0, 1
3 , 2
3 , 1
... ...
n 0, 1
n , 2
n , ..., 1
issues possibles : {pile, pile}, {pile, face}, {face, pile}, {face, face}

Jeu de pile ou face
P =
pile
n
1 0, 1 1
2 , 1
2
2 0, 1
2 , 1 1
4 , 1
2 , 1
4
3 0, 1
3 , 2
3 , 1 1
8 , 3
8 , 3
8 , 1
8
... ...
n 0, 1
n , 2
n , ..., 1

Jeu de pile ou face
P =
pile
n
1 0, 1 1
2 , 1
2
2 0, 1
2 , 1 1
4 , 1
2 , 1
4
3 0, 1
3 , 2
3 , 1 1
8 , 3
8 , 3
8 , 1
8
... ... ...
n 0, 1
n , 2
n , ..., 1 1
2n , n
2n ,
n×(n−1)
2n+1 , ..., 1
2n

Répéter le jeu de pile ou face... longtemps !
Regardons comment P évolue :
1 lancer → P(1)

1 lancer
2 lancers
→
→
P(1)
P(2)

1 lancer
2 lancers
3 lancers
...
n lancers
→
→
→
...
→
P(1)
P(2)
P(3)
...
P(n)
tracer le graphique de P(n) en fonction de n...
Simulons !

Conclusion
Quand n devient très grand,
P(n) =
pile
n
se rapproche de 1
2 , càd, de la probabilité d’obtenir “pile” en lançant
une pièce !

Conclusion
Quand n devient très grand,
P(n) =
pile
n
se rapproche de 1
2 , càd, de la probabilité d’obtenir “pile” en lançant
une pièce !
fréquence observée d’un événement sur un grand nombre d’essais
↓
probabilité (théorique) d’obtenir cet événement sur un essai

Perspective historique
“Ars Conjectandi” (1713) de Jacques Bernoulli est le premier ouvrage
contenant une démonstration de la loi des grands nombres dans le cas de
la fréquence de succès d’un événement (comme le jeu de “pile ou face”).

“Ars Conjectandi” (1713) de Jacques Bernoulli est le premier ouvrage
contenant une démonstration de la loi des grands nombres dans le cas de
la fréquence de succès d’un événement (comme le jeu de “pile ou face”).
La démonstration lui prit 20 ans et fût publiée par son neveu huit ans après
sa mort. On appelle loi de Bernoulli une loi qui donne la probabilité du
succès d’un événement : “avoir un pile au jeu de pile ou face” (1/2), “avoir
un 6 au dé” (1/6), etc...

Extension au cas d’une loi quelconque
Expérience : On tire au hasard des nombres selon une distribution de
probabilité donnée (ex : tirer au hasard un nombre entre 0 et 1)
x1, x2, x3...

x1, x2, x3...
Densité de la distribution de probabilité, fX : exemple de la densité de
la loi Gaussienne

x1, x2, x3...
Densité de la distribution de probabilité, fX : exemple de la densité de
la loi Gaussienne
Espérance : E(X) = xfX (x)dx (exemple : pour la loi Gaussienne,
E(X) = 0 ; pour un nombre tiré au hasard entre 0 et 1 : E(X) = 0, 5)

Convergence vers l’espérance
On déﬁnit la moyenne des n premiers nombres tirés : Xn = x1+...+xn
n

n
tracer le graphique de Xn en fonction de n...
Simulons !

n
tracer le graphique de Xn en fonction de n...
Simulons !
Xn se rapproche de E(X)

Utiliser le hasard pour un sondage
Outline

Exemple introductif
On cherche à savoir le pourcentage de personnes en France qui aiment la
pizza (noté P et inconnu)

Exemple introductif
1 Solution 1 : interroger tous les habitants de France et leur demander
si ils aiment la pizza : c’est long !!!!!!!

Exemple introductif
2 Solution 2 (sondage aléatoire) : interroger au hasard n personnes
dans la population et calculer ˆP(n) le pourcentage de personnes qui
aiment la pizza

Exemple introductif
2 Solution 2 (sondage aléatoire) : interroger au hasard n personnes
dans la population et calculer ˆP(n) le pourcentage de personnes qui
aiment la pizza
la probabilité qu’une personne prise au hasard aime la pizza est P
(inconnue) donc
ˆP(n) P
si n est assez grand

• le principe du sondage est pratiqué depuis le Moyen-Âge mais sans
contrôle probabiliste ;
•
au XVIIIe, Pierre-Simon de Laplace :
premières estimations pour évaluer la
population française à partir des naissances
(choix raisonné d’échantillonnage, notion
d’“erreur à craindre”) ;

•
•
Arthur Bowley (∼ 1900) : premiers
sondages aléatoires (notion d’intervalle de
conﬁance) ;

•
•
Arthur Bowley (∼ 1900) : premiers
sondages aléatoires (notion d’intervalle de
conﬁance) ;
• approche reconnue au congrès de l’IIS en 1925 (Rome) et qui se
généralise dans les instituts de sondage nationaux.

Méthodes de sondage aléatoires
Sondage simple
On choisit au hasard n personnes dans la population.

Sondage par grappes
La population est divisée en (beaucoup de) petites sous-populations (ex :
les départements français)

Sondage par grappes
La population est divisée en (beaucoup de) petites sous-populations (ex :
les départements français) ⇒ on choisit au hasard quelques
sous-populations pour lesquelles on interroge tout le monde : c’est
moins coûteux... !

Sondage par strates
La population est divisée en un petit nombre de sous-populations qui ont
des valeurs différentes pour la variable d’intérêt (ex : 3 classes d’âges)

Sondage par strates Simulons !
La population est divisée en un petit nombre de sous-populations qui ont
des valeurs différentes pour la variable d’intérêt (ex : 3 classes d’âges) ⇒
on choisit au hasard quelques personnes dans chaque
sous-population : réduit la variabilité de l’estimation... !

Le sondage en pratique : souvent, la méthode des quotas
Actuellement, les instituts de sondage pratiquent souvent la
méthode des quotas
(construction d’un échantillon non aléatoire construit pour reproduire les
caractéristiques d’âge, sexe, CSP, etc de la population)

Le sondage en pratique : souvent, la méthode des quotas
Actuellement, les instituts de sondage pratiquent souvent la
méthode des quotas
(construction d’un échantillon non aléatoire construit pour reproduire les
caractéristiques d’âge, sexe, CSP, etc de la population)
Problème : Aucune possibilité de contrôler l’ampleur de l’erreur effectuée
lors de l’estimation avec une approche probabiliste !

Théorème Centrale Limite
Outline

Retour au jeu de pile ou face...
Ici, on ﬁxe n. On sait que pour n “assez grand”, P(n) 0, 5 (le
pourcentage de “pile” observés sur n tirages est proche de 50%).
1 1
2
√
n
est en fait l’écart type attendu de P(n).

Comment se répartit P(n) autour de 0,5 si on effectue plusieurs séries
de n tirages ?
1 1
2
√
n

Comment se répartit P(n) autour de 0,5 si on effectue plusieurs séries
de n tirages ?
Simulons !
1 on génère m séries de n tirages chacune ;
2 pour chacune des séries, on calcule P(n) ;
3 on centre et on réduit P(n) en calculant pour chaque série :
P(n)−0,5
1/(2
√
n)
;1
4 on effectue l’histogramme des m valeurs ainsi trouvées.
1 1
2
√
n

Conclusion des simulations
Résultat : Lorsque n devient grand et que le nombre de séries de tirages
devient grand aussi l’histogramme des
P(n)−0,5
σ(P(n))
densité gaussienne de
moyenne 0 et d’écart type 1.

Extension pour une distribution générale
Le théorème Centrale Limite
La propriété précédente est vraie de manière très générale :
Xn−E(X)
σX
est
réparti autour de 0 comme une loi gaussienne de moyenne 0 et d’écart
type 1 lorsque n devient grand.

Extension pour une distribution générale
Le théorème Centrale Limite
La propriété précédente est vraie de manière très générale :
Xn−E(X)
σX
est
réparti autour de 0 comme une loi gaussienne de moyenne 0 et d’écart
type 1 lorsque n devient grand.
95% des valeurs
Xn−E(X)
σX
sont entre −1, 96 et 1, 96 (très faible probabilité).

Application pour la recherche d’un intervalle de conﬁance
En sondage :
1 on calcule : moyenne de la variable étudiée sur l’échantillon X ;
2 si σX est connue, on en déduit un intervalle de conﬁance :
IC = X − 1, 96 × σX√
n
; X + 1, 96 × σX√
n
.

En sondage :
IC = X − 1, 96 × σX√
n
; X + 1, 96 × σX√
n
.
Interprétation : 95% des échantillons construits ainsi contiennent la
bonne valeur de l’espérance E(X).
Simulons !

En sondage :
IC = X − 1, 96 × σX√
n
; X + 1, 96 × σX√
n
.
Interprétation : 95% des échantillons construits ainsi contiennent la
bonne valeur de l’espérance E(X).
Simulons !
En pratique, σX n’est pas connue, comme la moyenne, on l’estime à
partir de l’écart type sur l’échantillon.

Slides Lycée Jules Fil 2014

Recommandé

Recommandé

Contenu connexe

Plus de tuxette

Plus de tuxette (20)

Dernier

Dernier (12)

Slides Lycée Jules Fil 2014