1. Chapitre 2
SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES
EGALES
PLAN DU CHAPITRE 2
2.1 DEFINITIONS
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)
2.2.1 Plan de sondage
2.2.2 Probabilit´es d’inclusion
2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)
2.3.1 Plan de sondage
2.3.2 Probabilit´es d’inclusion
2.4 VARIABLES INDICATRICES
2.5 ESTIMATEUR
2.6 ESTIMATION D’UNE MOYENNE
2.6.1 Sondage al´eatoire PESR
2.6.2 Sondage al´eatoire PEAR
2.7 ESTIMATION D’UN TOTAL
2.7.1 Estimateur de
2.7.2 Esp´erance de ˆ
2.7.3 Pr´ecision de ˆ
1
2. 2.8 ESTIMATION D’UNE PROPORTION
2.8.1 Estimateur de
2.8.2 Esp´erance de ˆ
2.8.3 Pr´ecision de ˆ
2.9 EFFET DE (PLAN DE) SONDAGE
2.9.1 D´efinition
2.9.2 Exemple
2.10 INTERVALLES DE CONFIANCE
2.10.1 Distribution d’´echantillonnage de ˆμ
2.10.2 Intervalles de confiance
2.10.3 Incertitude absolue et relative
2.10.4 D´etermination de la taille d’un ´echantillon
2.10.5 Exemples
2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS
REMISE
2.11.1 M´ethode du tri al´eatoire
2.11.2 D’autres m´ethodes fournissant un plan de son-dage
de type PESR avec ´echantillons de taille n fix´ee a
priori
2.11.3 Tirage de Bernoulli
2
3. 2.1 DEFINITIONS
• Le nombre n de tirages `a effectuer dans la population
est fix´e a priori
• 2 proc´edures possibles de tirage al´eatoire :
a) n tirages au hasard avec remise : n tirages au hasard
successifs et en repla¸cant l’unit´e selectionn´ee dans la
population avant le tirage suivant
b) n tirages au hasard sans remise : n tirages au hasard
successifs et sans replacer l’unit´e s´electionn´ee dans la
population avant le tirage suivant
+
= {s1, s2, . . . , sM} : ensemble des ´echantillons que l’on
peut obtenir par la proc´edure de tirage al´eatoire choisie
Caract´eristiques du plan de sondage :
• Tous les individus de U ont la mˆeme probabilit´e de
faire partie de l’´echantillon S qui sera s´electionn´e : ils
ont tous la mˆeme probabilit´e d’inclusion
• Tous les ´echantillons appartenant `a
se voient as-socier
une (mˆeme) probabilit´e connue non nulle de
s´election
3
4. D´enominations :
• sondage PEAR : sondage al´eatoire simple ou `a proba-bilit
´es ´egales, avec remise
• sondage PESR : sondage al´eatoire simple ou `a proba-bilit
´es ´egales, sans remise
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)
2.2.1 Plan de sondage
• Les ´echantillons sont de la forme
s = {i1, i2, . . . , in},
avec i16= i26= . . .6= in 2 U et ns = n
• Nombre M d’´echantillons possibles :
M =
N
n
=
N!
n!(N − n)!
• Pour tout s 2
:
p(s) =
1
N
n
4
5. • Exemple 2.1 :
Population : U = {1, 2, 3, 4} =) N = 4
Taille de l’´echantillon `a pr´elever : n = 2
Taux de sondage : f = n/N = 50%
Ensemble des ´echantillons pouvant ˆetre obtenus par tirage
al´eatoire PESR :
= {{1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4}} =) M = 6
On v´erifie que
N
n
=
4
2
=
4!
2!(4 − 2)!
=
4!
2!2!
=
4 · 3 · 2
2 · 2
= 6 = M
Probabilit´e de s´election d’un ´echantillon s particulier :
p ({2, 4})
= P ((le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4)
ou (le 1er s´electionn´e est 4 et le 2`eme s´electionn´e est 2))
= P(le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4)
+P(le 1er s´electionn´e est 4 et le 2`eme s´electionn´e est 2)
= P(le 1er s´electionn´e est 2)
·P(le 2`eme s´electionn´e est 4| le 1er s´electionn´e est 2)
+P(le 1er s´electionn´e est 4)
·P(le 2`eme s´electionn´e est 2| le 1er s´electionn´e est 4)
4 · 1
3 + 1
4 · 1
3 = 2
12 = 1
6
= 1
=) tous les ´echantillons s de
ont la mˆeme probabilit´e
de s´election : p(s) = 1/6 pour tout s 2
5
6. 2.2.2 Probabilit´es d’inclusion
• La probabilit´e d’inclusion pi de l’individu i est la probabi-lit
´e que cet individu i fasse partie de l’´echantillon (al´eatoire)
S qui sera pr´elev´e ;
en d’autres termes, pi est la probabilit´e de pr´elever un
´echantillon qui contienne l’individu i :
pi = P(i 2 S) =
X
s2
|i2s
p(s)
• Dans le cas du sondage PESR, pour tout i 2 U :
pi =
X
s2
|i2s
1
N
n
=
nombre d’´echantillons possibles contenant i
N
n
=
N − 1
n − 1
N
n
=
n
N
= taux de sondage
6
7. • Exemple 2.1 (suite) :
Probabilit´e d’inclusion de l’individu 2 : 3 ´echantillons sur
les 6 ´echantillons possibles contiennent l’individu 2
=) p2 =
3
6
=
1
2
=
n
N
On v´erifie que tous les individus de U ont bien la mˆeme
probabilit´e d’inclusion :
pi =
1
2
pour tout i 2 U
7
8. 2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)
2.3.1 Plan de sondage
• Les ´echantillons possibles sont de la forme
s = {i1, i2, . . . , in}
avec i1, i2, . . . , in 2 U. Un mˆeme individu peut ˆetre s´electionn´e
`a plusieurs reprises (ns n).
• Nombre M d’´echantillons possibles :
M = . . . (expression tr`es complexe)
M = nombre d’´echantillons dont les n individus sont dis-tincts
+ nombre d’´echantillons dans lesquels un individu
est s´electionn´e 2 fois et les (n − 2) autres individus sont
distincts + nombre d’´echantillons dans lesquels 2 indivi-dus
sont chacun s´electionn´es 2 fois et les (n − 4) autres
individus sont distincts + . . .
8
9. • Exemple 2.2 :
Population : U = {1, 2, 3, 4} =) N = 4
Nombre de tirages `a effectuer : n = 2
Ensemble des ´echantillons pouvant ˆetre obtenus par tirage
al´eatoire PEAR :
= {{1, 1}, {1, 2}, {1, 3}, {1, 4}, {2, 2}, {2, 3}, {2, 4},
{3, 3}, {3, 4}, {4, 4}} =) M = 10
Probabilit´e de s´election d’un ´echantillon s particulier : mˆeme
raisonnement que dans l’exemple 2.1
p ({2, 4}) =
1
4
·
1
4
+
1
4
·
1
4
=
2
16
=
1
8
p ({1, 1}) =
1
4
·
1
4
=
1
16
=) on v´erifie que
p ({1, 1}) = p ({2, 2}) = p ({3, 3}) = p ({4, 4}) =
1
16
p ({1, 2}) = p ({1, 3}) = . . . = p ({3, 4}) =
2
16
=
1
8
9
10. • On peut associer `a tout ´echantillon s 2
une probabilit´e
de s´election p(s) telle que
p(s) 0 et
X
s2
p(s) = 1
MAIS, contrairement au sondage al´eatoire PESR, les ´echantillons
de
ne sont pas tous ´equiprobables.
Remarque : Par contre, si on tient compte de l’ordre de
tirage dans la d´efinition des ´echantillons, ces derniers re-deviennent
´equiprobables :
– Les ´echantillons possibles sont de la forme
so = (i1, i2, . . . , in)
avec i1, i2, . . . , in 2 U et ik= individu s´electionn´e lors
du k`eme tirage (k = 1, . . . , n)
– Nombre Mo d’´echantillons possibles :
Mo = Nn
– Pour tout so 2
o :
p(so) =
1
Nn
10
11. Exemple 2.2 (suite) :
o = {(1, 1), (1, 2), (1, 3), (1, 4)
(2, 1), (2, 2), (2, 3), (2, 4)
(3, 1), (3, 2), (3, 3), (3, 4)
(4, 1), (4, 2), (4, 3), (4, 4)}
=) Mo = 16 = 42
p ((2, 4)) = P (le 1er s´electionn´e est 2
et le 2`eme s´electionn´e est 4)
=
1
4
·
1
4
=
1
16
On v´erifie que p(so) = 1/16 pour tout so 2
o
11
12. 2.3.2 Probabilit´es d’inclusion
Pour tout i 2 U :
pi = P(i 2 S)
= 1 − P(i 2 /S)
= 1 −
P(i n’est s´electionn´e `a aucun des n tirages)
N − 1
= 1 −
N
n
= 1 −
1 −
1
N
n
=) tous les individus de U ont bien la mˆeme probabilit´e
d’inclusion
Exemple 2.2 (suite) :
Probabilit´e d’inclusion de l’individu 2 :
p2 = 1 −
1 −
1
4
2
= 1 −
3
4
2
=
7
16
12
13. Remarque :
Si n N, alors pi
=
n/N
=)les probabilit´es d’inclusion pour le sondage PEAR sont
pratiquement identiques `a celles pour le sondage PESR
Exemple :
N = 1 000
n = 10
=) f =
n
N
= 1%
PESR : pi = f = 1%
PEAR : pi = 1 −
1 − 1
1 000
10
= 0.00995 =
0.01 = 1%
13
14. 2.4 VARIABLES INDICATRICES
S = ´echantillon (al´eatoire) qui sera pr´elev´e
par n tirages al´eatoires dans la population
nS = nombre d’individus distincts dans S
=) sondage al´eatoire
PESR : nS = n
PEAR : nS n
(PEAR : un mˆeme individu peut ˆetre s´electionn´e `a plu-sieurs
reprises =) nS est al´eatoire)
Variables indicatrices d’inclusion : pour tout i 2 U,
• Ii =
1 si i 2 S
0 sinon
P(Ii = 1) = P(i 2 S) = pi
•
P(Ii = 0) = P(i 2 /S) = 1 − pi
=) Ii Bin(1, pi)
=)
E(Ii) = pi
Var(Ii) = pi(1 − pi)
•
P
i2U Ii
= nombre d’individus de U qui font partie de l’´ech. S
= nS
14
15. •
P
i2U pi =
P
i2U E(Ii) = E
P
i2U Ii
= E(nS)
Exemple : Pour le sondage PESR :
X
i2U
pi =
X
i2U
n
N
= N ·
n
N
= n
15
16. 2.5 ESTIMATEUR
Objectif
Estimer un param`etre-population :
= (y1, y2, . . . , yN) 2
(cf. Section 1.2.3 : = , μ, 2, , . . .)
Estimateur ˆ de
• Un estimateur ˆ de est une fonction des valeurs ob-serv
´ees pour Y dans l’´echantillon pr´elev´e, qui prend
ses valeurs dans l’ensemble des valeurs possibles de
:
ˆ = h(yi; i 2 S) 2
• ˆ est une variable al´eatoire :on ne peut pas pr´edire `a
l’avance quels individus feront partie de l’´echantillon
particulier s qui sera effectivement pr´elev´e
=) on ne peut pas pr´edire `a l’avance quelles valeurs
de Y seront observ´ees dans l’´echantillon particulier s
qui sera effectivement pr´elev´e
=) on ne peut pas pr´edire `a l’avance quelle valeur
prendra ˆ dans l’´echantillon particulier s qui sera ef-fectivement
pr´elev´e
16
17. • La valeur prise par ˆ dans l’´echantillon particulier s est
not´ee ˆs :
ˆs = h(yi; i 2 s);
cette valeur ˆs fournit une estimation de .
• Comme toute variable al´eatoire, l’estimateur ˆ poss`ede
une certaine distribution de probabilit´e, appel´ee distri-bution
d’´echantillonnage, ´etroitement li´ee au plan de
sondage : n
ˆs, p(s)
; s 2
o
=)
8
:
E(ˆ) =
P
s2
p(s)ˆs
Var(ˆ) =
P
s2
p(s)
ˆs − E(ˆ)
2
17
18. Exemple 2.3
• Population : U = {1, 2, 3}
• Variable d’int´erˆet : Y = ˆage
avec y1 = 28, y2 = 32, y3 = 40
• Param`etres-population :
μ =
28 + 32 + 40
3
= 33.33
2 =
(28 − 33.33)2 + (32 − 33.33)2 + (40 − 33.33)2
3
= 24.89
= proportion d’individus dans la population
ˆag´es de moins de 30 ans
= 1/3
• Plan de sondage (PESR) :
n = 2
= {s1 = {1, 2}, s2 = {1, 3}, s3 = {2, 3}}
p(s1) = p(s2) = p(s3) = 1/3
18
19. • Estimateurs :
ˆμ =
1
n
X
i2S
yi = y (moyenne-´echantillon)
ˆ2 =
1
n
X
i2S
(yi − y)2 = s2 (variance-´echantillon)
ˆ = proportion d’individus dans l’´echantillon S
ˆag´es de moins de 30 ans
• Distributions d’´echantillonnage :
s p(s) ˆμs ˆ2
s ˆs
{1,2} 1/3 30 4 0.5
{1,3} 1/3 34 36 0.5
{2,3} 1/3 36 16 0
1
=)
E(ˆμ) =
1
3
· 30 +
1
3
· 34 +
1
3
· 36
= 33.33 = μ
Var(ˆμ) =
1
3
(30 − 33.33)2 +
1
3
(34 − 33.33)2
+
1
3
(36 − 33.33)2 = 6.45
E(ˆ2) =
1
3
· 4 +
1
3
· 36 +
1
3
· 16
= 18.676= 2
19
20. E(ˆ) =
1
3
· (0.5) +
1
3
· (0.5) +
1
3
· 0 =
1
3
=
Var(ˆ) =
1
3
1
2
−
1
3
2
+
1
3
1
2
−
1
3
2
+
1
3
0 −
1
3
2
= 0.05
Erreur d’´echantillonnage
• En g´en´eral, la valeur prise par un estimateur dans un
´echantillon est diff´erente de la valeur du param`etre
qu’il cherche `a estimer.
Ex. : En g´en´eral, la moyenne-´echantillon est distincte
de la moyenne-population.
• La valeur ˆs prise par l’estimateur ˆ dans l’´echantillon
s n’est qu’une estimation de la valeur exacte du pa-ram`
etre-population .
• L’erreur que l’on commet en rempla¸cant par ˆs n’est
pas imputable `a une incomp´etence dans des mesures
ou des calculs : elle r´esulte du fait qu’une partie de la
population a ´et´e omise. Cette erreur est appel´ee erreur
d’´echantillonnage.
• On peut ´evaluer l’importance de l’erreur d’´echantillonnage
associ´ee `a un estimateur en calculant le biais et la va-riance
ou l’erreur quadratique moyenne de cet estima-teur.
20
21. Deux propri´et´es sont g´en´eralement recherch´ees pour un
estimateur :
– ˆetre sans biais
– avoir une bonne pr´ecision
21
22. Biais d’un estimateur
• Un estimateur ˆ du param`etre-population est sans
biais (non biais´e) si et seulement si
E(ˆ) =
Ex. : ˆμ est un estimateur sans biais de μ ; ˆ est un
estimateur sans biais de ; ˆ2 est un estimateur biais´e
de 2
• Le biais de l’estimateur ˆ est
B(ˆ) = E(ˆ) −
22
23. Pr´ecision d’un estimateur
• La pr´ecision d’un estimateur est mesur´ee par son er-reur
quadratique moyenne EQM(ˆ) (mean squared er-ror
MSE(ˆ)) :
h
i
X
EQM(ˆ) = E
( ˆ− )2
=
s2
p(s)(ˆs − )2
= Var(ˆ) +
B(ˆ)
2
• Si ˆ est un estimateur sans biais de , alors
EQM(ˆ) = Var(ˆ)
Distributions d’´echantillonnage de ˆ1 et ˆ2 :
E(ˆ1) = E(ˆ2) = ; Var(ˆ1) Var(ˆ2)
P
− ˆ1 +
P
− ˆ2 +
La probabilit´e de prendre une valeur fort proche de
est plus grande pour ˆ1 que pour ˆ2.
23
24. 2.6 ESTIMATION D’UNE MOYENNE
2.6.1 Sondage al´eatoire PESR
Echantillon de taille n
a) Estimateur de μ :
ˆμPESR =
1
n
X
i2S
yi = y (moyenne-´echantillon)
b) ˆμPESR est sans biais : E(ˆμPESR) = μ
D´em. :
E(ˆμPESR) = E
1
n
X
i2S
yi
!
= E
1
n
X
i2U
yiIi
!
=
1
n
X
i2U
yi E(Ii)
=
1
n
X
i2U
yi pi car E(Ii) = pi
=
1
n
X
i2U
yi
n
N
car pi = n
N (PESR)
=
1
N
X
i2U
yi = μ
24
25. c) Pr´ecision de ˆμPESR :
Var(ˆμPESR) =
1
n
−
1
N
2
corr = (1 − f)
2
corr
n
o`u
f =
n
N
et 2
corr =
1
N − 1
X
i2U
(yi − μ)2
La variance et donc la pr´ecision de ˆμPESR d´ependent de
trois ´el´ements :
• la taille n de l’´echantillon : plus l’´echantillon est grand,
plus l’estimation de μ est pr´ecise
• le taux de sondage f : plus f est proche de 1, c’est-
`a-dire plus la taille de l’´echantillon est proche de celle
de la population, plus l’estimation de μ est pr´ecise. A
la limite, pour f = 1 (´echantillon ´egal `a la population
tout enti`ere), Var(ˆμPESR) = 0 : il n’y a plus d’erreur
d’´echantillonnage
• la variance 2
corr de la variable d’int´erˆet Y dans la po-pulation
U : plus la population est homog`ene (2
corr pe-tite),
plus le sondage y est efficace. Par contre, sonder
une population tr`es h´et´erog`ene (2
corr grande) n´ecessite,
pour s’assurer que Var(ˆμPESR) ne soit pas trop ´elev´ee,
de pr´elever un ´echantillon de taille importante ou de
r´ealiser un d´ecoupage pr´ealable en sous-populations
homog`enes (cf. sondage stratifi´e)
25
26. d) Estimation de Var(ˆμPESR)
On peut montrer que la variance-´echantillon corrig´ee
s2
corr =
1
n − 1
X
i2S
(yi − y)2
est un estimateur sans biais de 2
corr. D`es lors,
cVar(ˆμPESR) = (1 − f)
s2
corr
n
est un estimateur sans biais de Var(ˆμPESR).
La valeur prise par cVar(ˆμPESR) dans l’´echantillon s parti-culier
effectivement pr´elev´e nous fournit une estimation de
la variance, et donc de la pr´ecision, de l’estimateur ˆμPESR
de μ.
26
27. e) Exemple 2.4
Une population U est compos´ee des cinq nombres 2, 3, 6, 8 et 11.
On veut estimer la moyenne-population μ `a partir d’un ´echantillon
d’effectif 2 pr´elev´e dans U selon une proc´edure PESR.
! Estimateur de μ : y. Propri´et´es de y ?
Param`etres de la population :
μ =
2 + 3 + 6 + 8 + 11
5
= 6
2 =
(2 − 6)2 + . . . + (11 − 6)2
5
= 10.8
2
corr =
5
4
(10.8) = 13.5
Taux de sondage :
f =
n
N
=
2
5
= 0.4 = 40%
Nombre d’´echantillons possibles :
N
n
=
5
2
=
5!
2!(5 − 2)!
=
5!
2!3!
=
5 × 4 × 3 × 2 × 1
2 × 1 × 3 × 2 × 1
= 10
27
28. Plan de sondage et distribution d’´echantillonnage de y :
Echantillons
possibles : s p(s) ys
{2, 3} 1/10 2.5
{2, 6} 1/10 4
{2, 8} 1/10 5
{2, 11} 1/10 6.5
{3, 6} 1/10 4.5
{3, 8} 1/10 5.5
{3, 11} 1/10 7
{6, 8} 1/10 7
{6, 11} 1/10 8.5
{8, 11} 1/10 9.5
1
E(y) =
1
10
(2.5) +
1
10
(4) + . . . +
1
10
(9.5) = 6 = μ
Var(y) =
1
10
(2.5 − 6)2 +
1
10
(4 − 6)2 + . . . +
1
10
(9.5 − 6)2 = 4.05
On v´erifie bien que Var(y) = (1 − f)2
corr
n = (1 − 0.4)13.5
2 = 4.05.
Supposons que le hasard nous fasse s´electionner l’´echantillon {2, 3}.
Dans ce cas, y = 2.5 (estimation de μ) et
s2
corr =
1
2 − 1
(2 − 2.5)2 + (3 − 2.5)2
= 0.5 .
On estime alors Var(y) par
(1 − f)
s2
corr
n
= (1 − 0.4)
0.5
2
= 0.15 .
28
29. 2.6.2 Sondage al´eatoire PEAR
n tirages al´eatoires avec remise dans la population
nS = nombre (al´eatoire) d’individus distincts dans l’´echantillon
S qui sera pr´elev´e
(i) Lien avec l’inf´erence statistique classique
F Dans la population U :
Les valeurs prises par la variable d’int´erˆet Y chez les N
individus de U sont
y1, y2, . . . , yN
=)
(
μ = 1
N
P
i2U yi
2 = 1
N
P
i2U(yi − μ)2
F Tirage au hasard (`a probabilit´es ´egales) d’un individu
dans la population :
• Il s’agit d’une exp´erience al´eatoire dont l’ensemble des
r´esultats possibles est U.
• On peut associer `a cette exp´erience al´eatoire la va-riable
al´eatoire Z qui prend la valeur yi si l’individu
s´electionn´e est l’individu i.
29
30. Cette v.a. Z poss`ede une distribution de probabilit´e
qui co¨ıncide avec la distribution (de fr´equences) de Y
dans U : pour i = 1, . . . ,N,
P(Z = yi) = P(l’individu s´electionn´e est l’individu i)
= 1/N
( +
E(Z) = μ
Var(Z) = 2
F n tirages `a probabilit´es ´egales et avec remise (PEAR)
dans la population :
• On associe au k`eme tirage (k = 1, . . . , n) la va-riable
al´eatoire Zk qui prend la valeur yi si l’individu
s´electionn´e au k`eme tirage est l’individu i :
Zk = yi si ik = i;
P(Zk = yi) = P (l’individu s´electionn´e au k`eme tirage
est l’individu i) = 1/N
=)
(
E(Zk) = μ
Var(Zk) = 2 (k = 1, . . . , n)
• Les Zk (k = 1, . . . , n) sont des v.a. ind´ependantes et
identiquement distribu´ees (i.i.d.)
30
31. (ii) Tirage de n individus distincts : nS = n
a) Estimateur de μ :
ˆμPEAR =
1
n
X
i2S
yi = y (moyenne-´echantillon)
Autre ´ecriture possible : ˆμPEAR = 1
n
Pn
k=1 Zk
b) ˆμPEAR est sans biais :
E(ˆμPEAR) = μ
D´em. :
E(ˆμPEAR) =
1
n
Xn
k=1
E(Zk) =
1
n
Xn
k=1
μ = μ
c) Pr´ecision de ˆμPEAR :
Var(ˆμPEAR) =
2
n
D´em. :
Var(ˆμPEAR) = Var
1
n
Xn
k=1
Zk
!
=
1
n2
Xn
k=1
Var(Zk)
=
1
n2
Xn
k=1
2 =
n2
n2 =
2
n
31
32. Pour le sondage al´eatoire PEAR, comme dans le cas du
sondage al´eatoire PESR, la variance et donc la pr´ecision
de ˆμPEAR d´epend de
• la taille n de l’´echantillon
• la variance 2 de la variable d’int´erˆet Y dans la po-pulation
U
=) plus l’´echantillon est grand et la population est
homog`ene, plus l’estimation de μ est pr´ecise
MAIS,
contrairement au cas du sondage al´eatoire PESR, la
variance de ˆμPEAR ne d´epend pas de la taille N de
la population (et donc du taux de sondage f), ce qui
n’est pas n´ecessairement tr`es intuitif ! ! !
d) Estimation de Var(ˆμPEAR) :
La variance-´echantillon corrig´ee
s2
corr =
1
n − 1
X
i2S
(yi − y)2
est un estimateur sans biais de 2 (cf. cours de statis-tique
de base). D`es lors,
cVar(ˆμPEAR) =
s2
corr
n
est un estimateur sans biais de Var(ˆμPEAR)
32
34. ) Distribution d’´echantillonnage de y :
Valeurs possibles
de y Probas
2 1/25
2.5 2/25
3 1/25
4 2/25
4.5 2/25
5 2/25
5.5 2/25
6 1/25
6.5 2/25
7 4/25
8 1/25
8.5 2/25
9.5 2/25
11 1/25
1
E(y) =
1
25
(2) +
2
25
(2.5) + . . . +
1
25
(11) = 6 = μ
Var(y) =
1
25
(2 − 6)2 +
2
25
(2.5 − 6)2 + . . . +
1
25
(11 − 6)2 = 5.4
On v´erifie bien que Var(y) = 2
n = 10.8
2 = 5.4.
Supposons que le hasard nous fasse s´electionner l’´echantillon {2, 3}.
Dans ce cas, y = 2.5 (estimation de μ) et s2
corr = 0.5. On estime alors
Var(y) par
s2
corr
n
=
0.5
2
= 0.25 .
34
35. (iii) Tirage de m individus distincts : nS = m n
1) Utilisation des n observations
Mˆemes r´esultats qu’en (ii) (! ˆμPEAR)
2) Prise en compte seulement des m individus distincts
a) Estimateur de μ :
ˆμdiff =
1
nS
X
i2Sdiff
yi
o`u
• S = ´echantillon al´eatoire constitu´e des n individus
pr´elev´es
• Sdiff = ensemble des individus distincts s´electionn´es
• nS = #Sdiff = nombre d’individus distincts dans S
Remarque :
S est al´eatoire ) Sdiff et nS sont al´eatoires ) le
nombre d’observations `a prendre en consid´eration
pour calculer ˆμdiff est al´eatoire : difficult´e suppl´ementaire ! ! !
b) ˆμdiff est sans biais :
E(ˆμdiff) = μ
35
36. c) Pr´ecision de ˆμdiff :
• Var(ˆμdiff) =
1
n − 1
2N + n−1
12N2
2
corr
• Var(ˆμdiff) Var(ˆμPEAR) :
dans le cas du pr´el`evement de n individus par son-dage
PEAR, il est toujours plus int´eressant de ne
conserver que les unit´es statistiques distinctes.
36
37. 2.7 ESTIMATION D’UN TOTAL
Dans la population U : =
P
i2U yi = Nμ
2.7.1 Estimateur de
Dans le cas du sondage PESR comme dans celui du son-dage
PEAR o`u l’on utilise les n observations de l’´echantillon,
on estime μ par y, que nous d´esignerons simplement par
ˆμ
=) Estimateur de : ˆ = N ˆμ
N.B.) N est suppos´e connu
2.7.2 Esp´erance de ˆ
Dans le cas des sondages PESR et PEAR o`u l’on utilise les
n observations de l’´echantillon :
E(ˆμ) = μ
=) E(ˆ ) = NE(ˆμ) = Nμ =
=) ˆ est un estimateur sans biais de
37
38. 2.7.3 Pr´ecision de ˆ
Var(ˆ ) = Var(N ˆμ) = N2Var(ˆμ)
a) Sondage al´eatoire PESR
• Var(ˆ ) = N2(1 − f)2
corr/n
• cVar(ˆ ) = N2(1 − f)s2
corr/n
b) Sondage al´eatoire PEAR (utilisation des n observations
de l’´echantillon)
• Var(ˆ ) = N22/n
• cVar(ˆ ) = N2s2
corr/n
38
39. 2.8 ESTIMATION D’UNE PROPORTION
• U est partag´e en deux sous-ensembles : K1 et K2
Ex. : K1 = ensemble des individus de la population U qui
poss`edent une certaine caract´eristique
• = proportion d’individus de U qui appartiennent `a K1
• peut ˆetre vu comme une moyenne-population :
Soit
yi =
1 si i 2 K1
0 si i 2 K2
(i = 1, . . . ,N)
)
8
:
μ = 1
N
P
i2U yi =
2 = 1
N
P
i2U(yi − μ)2 = 1
N
P
i2U y2
i − μ2
= 1
N
P
i2U yi − μ2 = − 2 = (1 − )
2.8.1 Estimateur de
Dans le cas des sondages PESR et PEAR o`u l’on utilise les
n observations de l’´echantillon :
ˆ = ˆμ = y = 1
n
P
i2S yi
= proportion d’individus dans l’´echantillon
qui appartiennent `a K1
39
40. 2.8.2 Esp´erance de ˆ
Dans le cas des sondages PESR et PEAR o`u l’on utilise les
n observations de l’´echantillon :
E(ˆ) =
=) ˆ est sans biais
2.8.3 Pr´ecision de ˆ
a) Sondage al´eatoire PESR
•
Var(ˆ) = (1 − f)
2
corr
n
= (1 − f)
1
n
·
N
N − 1
2
= (1 − f)
N(1 − )
(N − 1)n
= (1 −
n
N
)
N(1 − )
(N − 1)n
=
N − n
N − 1
·
(1 − )
n
=
(1 − f)
(1 − )
n
si
N
N − 1
=
1
40
41. • Un estimateur sans biais de 2
corr est
s2
corr =
1
n − 1
X
i2S
(yi − y)2
=
n
n − 1
1
n
X
i2S
(yi − y)2
!
=
n
n − 1
1
n
X
i2S
y2
i − y2
!
=
n
n − 1
1
n
X
i2S
yi − y2
!
=
n
n − 1
ˆ − ˆ2
=
n
n − 1
ˆ(1 − ˆ)
=) Un estimateur sans biais de Var(ˆ) = (1−f)2
corr
n
est
cVar(ˆ) = (1 − f)
ˆ(1 − ˆ)
n − 1
41
42. b) Sondage al´eatoire PEAR (utilisation des n observations
de l’´echantillon)
• Var(ˆ) = 2
n = (1−)
n
corr = n
• Un estimateur sans biais de 2 est s2
n−1 ˆ(1−ˆ)
=) un estimateur sans biais de Var(ˆ) = 2
n est
cVar(ˆ) =
ˆ(1 − ˆ)
n − 1
En conclusion : facteurs jouant sur Var(ˆ) (ou
p
Var(ˆ))
PEAR :
p
Var(ˆ) =
r
(1 − )
n
PESR :
p
Var(ˆ)
r
(1 − f)
(1 − )
n
r
(1 − )
n
si f fort petit
42
44. 2.9 EFFET DE (PLAN DE) SONDAGE
Question : Lorsqu’on d´esire estimer un param`etre-population
par sondage et qu’on a le choix entre plusieurs plans de
sondage possibles, lequel doit-on utiliser ?
R´eponse : L’id´eal est de pouvoir appliquer le plan de son-dage
donnant lieu `a l’estimateur le plus pr´ecis du param`etre-population.
L’effet de sondage est une mesure permettant de comparer
deux plans de sondage en termes de pr´ecision des estima-teurs
qu’ils fournissent.
2.9.1 D´efinition
• : param`etre `a estimer
• On dispose de deux plans de sondage diff´erents (pour
la mˆeme taille d’´echantillon n) :
P1 = {(s, p1(s)); s 2
1}
P2 = {(s0, p2(s0)); s0 2
2}
• ˆ1 : estimateur de si l’on suit le plan de sondage P1
ˆ2 : estimateur de si l’on suit le plan de sondage P2
44
45. • Si ˆ1 et ˆ2 sont deux estimateurs sans biais de , alors
l’effet de sondage de P1 par rapport `a P2 est d´efini par
D(P1| P2) =
VarP1(ˆ1)
VarP2(ˆ2)
• Interpr´etation :
D(P1| P2) 1
() VarP1(ˆ1) VarP2(ˆ2)
() pour une mˆeme taille d’´echantillon n, l’estima-teur
ˆ1 est plus pr´ecis que l’estimateur ˆ2
()le plan de sondage P1 permet une estimation plus
pr´ecise de que le plan de sondage P2
2.9.2 Exemple
Prenons = μ.
La taille n de l’´echantillon est fix´ee a priori.
P1 : sondage al´eatoire PESR : ˆ1 = ˆμPESR = y et
VarPESR(y) =
1
n
−
1
N
2
corr =
N − n
N − 1
·
2
n
P2 : sondage al´eatoire PEAR : ˆ2 = ˆμPEAR = y et
VarPEAR(y) =
2
n
45
46. =) D(PESR| PEAR) = N−n
N−1
=
1 − f 1
=) PESR doit ˆetre pr´ef´er´e `a PEAR
Exemple 2.4 (suite)
L’effet de sondage est donn´e par
D(PESR|PEAR) =
VarPESR(y)
VarPEAR(y)
=
4.05
5.4
= 0.75 1.
y est un estimateur de μ plus pr´ecis dans le cas PESR ;
les valeurs possibles de y sont moins dispers´ees autour de
μ = 6 dans le cas PESR que dans le cas PEAR.
Remarques :
• On peut montrer que, pour un mˆeme nombre n de ti-rages,
Var(ˆμPESR) Var(ˆμdiff) Var(ˆμPEAR);
le plan al´eatoire simple sans remise est toujours pr´ef´erable
et, si le plan est avec remise, il est toujours plus int´eressant
de ne conserver que les unit´es statistiques distinctes.
46
47. • Si n est petit par rapport `a N (c`ad le taux de sondage
f est tr`es petit), alors le gain en pr´ecision de PESR par
rapport `a PEAR est tr`es faible.
Valeurs de N−n
N−1
N ! 100 10 000 1 000 000
n #
10 0.909 0.999 0.99999
100 0 0.990 0.99990
1 000 − 0.900 0.99900
10 000 − 0 0.99000
• En pratique, le choix du plan de sondage ne se fonde pas
sur le seul crit`ere de la pr´ecision de l’estimateur. Ce choix
doit se faire en tenant compte aussi
– du coˆut de l’op´eration
– des possibilit´es d’application
– des facilit´es d’application
Ces diff´erents crit`eres sont parfois contradictoires !
47
48. 2.10 INTERVALLES DE CONFIANCE
2.10.1 Distribution d’´echantillonnage de ˆμ
(i) Sondage al´eatoire PEAR
• Rappels :
– n tirages au hasard successifs avec remise
– On associe au k`eme tirage (k = 1, . . . , n) la va-riable
al´eatoire Zk qui prend la valeur yi si l’individu
s´electionn´e au k`eme tirage est l’individu i
– Z1,Z2, . . . ,Zn sont des v.a.’s i.i.d. telles que
E(Zk) = μ et Var(Zk) = 2
pour tout k = 1, . . . , n ; Zk a une distribution de
probabilit´e qui co¨ıncide avec la distribution de fr´equences
de la variable d’int´erˆet Y dans la population U
• Si Y a une distribution de fr´equences que l’on peut
”approcher” (ajuster) par la loi N(μ, 2), alors on peut
consid´erer que Z1,Z2, . . . ,Zn sont i.i.d. N(μ, 2)
et
ˆμ =
1
n
Xn
k=1
Zk N
μ,
2
n
()
ˆμ − μ
/
p
n
N(0, 1)
48
49. Si, de plus, 2 est inconnu, on peut l’estimer par son
estimateur sans biais s2
corr et on a
μ ˆ− μ
p
scorr/
n
tn−1
• Dans le cas o`u l’on ne connaˆıt pas la distribution de Y
dans U, le th´eor`eme central limite (TCL) nous indique
que, si n 30,
ˆμ − μ
/
p
n
N(0, 1)
Si, de plus, 2 est inconnu, on peut l’estimer par son
estimateur sans biais s2
corr et on a
ˆμ − μ
scorr/
p
n
N(0, 1)
(ii) Sondage al´eatoire PESR
• Si on d´efinissait des v.a.’s Zk (k = 1, . . . , n) comme
pour le sondage al´eatoire PEAR, elles ne seraient ni
ind´ependantes, ni ´equidistribu´ees
=) impossibilit´e de faire appel au TCL classique
=) utilisation d’un th´eor`eme central pour population
finie
49
50. • Si U(N) est une population de taille N, de moyenne
μ(N) et de variance ((N))2
et
si y(n) est la variable al´eatoire correspondant `a la moyenne
arithm´etique des observations d’un ´echantillon al´eatoire
S(n) de taille n : y(n) = 1
n
P
i2S(n) yi,
alors
y(n) − μ(N)
q
Var(y(n))
N(0, 1)
quand n ! 1 et N − n ! 1, et sous des condi-tions
g´en´erales li´ees `a la part de ((N))2 due `a chaque
´el´ement de U(N)
• Sous des conditions identiques :
y(n) − μ(N)
q
cVar(y(n))
N(0, 1)
50
51. 2.10.2 Intervalles de confiance
De mani`ere g´en´erale, si ˆ est un estimateur non biais´e de
et si on peut supposer que
ˆ − q
cVar(ˆ)
N(0, 1),
l’intervalle de confiance pour au niveau de confiance 1−
(0 1) est donn´e par
ˆ ± z1−/2
q
cVar(ˆ)
,
o`u z1−/2 est le quantile d’ordre 1−/2 de la loi N(0, 1)
(si X N(0, 1), alors P[X z1−/2] = 1 − /2)
D´em. :
Si X N(0, 1), alors
P(−z1−/2 X z1−/2) = 1 − .
51
52. Puisque pˆ−
dVar(ˆ)
N(0, 1), on a donc
P
−z1−/2
pˆ−
dVar(ˆ)
z1−/2
=
1 −
=) P
ˆ − z1−/2
q
cVar(ˆ) ˆ + z1−/2
q
cVar(ˆ)
=
1 −
N.B.)
• si 1 − = 95%, alors z1−/2 = z0.975 = 1.96
• si 1 − = 90%, alors z1−/2 = z0.95 = 1.645
(i) I.C. pour μ au niveau de confiance 1 − :
ˆμ ± z1−/2
q
cVar(ˆμ)
PESR :
ˆμ ± z1−/2
q
(1 − f)s2
corr
n
PEAR :
ˆμ ± z1−/2
q
s2
corr
n
52
53. (ii) I.C. pour au niveau de confiance 1 − :
ˆ ± z1−/2
q
cVar(ˆ )
PESR :
ˆ ± z1−/2
q
N2(1 − f)s2
corr
n
PEAR :
ˆ ± z1−/2
q
N2s2
corr
n
(iii) I.C. pour au niveau de confiance 1 − :
ˆ ± z1−/2
q
cVar(ˆ)
PESR :
ˆ ± z1−/2
q
(1 − f) ˆ(1−ˆ)
n−1
PEAR :
ˆ ± z1−/2
q
ˆ(1−ˆ)
n−1
Remarque :
L’I.C. pour est un intervalle al´eatoire : les valeurs de ses
bornes varient d’un ´echantillon `a l’autre.
53
54. Exemple 2.5
Un ´echantillon de 400 automobilistes d’un pays comprend 40 pro-pri
´etaires d’une voiture de marque A. Construisez un intervalle de
confiance, au niveau de confiance de 95%, pour la proportion r´eelle
d’automobilistes de ce pays qui poss`edent une voiture de marque A,
en consid´erant que l’´echantillon a ´et´e pr´elev´e selon un tirage PESR
dans une population de taille
a) N = 5 000 ;
b) N = 100 000.
Solution
n = 400
= proportion d’automobilistes poss´edant une voiture de marque A
dans le pays
ˆ = 40/400 = 0.1
L’I.C. pour au niveau de confiance de 95% est
ˆ ± z0.975
q
cVar(ˆ)
=
ˆ ± (1.96)
q
cVar(ˆ)
.
Puisque le tirage est PESR, nous avons
cVar(ˆ) = (1 − f)
ˆ(1 − ˆ)
n − 1
= (1 − f)
(0.1)(0.9)
399
= (1 − f)(0.00023)
a) Si N = 5 000, le taux de sondage est ´egal `a f = 400
5 000 = 0.08 =
8%. On a alors
cVar(ˆ) = (0.92)(0.00023) = 0.00021
)
q
cVar(ˆ) = 0.01441
54
55. L’I.C. pour au niveau de confiance de 95% est alors
[0.1 ± (1.96)(0.01441)] = [0.1 ± 0.02823]
= [0.07177 ; 0.12823] = [7.177% ; 12.823%]
b) Si N = 100 000, le taux de sondage est ´egal `a f = 400
100 000 =
0.004. On a alors
cVar(ˆ) = (0.996)(0.00023) = 0.00022
)
q
cVar(ˆ) = 0.01499
L’I.C. pour au niveau de confiance de 95% est alors
[0.1 ± (1.96)(0.01499)] = [0.1 ± 0.02938]
= [0.07062 ; 0.12938] = [7.062% ; 12.938%]
On voit donc sur cet exemple que, lorsque le taux de sondage diminue
(`a taille n d’´echantillon fix´ee), la pr´ecision (estim´ee) de l’estimateur ˆ
de diminue et, par cons´equent, l’I.C. s’´elargit quelque peu.
Exemple 2.6
145 m´enages de touristes s´ejournant en France dans une r´egion donn´ee
ont d´epens´e, en moyenne journali`ere, 35.5 Euros ; l’´ecart-type de ces
145 d´epenses journali`eres s’´el`eve `a 8.4 Euros. Sachant que dans la
r´egion o`u a ´et´e effectu´ee l’enquˆete il est venu 50 000 m´enages de tou-ristes,
que peut-on dire de la d´epense globale journali`ere de l’ensemble
de ces m´enages (on suppose que l’´echantillon est du type PESR) ?
55
56. Solution
Param`etre `a estimer : = d´epense journali`ere globale des 50 000
m´enages de touristes.
ˆ = Ny = (50 000)(35.5) = 1 775 000 Euros
Le tirage ´etant PESR, on a
cVar(ˆ ) = N2(1 − f)
s2
corr
n
f =
145
50 000
= 0.0029 = 0.29%
s2
corr =
145
144
(8.4)2 = 71.05
= (50 000)2(1 − 0.0029)
71.05
145
= 1 221 447 500
L’I.C. pour au niveau de confiance de 95% est d`es lors ´egal `a
ˆ ± z0.975
q
cVar(ˆ )
= [1 775 000 ± (1.96)(34 949.21)]
= [1 775 000 ± 68 500.46]
= [1 706 499.54 ; 1 843 500.46]
Il y a donc 95 chances sur 100 que la d´epense journali`ere globale des
50 000 m´enages de touristes soit comprise entre (approximativement)
1 706 500 Euros et 1 843 500 Euros.
56
57. 2.10.3 Incertitude absolue et relative
• Si l’I.C. pour est de la forme [ˆ − d, ˆ + d], d est
appel´e incertitude absolue (= demi-longueur de l’I.C.)
De mani`ere g´en´erale,
d = z1−/2
q
cVar(ˆ)
• L’incertitude relative est d´efinie par d/ˆ (en %)
• (i) Incertitude absolue pour μ / PESR
z1−/2
r
(1 − f)
s2
corr
n
(ii) Incertitude absolue pour / PESR
z1−/2
r
N2(1 − f)
s2
corr
n
(iii) Incertitude absolue pour / PESR
z1−/2
r
(1 − f)
ˆ(1 − ˆ)
n − 1
• Tout comme l’I.C., l’incertitude absolue d est al´eatoire :
sa valeur varie d’un ´echantillon `a l’autre.
57
58. • d d´epend de et de cVar(ˆ) (et donc aussi, de fa¸con
indirecte, de Var(ˆ) et de n) :
1) 1 − % =) z1−/2 % =) d %
2) n % =) d
• Pour une proportion , l’incertitude absolue d d´epend
de (ou ˆ). Pour un niveau de confiance de 95% :
r
d = 1.96
(1 − f)
ˆ(1 − ˆ)
n − 1
=
r
2
(1 − f)
ˆ(1 − ˆ)
n
r
2
ˆ(1 − ˆ)
n
r
2
1
4n
=
1
p
n
p
n
Valeur de 1/
(incertitude absolue maximale pour 1 − = 95%)
p
n
n 1/
100 10%
400 5%
1 000 3%
1 600 2.5%
10 000 1%
58
60. 2.10.4 D´etermination de la taille d’un ´echantillon
Probl`eme : Comment doit-on choisir la taille n de l’´echantillon
pour que l’incertitude absolue d ne d´epasse pas une cer-taine
valeur d0 fix´ee a priori ?
N.B.) Le niveau de confiance (1 − ) est fix´e.
Solution : De mani`ere g´en´erale, il faut trouver les valeurs
de n qui permettent de satisfaire l’in´egalit´e
d = z1−/2
q
cVar(ˆ) d0 .
(i) Estimation de μ :
• PESR :
z1−/2
q
(1 − f)s2
corr
n d0
) z1−/2
q
N)s2
(1 − n
corr
n d0
) n
Nz2
1−/2 s2
corr
Nd20+ z2
1−/2 s2
corr
= nPESR
• PEAR :
z1−/2
q
s2
corr
n d0
) n
z2
1−/2s2
corr
d20
= nPEAR
60
61. MAIS
s2
corr est la variance-´echantillon corrig´ee et d´epend donc
elle aussi de la taille n de l’´echantillon !
=) on remplace s2
corr par la variance-´echantillon corrig´ee
observ´ee dans un ´echantillon pr´elev´e lors d’une ´etude pr´eliminaire
ou d’une ´etude ant´erieure du mˆeme type
Remarque :
nPESR et nPEAR sont les tailles minimales d’´echantillon `a
prendre pour un sondage al´eatoire PESR et pour un son-dage
al´eatoire PEAR respectivement. On v´erifie que
nPESR =
nPEAR
1 + nPEAR−1
N
+
• si nPEAR 1, alors nPESR nPEAR :
pour une mˆeme incertitude absolue d0 fix´ee a priori,
la proc´edure PESR ”coˆute moins cher” en termes de
nombre d’individus `a pr´elever que la proc´edure PEAR
• si N est grand, alors nPESR
=
nPEAR :
l’avantage de la proc´edure PESR par rapport `a la proc´edure
PEAR n’est pas tr`es marqu´e si la population sond´ee est
de grande taille
61
62. (ii) Estimation de :
• PESR :
d = z1−/2
q
(1 − f) ˆ(1−ˆ)
n−1
=
z1−/2
q
(1 − f) ˆ(1−ˆ)
n d0
=) n
Nz2
1−/2ˆ(1−ˆ)
Nd20
+ z2
1−/2ˆ(1−ˆ)
• PEAR :
d = z1−/2
q
ˆ(1−ˆ)
n−1
=
z1−/2
q
ˆ(1−ˆ)
n d0
=) n
z2
1−/2ˆ(1−ˆ)
d20
avec ˆ remplac´e par la proportion-´echantillon observ´ee
dans un ´echantillon pr´elev´e lors d’une ´etude pr´eliminaire
ou d’une ´etude ant´erieure du mˆeme type.
Remarque : Dans le cas PEAR, puisque ˆ(1 − ˆ) 1/4
quelle que soit la valeur de ˆ, on peut aussi prendre comme
taille minimale d’´echantillon,
z2
1−/2
4d20
=
z1−/2
2d0
2
;
cette alternative est int´eressante dans le cas o`u l’on ne
dispose pas d’estimation pr´eliminaire de .
62
63. 2.10.5 Exemples
a) Cas d’une moyenne
• Population U constitu´ee de N = 1000 employ´es
• Variable d’int´erˆet : Y = salaire mensuel net
• Param`etre-population : μ = salaire mensuel net moyen
dans la population U
• Plan de sondage : n = 50 (f = 50/1000 = 0.05) -
sondage al´eatoire PESR
• Dans l’´echantillon s pr´elev´e :
y = 1100 Euros
s2
corr = 62500
) cVar(y) = (1 − f)s2
corr
n = (1 − 0.05)62500
50 = 1187.5
) I.C. pour μ au niveau de confiance de 95% :
[1100±(1.96)
p
1187.5] = [1100±67.54] = [1032.46; 1167.54]
) Incertitude absolue : d = 67.54
) Incertitude relative : d/y = 67.54/1100 = 6.14%
63
64. • Quelle taille d’´echantillon faut-il choisir pour pouvoir
obtenir une incertitude absolue inf´erieure ou ´egale `a
d0 = 25 Euros ?
Si l’on prend s2
corr = 62500 comme estimation pr´eliminaire
de la variance-population (corrig´ee), il faut prendre la
taille n de l’´echantillon sup´erieure ou ´egale `a
1000 (1.96)2 62500
1000 (25)2 + (1.96)2 62500
= 277.54
) il faut pr´elever au minimum 278 individus
b) Cas d’une proportion
• Population U constitu´ee de N = 10000000 personnes
• Variable d’int´erˆet : Y = soutien `a un programme
yi =
1 si l’individu i soutient le programme
0 sinon
• Param`etre-population : = proportion de personnes
dans la population U qui soutiennent le programme
• Plan de sondage : n = 1000 (f = 1000/10000000) -
sondage al´eatoire PESR
64
65. • Dans l’´echantillon s pr´elev´e :
ˆ = 0.20
) cVar(ˆ) = 9999000
10000000 · (0.20)(0.80)
999 = 0.00016
) I.C. pour au niveau de confiance de 95% :
[0.20±(1.96)
p
0.00016] = [0.20±0.025] = [0.175; 0.225]
) Incertitude absolue : d = 0.025
) Incertitude relative : d/ˆ = 0.025/0.20 = 12.5%
• Quelle taille d’´echantillon faut-il choisir pour pouvoir
obtenir une incertitude absolue ne d´epassant pas d0 =
0.01 ?
Si l’on prend ˆ = 0.20 comme estimation pr´eliminaire
de la proportion-population , il faut prendre la taille
n de l’´echantillon sup´erieure ou ´egale `a
10000000(1.96)2(0.20)(1 − 0.20)
10000000(0.01)2 + (1.96)2(0.20)(1 − 0.20)
= 6142.78
) il faut prendre au minimum 6143 individus
N.B.) On v´erifie ici que, puisque N est grand,
nPESR
=
nPEAR =
(1.96)2(0.20)(1 − 0.20)
(0.01)2 = 6146.56
65
66. c) Cas d’une proportion
Un Tour Op´erator d´esire tester l’id´ee d’un nouveau mode de distribu-tion
de voyages organis´es aupr`es de son r´eseau d’agences de voyages,
qui comprend 3 000 agences.
S’il veut estimer le nombre d’agences favorables `a son projet, quelle
taille d’´echantillon doit-il interroger ? Faites une ´etude pour diff´erents
niveaux de pr´ecision, en consid´erant un niveau de confiance de 95%.
Solution
N = 3 000
= proportion d’agences favorables au projet
Supposons que l’´echantillon soit pr´elev´e selon un tirage PESR. Pour
que l’I.C. au niveau de confiance de 95% donne lieu `a une incertitude
absolue d0, il faut prendre une taille n d’´echantillon telle que
n nPESR =
N(1.96)2ˆ(1 − ˆ)
Nd20
+ (1.96)2ˆ(1 − ˆ)
·
Mais nous ne disposons d’aucune estimation pr´ealable ˆ de , ce qui
rend impossible le calcul de nPESR par l’expression ci-dessus.
Nous pouvons alors raisonner comme suit. Si nous d´esignons par nPESR
et nPEAR les tailles minimales d’´echantillon `a consid´erer pour que l’in-certitude
absolue soit d0, dans le cas d’un tirage PESR et dans celui
d’un tirage PEAR respectivement, nous pouvons ´ecrire :
nPESR =
nPEAR
1 + nPEAR−1
N
(1)
66
67. et
nPEAR =
(1.96)2ˆ(1 − ˆ)
d20
n0 =
1.96
2d0
2
·
En prenant pour nPEAR sa valeur maximale n0, l’´egalit´e (1) nous per-met
d’avoir une id´ee de la taille nPESR requise. Ainsi,
pour d0 = 0.10 : n0 = 96.04 96 ) nPESR 93
pour d0 = 0.05 : n0 = 384.16 384 ) nPESR 341
pour d0 = 0.03 : n0 = 1 067.11 1 067 ) nPESR 787
pour d0 = 0.02 : n0 = 2 401 ) nPESR 1 334
pour d0 = 0.01 : n0 = 9 604 ) nPESR 2 286
Ces r´esultats montrent bien l’avantage du sondage PESR sur le son-dage
PEAR (pour lequel on garde les n observations r´ealis´ees). Pour
une mˆeme incertitude absolue, le PESR coˆute moins cher en nombre
d’observations que le PEAR. Cet avantage du PESR sur le PEAR se
marque d’autant plus que le taux de sondage est ´elev´e.
N.B.) Dans le cas du PEAR, il arrive mˆeme que l’on doive effectuer un
nombre de tirages sup´erieur `a la taille de la population pour pouvoir
satisfaire l’exigence de pr´ecision que l’on s’est fix´ee (cf. d0 = 0.01 par
exemple).
67
68. 2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS
REMISE
Une des ´etapes cruciales de la mise en oeuvre d’un plan de
sondage est la s´election des unit´es de sondage.
La proc´edure de s´election doit pouvoir se formuler sous la
forme d’un algorithme simple, efficace, rapide et consom-mant
peu d’espace m´emoire.
Id´ealement, l’algorithme de s´election doit pouvoir s’appli-quer
en une seule lecture de la base de sondage.
Il est aussi pratique de pouvoir appliquer l’algorithme de
s´election alors que la taille N de la population n’est pas
connue d’avance (par exemple, lorsqu’on s´electionne des
clients venant se pr´esenter `a un guichet au fur et `a mesure
de leur passage).
68
69. 2.11.1 M´ethode du tri al´eatoire
a) Proc´edure :
• On g´en`ere N nombres (pseudo-)al´eatoires u1, u2, . . . , uN
suivant une loi U(0, 1) (loi continue uniforme sur l’in-tervalle
(0,1)) et, pour i = 1, . . . ,N, on affecte `a
l’individu i le nombre ui
• On trie ensuite la base de sondage par ordre crois-sant
(ou d´ecroissant) des nombres al´eatoires : cette
proc´edure conduit `a effectuer un tri al´eatoire de la
base de sondage
• On choisit enfin les n premiers (ou les n derniers) in-dividus
de la base de sondage ainsi ordonn´ee
b) On montre que cette m´ethode fournit bien un plan de
sondage de type PESR donnant lieu `a des ´echantillons de
taille n fix´ee a priori
c) Avantage de cette m´ethode :
– proc´edure de s´election tr`es ais´ee `a mettre en oeuvre
D´efauts de cette m´ethode :
– la taille N de la population doit ˆetre connue au pr´ealable
– on doit trier toute la base de sondage : cette op´eration
peut s’av´erer tr`es longue quand le fichier est grand
69
70. 2.11.2 D’autres m´ethodes fournissant un plan de sondage de
type PESR avec ´echantillons de taille n fix´ee a priori
M´ethodes moins ch`eres en temps de calcul et espace-m´emoire
• Sondage syst´ematique (cf. Section 5.2), pour autant que
la base de sondage soit tri´ee al´eatoirement ou selon un
ordre n’ayant aucun lien avec la variable d’int´erˆet Y
(ex. : Y = sexe ou choix d’´etudes - base de sondage tri´ee
par ordre alphab´etique)
N.B.) La taille N de la population doit normalement ˆetre
connue au pr´ealable, mais il y a moyen d’adapter la m´ethode
pour pouvoir l’utiliser quand N est inconnu
• M´ethode de s´election-rejet, m´ethode de mise `a jour de
l’´echantillon, m´ethode des sauts al´eatoires, . . .
Certaines de ces m´ethodes ne n´ecessitent pas de connaˆıtre
la taille N de la population au pr´ealable
70
71. 2.11.3 Tirage de Bernoulli
Technique de tirage al´eatoire des individus donnant lieu
• `a la mˆeme probabilit´e d’inclusion pour tous les indivi-dus
de la population
• `a un ´echantillon de taille al´eatoire
a) Proc´edure :
• On se fixe une quantit´e p 2 (0, 1)
• Pour i = 1, . . . ,N :
– On g´en`ere un nombre (pseudo-)al´eatoire ui suivant
une loi U(0, 1) (loi continue uniforme sur l’intervalle
(0,1))
– Si ui p, alors l’individu i est s´electionn´e
Si ui p, alors l’individu i n’est pas s´electionn´e
N.B.) La proc´edure de s´election est ind´ependante d’un in-dividu
`a l’autre
b) Probabilit´es d’inclusion :
pi = P(i 2 S) = P(ui p)
= probabilit´e qu’une v.a. de loi U(0, 1)
prenne une valeur inf´erieure ou ´egale `a p
= p
) tous les individus de la population ont la mˆeme proba-bilit
´e d’inclusion
71
72. c) Avantages de cette m´ethode :
– la base de sondage est lue s´equentiellement ; la taille N
de la population ne doit pas ˆetre connue au pr´ealable
– technique tr`es facile `a programmer
D´efaut de cette m´ethode :
– fournit un ´echantillon de taille al´eatoire (il y a mˆeme
une probabilit´e non nulle de ne s´electionner aucun in-dividu)
d) Taille nS de l’´echantillon :
nS = taille de l’´echantillon qui sera pr´elev´e
= nombre d’individus qui seront s´electionn´es
Bin(N, p)
=) E(nS) = Np et Var(nS) = Np(1 − p)
=) p = taux de sondage moyen
e) Estimation de :
• ˆB = 1
p
P
i2S yi
N.B.) Dans le cas PESR `a taille n fix´ee a priori :
ˆPESR = N ˆμPESR =
N
n
X
i2S
yi
=
1
f
X
i2S
yi =
X
i2S
yi
pi
72
73. •
E(ˆB) = E
1
p
X
i2S
yi
!
= E
1
p
X
i2U
yiIi
!
=
1
p
X
i2U
yiE(Ii) =
1
p
X
i2U
yip
=
X
i2U
yi =
=) ˆB est un estimateur sans biais de
• On montre que (pr´ecision de ˆB)
Var(ˆB) =
1
p − 1
P
y2
i2U i
cVar(ˆB) = 1
p
1
p − 1
P
y2
i2S i
f) Estimation de μ :
• μ =
N ) ˆμB = ˆB
N = 1
Np
P
i2S yi (6= y)
N.B.) Np= 6nS ; Np = E(nS)
• E(μB) ˆ= μ
) μB ˆest un estimateur sans biais de μ
• Var(μB) ˆ= Var
ˆB
N
= 1
N2Var(ˆB)
cVar(ˆμB) = 1
N2
cVar(ˆB)
73