Sondage aléatoire simple ou a probabilité égal

Chapitre 2
SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES
EGALES
PLAN DU CHAPITRE 2
2.1 DEFINITIONS
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)
2.2.1 Plan de sondage
2.2.2 Probabilités d’inclusion
2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)
2.4 VARIABLES INDICATRICES
2.5 ESTIMATEUR
2.6 ESTIMATION D’UNE MOYENNE
2.6.1 Sondage aléatoire PESR
2.6.2 Sondage aléatoire PEAR
2.7 ESTIMATION D’UN TOTAL
2.7.1 Estimateur de
2.7.2 Espérance de ˆ
2.7.3 Précision de ˆ
1

2.8 ESTIMATION D’UNE PROPORTION
2.8.1 Estimateur de
2.9 EFFET DE (PLAN DE) SONDAGE
2.9.1 Définition
2.9.2 Exemple
2.10 INTERVALLES DE CONFIANCE
2.10.1 Distribution d’échantillonnage de ˆμ
2.10.2 Intervalles de confiance
2.10.3 Incertitude absolue et relative
2.10.4 Détermination de la taille d’un échantillon
2.10.5 Exemples
2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS
REMISE
2.11.1 Méthode du tri aléatoire
2.11.2 D’autres méthodes fournissant un plan de son-dage
de type PESR avec échantillons de taille n fixée a
priori
2.11.3 Tirage de Bernoulli
2

2.1 DEFINITIONS
• Le nombre n de tirages à effectuer dans la population
est fixé a priori
• 2 procédures possibles de tirage aléatoire :
a) n tirages au hasard avec remise : n tirages au hasard
successifs et en repla¸cant l’unité selectionnée dans la
population avant le tirage suivant
b) n tirages au hasard sans remise : n tirages au hasard
successifs et sans replacer l’unité sélectionnée dans la
population avant le tirage suivant
+

= {s1, s2, . . . , sM} : ensemble des échantillons que l’on
peut obtenir par la procédure de tirage aléatoire choisie
Caractéristiques du plan de sondage :
• Tous les individus de U ont la même probabilité de
faire partie de l’échantillon S qui sera sélectionné : ils
ont tous la même probabilité d’inclusion
• Tous les échantillons appartenant à
se voient as-socier
une (même) probabilité connue non nulle de
sélection
3

Dénominations :
• sondage PEAR : sondage aléatoire simple ou à proba-bilit
és égales, avec remise
• sondage PESR : sondage aléatoire simple ou à proba-bilit
és égales, sans remise
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)
• Les échantillons sont de la forme
s = {i1, i2, . . . , in},
avec i16= i26= . . .6= in 2 U et ns = n
• Nombre M d’échantillons possibles :
M =

N
n

=
N!
n!(N − n)!
• Pour tout s 2
:
p(s) =
1
N
n

4

• Exemple 2.1 :
Population : U = {1, 2, 3, 4} =) N = 4
Taille de l’échantillon à prélever : n = 2
Taux de sondage : f = n/N = 50%
Ensemble des échantillons pouvant être obtenus par tirage
aléatoire PESR :

= {{1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4}} =) M = 6
On vérifie que
N
n

=

4
2

=
4!
2!(4 − 2)!
=
4!
2!2!
=
4 · 3 · 2
2 · 2
= 6 = M
Probabilité de sélection d’un échantillon s particulier :
p ({2, 4})
= P ((le 1er sélectionné est 2 et le 2ème sélectionné est 4)
ou (le 1er sélectionné est 4 et le 2ème sélectionné est 2))
= P(le 1er sélectionné est 2 et le 2ème sélectionné est 4)
+P(le 1er sélectionné est 4 et le 2ème sélectionné est 2)
= P(le 1er sélectionné est 2)
·P(le 2ème sélectionné est 4| le 1er sélectionné est 2)
+P(le 1er sélectionné est 4)
·P(le 2ème sélectionné est 2| le 1er sélectionné est 4)
4 · 1
3 + 1
4 · 1
3 = 2
12 = 1
6
= 1
=) tous les échantillons s de
ont la même probabilité
de sélection : p(s) = 1/6 pour tout s 2

5

• La probabilité d’inclusion pi de l’individu i est la probabi-lit
é que cet individu i fasse partie de l’échantillon (aléatoire)
S qui sera prélevé ;
en d’autres termes, pi est la probabilité de prélever un
échantillon qui contienne l’individu i :
pi = P(i 2 S) =
X
s2
|i2s
p(s)
• Dans le cas du sondage PESR, pour tout i 2 U :
pi =
X
s2
|i2s
1
N
n

=
nombre d’échantillons possibles contenant i
N
n

=

N − 1
n − 1

N
n
=
n
N
= taux de sondage
6

• Exemple 2.1 (suite) :
Probabilité d’inclusion de l’individu 2 : 3 échantillons sur
les 6 échantillons possibles contiennent l’individu 2
=) p2 =
3
6
=
1
2
=
n
N
On vérifie que tous les individus de U ont bien la même
probabilité d’inclusion :
pi =
1
2
pour tout i 2 U
7

2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)
• Les échantillons possibles sont de la forme
s = {i1, i2, . . . , in}
avec i1, i2, . . . , in 2 U. Un même individu peut être sélectionné
à plusieurs reprises (ns n).
• Nombre M d’échantillons possibles :
M = . . . (expression très complexe)
M = nombre d’échantillons dont les n individus sont dis-tincts
+ nombre d’échantillons dans lesquels un individu
est sélectionné 2 fois et les (n − 2) autres individus sont
distincts + nombre d’échantillons dans lesquels 2 indivi-dus
sont chacun sélectionnés 2 fois et les (n − 4) autres
individus sont distincts + . . .
8

• Exemple 2.2 :
Population : U = {1, 2, 3, 4} =) N = 4
Nombre de tirages à effectuer : n = 2
Ensemble des échantillons pouvant être obtenus par tirage
aléatoire PEAR :

= {{1, 1}, {1, 2}, {1, 3}, {1, 4}, {2, 2}, {2, 3}, {2, 4},
{3, 3}, {3, 4}, {4, 4}} =) M = 10
Probabilité de sélection d’un échantillon s particulier : même
raisonnement que dans l’exemple 2.1
p ({2, 4}) =
1
4
·
1
4
+
1
4
·
1
4
=
2
16
=
1
8
p ({1, 1}) =
1
4
·
1
4
=
1
16
=) on vérifie que
p ({1, 1}) = p ({2, 2}) = p ({3, 3}) = p ({4, 4}) =
1
16
p ({1, 2}) = p ({1, 3}) = . . . = p ({3, 4}) =
2
16
=
1
8
9

• On peut associer à tout échantillon s 2
une probabilité
de sélection p(s) telle que
p(s) 0 et
X
s2

p(s) = 1
MAIS, contrairement au sondage aléatoire PESR, les échantillons
de
ne sont pas tous équiprobables.
Remarque : Par contre, si on tient compte de l’ordre de
tirage dans la définition des échantillons, ces derniers re-deviennent
équiprobables :
– Les échantillons possibles sont de la forme
so = (i1, i2, . . . , in)
avec i1, i2, . . . , in 2 U et ik= individu sélectionné lors
du kème tirage (k = 1, . . . , n)
– Nombre Mo d’échantillons possibles :
Mo = Nn
– Pour tout so 2
o :
p(so) =
1
Nn
10

Exemple 2.2 (suite) :

o = {(1, 1), (1, 2), (1, 3), (1, 4)
(2, 1), (2, 2), (2, 3), (2, 4)
(3, 1), (3, 2), (3, 3), (3, 4)
(4, 1), (4, 2), (4, 3), (4, 4)}
=) Mo = 16 = 42
p ((2, 4)) = P (le 1er sélectionné est 2
et le 2ème sélectionné est 4)
=
1
4
·
1
4
=
1
16
On vérifie que p(so) = 1/16 pour tout so 2
o
11

Pour tout i 2 U :
pi = P(i 2 S)
= 1 − P(i 2 /S)
= 1 −
P(i n’est sélectionné à aucun des n tirages)
N − 1
= 1 −
N
n
= 1 −

1 −
1
N
n
=) tous les individus de U ont bien la même probabilité
d’inclusion
Exemple 2.2 (suite) :
Probabilité d’inclusion de l’individu 2 :
p2 = 1 −

1 −
1
4
2
= 1 −

3
4
2
=
7
16
12

Remarque :
Si n N, alors pi
=
n/N
=)les probabilit´es d’inclusion pour le sondage PEAR sont
pratiquement identiques `a celles pour le sondage PESR
Exemple :
N = 1 000
n = 10

=) f =
n
N
= 1%
PESR : pi = f = 1%
PEAR : pi = 1 −

1 − 1
1 000
10
= 0.00995 =
0.01 = 1%
13

2.4 VARIABLES INDICATRICES
S = échantillon (aléatoire) qui sera prélevé
par n tirages aléatoires dans la population
nS = nombre d’individus distincts dans S
=) sondage aléatoire
PESR : nS = n
PEAR : nS n
(PEAR : un même individu peut être sélectionné à plu-sieurs
reprises =) nS est aléatoire)
Variables indicatrices d’inclusion : pour tout i 2 U,
• Ii =

1 si i 2 S
0 sinon

P(Ii = 1) = P(i 2 S) = pi
•
P(Ii = 0) = P(i 2 /S) = 1 − pi
=) Ii Bin(1, pi)
=)

E(Ii) = pi
Var(Ii) = pi(1 − pi)
•
P
i2U Ii
= nombre d’individus de U qui font partie de l’éch. S
= nS
14

•
P
i2U pi =
P
i2U E(Ii) = E
P
i2U Ii

= E(nS)
Exemple : Pour le sondage PESR :
X
i2U
pi =
X
i2U
n
N
= N ·
n
N
= n
15

2.5 ESTIMATEUR
Objectif
Estimer un paramètre-population :
= (y1, y2, . . . , yN) 2
(cf. Section 1.2.3 : = , μ, 2, , . . .)
Estimateur ˆ de
• Un estimateur ˆ de est une fonction des valeurs ob-serv
ées pour Y dans l’échantillon prélevé, qui prend
ses valeurs dans l’ensemble des valeurs possibles de
:
ˆ = h(yi; i 2 S) 2
• ˆ est une variable aléatoire :on ne peut pas prédire à
l’avance quels individus feront partie de l’échantillon
particulier s qui sera effectivement prélevé
=) on ne peut pas prédire à l’avance quelles valeurs
de Y seront observées dans l’échantillon particulier s
qui sera effectivement prélevé
=) on ne peut pas prédire à l’avance quelle valeur
prendra ˆ dans l’échantillon particulier s qui sera ef-fectivement
prélevé
16

• La valeur prise par ˆ dans l’échantillon particulier s est
notée ˆs :
ˆs = h(yi; i 2 s);
cette valeur ˆs fournit une estimation de .
• Comme toute variable aléatoire, l’estimateur ˆ possède
une certaine distribution de probabilité, appelée distri-bution
d’échantillonnage, étroitement liée au plan de
sondage : n
ˆs, p(s)

; s 2

o
=)
8
:
E(ˆ) =
P
s2
p(s)ˆs
Var(ˆ) =
P
s2
p(s)

ˆs − E(ˆ)
2
17

Exemple 2.3
• Population : U = {1, 2, 3}
• Variable d’intérêt : Y = âge
avec y1 = 28, y2 = 32, y3 = 40
• Paramètres-population :
μ =
28 + 32 + 40
3
= 33.33
2 =
(28 − 33.33)2 + (32 − 33.33)2 + (40 − 33.33)2
3
= 24.89
= proportion d’individus dans la population
âgés de moins de 30 ans
= 1/3
• Plan de sondage (PESR) :
n = 2

= {s1 = {1, 2}, s2 = {1, 3}, s3 = {2, 3}}
p(s1) = p(s2) = p(s3) = 1/3
18

• Estimateurs :
ˆμ =
1
n
X
i2S
yi = y (moyenne-échantillon)
ˆ2 =
1
n
X
i2S
(yi − y)2 = s2 (variance-échantillon)
ˆ = proportion d’individus dans l’échantillon S
âgés de moins de 30 ans
• Distributions d’échantillonnage :
s p(s) ˆμs ˆ2
s ˆs
{1,2} 1/3 30 4 0.5
{1,3} 1/3 34 36 0.5
{2,3} 1/3 36 16 0
1
=)
E(ˆμ) =
1
3
· 30 +
1
3
· 34 +
1
3
· 36
= 33.33 = μ
Var(ˆμ) =
1
3
(30 − 33.33)2 +
1
3
(34 − 33.33)2
+
1
3
(36 − 33.33)2 = 6.45
E(ˆ2) =
1
3
· 4 +
1
3
· 36 +
1
3
· 16
= 18.676= 2
19

E(ˆ) =
1
3
· (0.5) +
1
3
· (0.5) +
1
3
· 0 =
1
3
=
Var(ˆ) =
1
3

1
2
−
1
3
2
+
1
3

1
2
−
1
3
2
+
1
3

0 −
1
3
2
= 0.05
Erreur d’échantillonnage
• En général, la valeur prise par un estimateur dans un
échantillon est différente de la valeur du paramètre
qu’il cherche à estimer.
Ex. : En général, la moyenne-échantillon est distincte
de la moyenne-population.
• La valeur ˆs prise par l’estimateur ˆ dans l’échantillon
s n’est qu’une estimation de la valeur exacte du pa-ram`
etre-population .
• L’erreur que l’on commet en rempla¸cant par ˆs n’est
pas imputable à une incompétence dans des mesures
ou des calculs : elle résulte du fait qu’une partie de la
population a été omise. Cette erreur est appelée erreur
d’échantillonnage.
• On peut évaluer l’importance de l’erreur d’échantillonnage
associée à un estimateur en calculant le biais et la va-riance
ou l’erreur quadratique moyenne de cet estima-teur.
20

Deux propriétés sont généralement recherchées pour un
estimateur :
– être sans biais
– avoir une bonne précision
21

Biais d’un estimateur
• Un estimateur ˆ du paramètre-population est sans
biais (non biaisé) si et seulement si
E(ˆ) =
Ex. : ˆμ est un estimateur sans biais de μ ; ˆ est un
estimateur sans biais de ; ˆ2 est un estimateur biaisé
de 2
• Le biais de l’estimateur ˆ est
B(ˆ) = E(ˆ) −
22

Précision d’un estimateur
• La précision d’un estimateur est mesurée par son er-reur
quadratique moyenne EQM(ˆ) (mean squared er-ror
MSE(ˆ)) :
h
i
X
EQM(ˆ) = E
( ˆ− )2
=
s2

p(s)(ˆs − )2
= Var(ˆ) +

B(ˆ)
2
• Si ˆ est un estimateur sans biais de , alors
EQM(ˆ) = Var(ˆ)
Distributions d’échantillonnage de ˆ1 et ˆ2 :
E(ˆ1) = E(ˆ2) = ; Var(ˆ1) Var(ˆ2)
P

− ˆ1 +

P

− ˆ2 +

La probabilité de prendre une valeur fort proche de
est plus grande pour ˆ1 que pour ˆ2.
23

2.6 ESTIMATION D’UNE MOYENNE
2.6.1 Sondage al´eatoire PESR
Echantillon de taille n
a) Estimateur de μ :
ˆμPESR =
1
n
X
i2S
b) ˆμPESR est sans biais : E(ˆμPESR) = μ
D´em. :
E(ˆμPESR) = E

1
n
X
i2S
yi
!
= E

1
n
X
i2U
yiIi
!
=
1
n
X
i2U
yi E(Ii)
=
1
n
X
i2U
yi pi car E(Ii) = pi
=
1
n
X
i2U
yi
n
N
car pi = n
N (PESR)
=
1
N
X
i2U
yi = μ
24

c) Précision de ˆμPESR :
Var(ˆμPESR) =

1
n
−
1
N

2
corr = (1 − f)
2
corr
n
où
f =
n
N
et 2
corr =
1
N − 1
X
i2U
(yi − μ)2
La variance et donc la précision de ˆμPESR dépendent de
trois éléments :
• la taille n de l’échantillon : plus l’échantillon est grand,
plus l’estimation de μ est précise
• le taux de sondage f : plus f est proche de 1, c’est-
à-dire plus la taille de l’échantillon est proche de celle
de la population, plus l’estimation de μ est précise. A
la limite, pour f = 1 (échantillon égal à la population
tout entière), Var(ˆμPESR) = 0 : il n’y a plus d’erreur
d’échantillonnage
• la variance 2
corr de la variable d’intérêt Y dans la po-pulation
U : plus la population est homogène (2
corr pe-tite),
plus le sondage y est efficace. Par contre, sonder
une population très hétérogène (2
corr grande) nécessite,
pour s’assurer que Var(ˆμPESR) ne soit pas trop élevée,
de prélever un échantillon de taille importante ou de
réaliser un découpage préalable en sous-populations
homogènes (cf. sondage stratifié)
25

d) Estimation de Var(ˆμPESR)
On peut montrer que la variance-échantillon corrigée
s2
corr =
1
n − 1
X
i2S
(yi − y)2
est un estimateur sans biais de 2
corr. Dès lors,
cVar(ˆμPESR) = (1 − f)
s2
corr
n
est un estimateur sans biais de Var(ˆμPESR).
La valeur prise par cVar(ˆμPESR) dans l’échantillon s parti-culier
effectivement prélevé nous fournit une estimation de
la variance, et donc de la précision, de l’estimateur ˆμPESR
de μ.
26

e) Exemple 2.4
Une population U est composée des cinq nombres 2, 3, 6, 8 et 11.
On veut estimer la moyenne-population μ à partir d’un échantillon
d’effectif 2 prélevé dans U selon une procédure PESR.
! Estimateur de μ : y. Propriétés de y ?
Paramètres de la population :
μ =
2 + 3 + 6 + 8 + 11
5
= 6
2 =
(2 − 6)2 + . . . + (11 − 6)2
5
= 10.8
2
corr =
5
4
(10.8) = 13.5
Taux de sondage :
f =
n
N
=
2
5
= 0.4 = 40%
Nombre d’échantillons possibles :

N
n

=

5
2

=
5!
2!(5 − 2)!
=
5!
2!3!
=
5 × 4 × 3 × 2 × 1
2 × 1 × 3 × 2 × 1
= 10
27

Plan de sondage et distribution d’échantillonnage de y :
Echantillons
possibles : s p(s) ys
{2, 3} 1/10 2.5
{2, 6} 1/10 4
{2, 8} 1/10 5
{2, 11} 1/10 6.5
{3, 6} 1/10 4.5
{3, 8} 1/10 5.5
{3, 11} 1/10 7
{6, 8} 1/10 7
{6, 11} 1/10 8.5
{8, 11} 1/10 9.5
1
E(y) =
1
10
(2.5) +
1
10
(4) + . . . +
1
10
(9.5) = 6 = μ
Var(y) =
1
10
(2.5 − 6)2 +
1
10
(4 − 6)2 + . . . +
1
10
(9.5 − 6)2 = 4.05
On vérifie bien que Var(y) = (1 − f)2
corr
n = (1 − 0.4)13.5
2 = 4.05.
Supposons que le hasard nous fasse sélectionner l’échantillon {2, 3}.
Dans ce cas, y = 2.5 (estimation de μ) et
s2
corr =
1
2 − 1

(2 − 2.5)2 + (3 − 2.5)2
= 0.5 .
On estime alors Var(y) par
(1 − f)
s2
corr
n
= (1 − 0.4)
0.5
2
= 0.15 .
28

2.6.2 Sondage aléatoire PEAR
n tirages aléatoires avec remise dans la population
nS = nombre (aléatoire) d’individus distincts dans l’échantillon
S qui sera prélevé
(i) Lien avec l’inférence statistique classique
F Dans la population U :
Les valeurs prises par la variable d’intérêt Y chez les N
individus de U sont
y1, y2, . . . , yN
=)
(
μ = 1
N
P
i2U yi
2 = 1
N
P
i2U(yi − μ)2
F Tirage au hasard (à probabilités égales) d’un individu
dans la population :
• Il s’agit d’une expérience aléatoire dont l’ensemble des
résultats possibles est U.
• On peut associer à cette expérience aléatoire la va-riable
aléatoire Z qui prend la valeur yi si l’individu
sélectionné est l’individu i.
29

Cette v.a. Z possède une distribution de probabilité
qui co¨ıncide avec la distribution (de fréquences) de Y
dans U : pour i = 1, . . . ,N,
P(Z = yi) = P(l’individu sélectionné est l’individu i)
= 1/N
( +
E(Z) = μ
Var(Z) = 2
F n tirages à probabilités égales et avec remise (PEAR)
dans la population :
• On associe au kème tirage (k = 1, . . . , n) la va-riable
aléatoire Zk qui prend la valeur yi si l’individu
sélectionné au kème tirage est l’individu i :
Zk = yi si ik = i;
P(Zk = yi) = P (l’individu sélectionné au kème tirage
est l’individu i) = 1/N
=)
(
E(Zk) = μ
Var(Zk) = 2 (k = 1, . . . , n)
• Les Zk (k = 1, . . . , n) sont des v.a. indépendantes et
identiquement distribuées (i.i.d.)
30

(ii) Tirage de n individus distincts : nS = n
ˆμPEAR =
1
n
X
i2S
Autre écriture possible : ˆμPEAR = 1
n
Pn
k=1 Zk
b) ˆμPEAR est sans biais :
E(ˆμPEAR) = μ
Dém. :
E(ˆμPEAR) =
1
n
Xn
k=1
E(Zk) =
1
n
Xn
k=1
μ = μ
c) Précision de ˆμPEAR :
Var(ˆμPEAR) =
2
n
Dém. :
Var(ˆμPEAR) = Var

1
n
Xn
k=1
Zk
!
=
1
n2
Xn
k=1
Var(Zk)
=
1
n2
Xn
k=1
2 =
n2
n2 =
2
n
31

Pour le sondage aléatoire PEAR, comme dans le cas du
sondage aléatoire PESR, la variance et donc la précision
de ˆμPEAR dépend de
• la taille n de l’échantillon
• la variance 2 de la variable d’intérêt Y dans la po-pulation
U
=) plus l’échantillon est grand et la population est
homogène, plus l’estimation de μ est précise
MAIS,
contrairement au cas du sondage aléatoire PESR, la
variance de ˆμPEAR ne dépend pas de la taille N de
la population (et donc du taux de sondage f), ce qui
n’est pas nécessairement très intuitif ! ! !
d) Estimation de Var(ˆμPEAR) :
La variance-échantillon corrigée
s2
corr =
1
n − 1
X
i2S
(yi − y)2
est un estimateur sans biais de 2 (cf. cours de statis-tique
de base). Dès lors,
cVar(ˆμPEAR) =
s2
corr
n
est un estimateur sans biais de Var(ˆμPEAR)
32

e) Exemple 2.4 (suite)
Nombre d’´echantillons possibles dans le cas PEAR (si l’on tient compte
de l’ordre du tirage) : N2 = 25.
Echantillons Echantillons
possibles : s p(s) ys possibles : s p(s) ys
2, 2 1/25 2 8, 2 1/25 5
2, 3 1/25 2.5 8, 3 1/25 5.5
2, 6 1/25 4 8, 6 1/25 7
2, 8 1/25 5 8, 8 1/25 8
2, 11 1/25 6.5 8, 11 1/25 9.5
3, 2 1/25 2.5 11, 2 1/25 6.5
3, 3 1/25 3 11, 3 1/25 7
3, 6 1/25 4.5 11, 6 1/25 8.5
3, 8 1/25 5.5 11, 8 1/25 9.5
3, 11 1/25 7 11, 11 1/25 11
6, 2 1/25 4
6, 3 1/25 4.5
6, 6 1/25 6
6, 8 1/25 7
6, 11 1/25 8.5
33

) Distribution d’échantillonnage de y :
Valeurs possibles
de y Probas
2 1/25
2.5 2/25
3 1/25
4 2/25
4.5 2/25
5 2/25
5.5 2/25
6 1/25
6.5 2/25
7 4/25
8 1/25
8.5 2/25
9.5 2/25
11 1/25
1
E(y) =
1
25
(2) +
2
25
(2.5) + . . . +
1
25
(11) = 6 = μ
Var(y) =
1
25
(2 − 6)2 +
2
25
(2.5 − 6)2 + . . . +
1
25
(11 − 6)2 = 5.4
On vérifie bien que Var(y) = 2
n = 10.8
2 = 5.4.
Supposons que le hasard nous fasse sélectionner l’échantillon {2, 3}.
Dans ce cas, y = 2.5 (estimation de μ) et s2
corr = 0.5. On estime alors
Var(y) par
s2
corr
n
=
0.5
2
= 0.25 .
34

(iii) Tirage de m individus distincts : nS = m n
1) Utilisation des n observations
Mêmes résultats qu’en (ii) (! ˆμPEAR)
2) Prise en compte seulement des m individus distincts
ˆμdiff =
1
nS
X
i2Sdiff
yi
où
• S = échantillon aléatoire constitué des n individus
prélevés
• Sdiff = ensemble des individus distincts sélectionnés
• nS = #Sdiff = nombre d’individus distincts dans S
Remarque :
S est aléatoire ) Sdiff et nS sont aléatoires ) le
nombre d’observations à prendre en considération
pour calculer ˆμdiff est aléatoire : difficulté supplémentaire ! ! !
b) ˆμdiff est sans biais :
E(ˆμdiff) = μ
35

c) Précision de ˆμdiff :
• Var(ˆμdiff) =
1
n − 1
2N + n−1
12N2

2
corr
• Var(ˆμdiff) Var(ˆμPEAR) :
dans le cas du prélèvement de n individus par son-dage
PEAR, il est toujours plus intéressant de ne
conserver que les unités statistiques distinctes.
36

2.7 ESTIMATION D’UN TOTAL
Dans la population U : =
P
i2U yi = Nμ
2.7.1 Estimateur de
Dans le cas du sondage PESR comme dans celui du son-dage
PEAR où l’on utilise les n observations de l’échantillon,
on estime μ par y, que nous désignerons simplement par
ˆμ
=) Estimateur de : ˆ = N ˆμ
N.B.) N est supposé connu
Dans le cas des sondages PESR et PEAR où l’on utilise les
n observations de l’échantillon :
E(ˆμ) = μ
=) E(ˆ ) = NE(ˆμ) = Nμ =
=) ˆ est un estimateur sans biais de
37

Var(ˆ ) = Var(N ˆμ) = N2Var(ˆμ)
a) Sondage aléatoire PESR
• Var(ˆ ) = N2(1 − f)2
corr/n
• cVar(ˆ ) = N2(1 − f)s2
corr/n
b) Sondage aléatoire PEAR (utilisation des n observations
de l’échantillon)
• Var(ˆ ) = N22/n
• cVar(ˆ ) = N2s2
corr/n
38

2.8 ESTIMATION D’UNE PROPORTION
• U est partagé en deux sous-ensembles : K1 et K2
Ex. : K1 = ensemble des individus de la population U qui
possèdent une certaine caractéristique
• = proportion d’individus de U qui appartiennent à K1
• peut être vu comme une moyenne-population :
Soit
yi =

1 si i 2 K1
0 si i 2 K2
(i = 1, . . . ,N)
)
8
:
μ = 1
N
P
i2U yi =
2 = 1
N
P
i2U(yi − μ)2 = 1
N
P
i2U y2
i − μ2
= 1
N
P
i2U yi − μ2 = − 2 = (1 − )
2.8.1 Estimateur de
ˆ = ˆμ = y = 1
n
P
i2S yi
= proportion d’individus dans l’échantillon
qui appartiennent à K1
39

E(ˆ) =
=) ˆ est sans biais
a) Sondage al´eatoire PESR
•
Var(ˆ) = (1 − f)
2
corr
n
= (1 − f)
1
n
·
N
N − 1
2
= (1 − f)
N(1 − )
(N − 1)n
= (1 −
n
N
)
N(1 − )
(N − 1)n
=
N − n
N − 1
·
(1 − )
n
=
(1 − f)
(1 − )
n
si
N
N − 1
=
1
40

• Un estimateur sans biais de 2
corr est
s2
corr =
1
n − 1
X
i2S
(yi − y)2
=
n
n − 1

1
n
X
i2S
(yi − y)2
!
=
n
n − 1

1
n
X
i2S
y2
i − y2
!
=
n
n − 1

1
n
X
i2S
yi − y2
!
=
n
n − 1

ˆ − ˆ2
=
n
n − 1
ˆ(1 − ˆ)
=) Un estimateur sans biais de Var(ˆ) = (1−f)2
corr
n
est
cVar(ˆ) = (1 − f)
ˆ(1 − ˆ)
n − 1
41

b) Sondage al´eatoire PEAR (utilisation des n observations
de l’´echantillon)
• Var(ˆ) = 2
n = (1−)
n
corr = n
• Un estimateur sans biais de 2 est s2
n−1 ˆ(1−ˆ)
=) un estimateur sans biais de Var(ˆ) = 2
n est
cVar(ˆ) =
ˆ(1 − ˆ)
n − 1
En conclusion : facteurs jouant sur Var(ˆ) (ou
p
Var(ˆ))
PEAR :
p
Var(ˆ) =
r
(1 − )
n
PESR :
p
Var(ˆ)
r
(1 − f)
(1 − )
n

r
(1 − )
n
si f fort petit
42

Valeurs de
q
(1−)
n en fonction de et de n
(Valeurs en multiples de .01)
p ! .05 .10 .15 .20 .25 .30 .35 .40 .45 .50
n #
100 2.2 3.0 3.6 4.0 4.3 4.6 4.8 4.9 5.0 5.0
150 1.8 2.4 2.9 3.2 3.5 3.7 3.8 3.9 4.1 4.1
200 1.5 2.1 2.5 2.8 3.1 3.2 3.4 3.5 3.5 3.5
250 1.4 1.9 2.3 2.5 2.7 2.9 3.0 3.1 3.1 3.2
300 1.3 1.7 2.1 2.3 2.5 2.6 2.8 2.8 2.9 2.9
350 1.2 1.6 1.9 2.1 2.3 2.4 2.5 2.6 2.7 2.7
400 1.1 1.5 1.8 2.0 2.2 2.3 2.4 2.4 2.5 2.5
450 1.0 1.4 1.7 1.9 2.0 2.2 2.2 2.3 2.3 2.4
500 1.0 1.3 1.6 1.8 1.9 2.0 2.1 2.2 2.2 2.2
600 .9 1.2 1.5 1.6 1.8 1.9 1.9 2.0 2.0 2.0
700 .8 1.1 1.3 1.5 1.6 1.7 1.8 1.9 1.9 1.9
800 .8 1.1 1.3 1.4 1.5 1.6 1.7 1.7 1.8 1.8
900 .7 1.0 1.2 1.3 1.4 1.5 1.6 1.6 1.7 1.7
1 000 .7 .9 1.1 1.3 1.4 1.4 1.5 1.5 1.6 1.6
1 500 .6 .8 .9 1.0 1.1 1.2 1.2 1.3 1.3 1.3
2 000 .5 .7 .8 .9 1.0 1.0 1.1 1.1 1.1 1.1
2 500 .4 .6 .7 .8 .9 .9 1.0 1.0 1.0 1.0
3 000 .4 .5 .7 .7 .8 .8 .9 .9 .9 .9
4 000 .3 .5 .6 .6 .7 .7 .8 .8 .8 .8
5 000 .3 .4 .5 .6 .6 .6 .7 .7 .7 .7
10 000 .2 .3 .4 .4 .4 .5 .5 .5 .5 .5
20 000 .2 .2 .3 .3 .3 .3 .4 .4 .4 .4
43

2.9 EFFET DE (PLAN DE) SONDAGE
Question : Lorsqu’on désire estimer un paramètre-population
par sondage et qu’on a le choix entre plusieurs plans de
sondage possibles, lequel doit-on utiliser ?
Réponse : L’idéal est de pouvoir appliquer le plan de son-dage
donnant lieu à l’estimateur le plus précis du paramètre-population.
L’effet de sondage est une mesure permettant de comparer
deux plans de sondage en termes de précision des estima-teurs
qu’ils fournissent.
2.9.1 Définition
• : paramètre à estimer
• On dispose de deux plans de sondage différents (pour
la même taille d’échantillon n) :
P1 = {(s, p1(s)); s 2
1}
P2 = {(s0, p2(s0)); s0 2
2}
• ˆ1 : estimateur de si l’on suit le plan de sondage P1
ˆ2 : estimateur de si l’on suit le plan de sondage P2
44

• Si ˆ1 et ˆ2 sont deux estimateurs sans biais de , alors
l’effet de sondage de P1 par rapport à P2 est défini par
D(P1| P2) =
VarP1(ˆ1)
VarP2(ˆ2)
• Interprétation :
D(P1| P2) 1
() VarP1(ˆ1) VarP2(ˆ2)
() pour une même taille d’échantillon n, l’estima-teur
ˆ1 est plus précis que l’estimateur ˆ2
()le plan de sondage P1 permet une estimation plus
précise de que le plan de sondage P2
2.9.2 Exemple
Prenons = μ.
La taille n de l’échantillon est fixée a priori.
P1 : sondage aléatoire PESR : ˆ1 = ˆμPESR = y et
VarPESR(y) =

1
n
−
1
N

2
corr =
N − n
N − 1
·
2
n
P2 : sondage aléatoire PEAR : ˆ2 = ˆμPEAR = y et
VarPEAR(y) =
2
n
45

=) D(PESR| PEAR) = N−n
N−1
=
1 − f 1
=) PESR doit être préféré à PEAR
Exemple 2.4 (suite)
L’effet de sondage est donné par
D(PESR|PEAR) =
VarPESR(y)
VarPEAR(y)
=
4.05
5.4
= 0.75 1.
y est un estimateur de μ plus précis dans le cas PESR ;
les valeurs possibles de y sont moins dispersées autour de
μ = 6 dans le cas PESR que dans le cas PEAR.
Remarques :
• On peut montrer que, pour un même nombre n de ti-rages,
Var(ˆμPESR) Var(ˆμdiff) Var(ˆμPEAR);
le plan aléatoire simple sans remise est toujours préférable
et, si le plan est avec remise, il est toujours plus intéressant
de ne conserver que les unités statistiques distinctes.
46

• Si n est petit par rapport à N (càd le taux de sondage
f est très petit), alors le gain en précision de PESR par
rapport à PEAR est très faible.
Valeurs de N−n
N−1
N ! 100 10 000 1 000 000
n #
10 0.909 0.999 0.99999
100 0 0.990 0.99990
1 000 − 0.900 0.99900
10 000 − 0 0.99000
• En pratique, le choix du plan de sondage ne se fonde pas
sur le seul critère de la précision de l’estimateur. Ce choix
doit se faire en tenant compte aussi
– du coût de l’opération
– des possibilités d’application
– des facilités d’application
Ces différents critères sont parfois contradictoires !
47

2.10 INTERVALLES DE CONFIANCE
2.10.1 Distribution d’échantillonnage de ˆμ
(i) Sondage aléatoire PEAR
• Rappels :
– n tirages au hasard successifs avec remise
– On associe au kème tirage (k = 1, . . . , n) la va-riable
aléatoire Zk qui prend la valeur yi si l’individu
sélectionné au kème tirage est l’individu i
– Z1,Z2, . . . ,Zn sont des v.a.’s i.i.d. telles que
E(Zk) = μ et Var(Zk) = 2
pour tout k = 1, . . . , n ; Zk a une distribution de
probabilité qui co¨ıncide avec la distribution de fréquences
de la variable d’intérêt Y dans la population U
• Si Y a une distribution de fréquences que l’on peut
”approcher” (ajuster) par la loi N(μ, 2), alors on peut
considérer que Z1,Z2, . . . ,Zn sont i.i.d. N(μ, 2)
et
ˆμ =
1
n
Xn
k=1
Zk N

μ,
2
n

()
ˆμ − μ
/
p
n
N(0, 1)
48

Si, de plus, 2 est inconnu, on peut l’estimer par son
estimateur sans biais s2
corr et on a
μ ˆ− μ
p
scorr/
n
tn−1
• Dans le cas où l’on ne connaˆıt pas la distribution de Y
dans U, le théorème central limite (TCL) nous indique
que, si n 30,
ˆμ − μ
/
p
n
N(0, 1)
Si, de plus, 2 est inconnu, on peut l’estimer par son
estimateur sans biais s2
corr et on a
ˆμ − μ
scorr/
p
n
N(0, 1)
(ii) Sondage aléatoire PESR
• Si on définissait des v.a.’s Zk (k = 1, . . . , n) comme
pour le sondage aléatoire PEAR, elles ne seraient ni
indépendantes, ni équidistribuées
=) impossibilité de faire appel au TCL classique
=) utilisation d’un théorème central pour population
finie
49

• Si U(N) est une population de taille N, de moyenne
μ(N) et de variance ((N))2
et
si y(n) est la variable aléatoire correspondant à la moyenne
arithmétique des observations d’un échantillon aléatoire
S(n) de taille n : y(n) = 1
n
P
i2S(n) yi,
alors
y(n) − μ(N)
q
Var(y(n))
N(0, 1)
quand n ! 1 et N − n ! 1, et sous des condi-tions
générales liées à la part de ((N))2 due à chaque
élément de U(N)
• Sous des conditions identiques :
y(n) − μ(N)
q
cVar(y(n))
N(0, 1)
50

2.10.2 Intervalles de confiance
De manière générale, si ˆ est un estimateur non biaisé de
et si on peut supposer que
ˆ − q
cVar(ˆ)
N(0, 1),
l’intervalle de confiance pour au niveau de confiance 1−
(0 1) est donné par

ˆ ± z1−/2
q
cVar(ˆ)

,
où z1−/2 est le quantile d’ordre 1−/2 de la loi N(0, 1)
(si X N(0, 1), alors P[X z1−/2] = 1 − /2)
Dém. :
Si X N(0, 1), alors
P(−z1−/2 X z1−/2) = 1 − .
51

Puisque pˆ−
dVar(ˆ)
N(0, 1), on a donc
P

−z1−/2
pˆ−
dVar(ˆ)
z1−/2

=
1 −
=) P

ˆ − z1−/2
q
cVar(ˆ) ˆ + z1−/2
q
cVar(ˆ)

=
1 −
N.B.)
• si 1 − = 95%, alors z1−/2 = z0.975 = 1.96
• si 1 − = 90%, alors z1−/2 = z0.95 = 1.645
(i) I.C. pour μ au niveau de confiance 1 − :

ˆμ ± z1−/2
q
cVar(ˆμ)

PESR :

ˆμ ± z1−/2
q
(1 − f)s2
corr
n

PEAR :

ˆμ ± z1−/2
q
s2
corr
n

52

(ii) I.C. pour au niveau de confiance 1 − :

ˆ ± z1−/2
q
cVar(ˆ )

PESR :

ˆ ± z1−/2
q
N2(1 − f)s2
corr
n

PEAR :

ˆ ± z1−/2
q
N2s2
corr
n

(iii) I.C. pour au niveau de confiance 1 − :

ˆ ± z1−/2
q
cVar(ˆ)

PESR :

ˆ ± z1−/2
q
(1 − f) ˆ(1−ˆ)
n−1

PEAR :

ˆ ± z1−/2
q
ˆ(1−ˆ)
n−1

Remarque :
L’I.C. pour est un intervalle aléatoire : les valeurs de ses
bornes varient d’un échantillon à l’autre.
53

Exemple 2.5
Un échantillon de 400 automobilistes d’un pays comprend 40 pro-pri
étaires d’une voiture de marque A. Construisez un intervalle de
confiance, au niveau de confiance de 95%, pour la proportion réelle
d’automobilistes de ce pays qui possèdent une voiture de marque A,
en considérant que l’échantillon a été prélevé selon un tirage PESR
dans une population de taille
a) N = 5 000 ;
b) N = 100 000.
Solution
n = 400
= proportion d’automobilistes possédant une voiture de marque A
dans le pays
ˆ = 40/400 = 0.1
L’I.C. pour au niveau de confiance de 95% est

ˆ ± z0.975
q
cVar(ˆ)

=

ˆ ± (1.96)
q
cVar(ˆ)

.
Puisque le tirage est PESR, nous avons
cVar(ˆ) = (1 − f)
ˆ(1 − ˆ)
n − 1
= (1 − f)
(0.1)(0.9)
399
= (1 − f)(0.00023)
a) Si N = 5 000, le taux de sondage est égal à f = 400
5 000 = 0.08 =
8%. On a alors
cVar(ˆ) = (0.92)(0.00023) = 0.00021
)
q
cVar(ˆ) = 0.01441
54

L’I.C. pour au niveau de confiance de 95% est alors
[0.1 ± (1.96)(0.01441)] = [0.1 ± 0.02823]
= [0.07177 ; 0.12823] = [7.177% ; 12.823%]
b) Si N = 100 000, le taux de sondage est égal à f = 400
100 000 =
0.004. On a alors
cVar(ˆ) = (0.996)(0.00023) = 0.00022
)
q
cVar(ˆ) = 0.01499
L’I.C. pour au niveau de confiance de 95% est alors
[0.1 ± (1.96)(0.01499)] = [0.1 ± 0.02938]
= [0.07062 ; 0.12938] = [7.062% ; 12.938%]
On voit donc sur cet exemple que, lorsque le taux de sondage diminue
(à taille n d’échantillon fixée), la précision (estimée) de l’estimateur ˆ
de diminue et, par conséquent, l’I.C. s’élargit quelque peu.
Exemple 2.6
145 ménages de touristes séjournant en France dans une région donnée
ont dépensé, en moyenne journalière, 35.5 Euros ; l’écart-type de ces
145 dépenses journalières s’élève à 8.4 Euros. Sachant que dans la
région où a été effectuée l’enquête il est venu 50 000 ménages de tou-ristes,
que peut-on dire de la dépense globale journalière de l’ensemble
de ces ménages (on suppose que l’échantillon est du type PESR) ?
55

Solution
Paramètre à estimer : = dépense journalière globale des 50 000
ménages de touristes.
ˆ = Ny = (50 000)(35.5) = 1 775 000 Euros
Le tirage étant PESR, on a
cVar(ˆ ) = N2(1 − f)
s2
corr
n
f =
145
50 000
= 0.0029 = 0.29%
s2
corr =
145
144
(8.4)2 = 71.05
= (50 000)2(1 − 0.0029)
71.05
145
= 1 221 447 500
L’I.C. pour au niveau de confiance de 95% est dès lors égal à

ˆ ± z0.975
q
cVar(ˆ )

= [1 775 000 ± (1.96)(34 949.21)]
= [1 775 000 ± 68 500.46]
= [1 706 499.54 ; 1 843 500.46]
Il y a donc 95 chances sur 100 que la dépense journalière globale des
50 000 ménages de touristes soit comprise entre (approximativement)
1 706 500 Euros et 1 843 500 Euros.
56

2.10.3 Incertitude absolue et relative
• Si l’I.C. pour est de la forme [ˆ − d, ˆ + d], d est
appelé incertitude absolue (= demi-longueur de l’I.C.)
De manière générale,
d = z1−/2
q
cVar(ˆ)
• L’incertitude relative est définie par d/ˆ (en %)
• (i) Incertitude absolue pour μ / PESR
z1−/2
r
(1 − f)
s2
corr
n
(ii) Incertitude absolue pour / PESR
z1−/2
r
N2(1 − f)
s2
corr
n
(iii) Incertitude absolue pour / PESR
z1−/2
r
(1 − f)
ˆ(1 − ˆ)
n − 1
• Tout comme l’I.C., l’incertitude absolue d est aléatoire :
sa valeur varie d’un échantillon à l’autre.
57

• d d´epend de et de cVar(ˆ) (et donc aussi, de fa¸con
indirecte, de Var(ˆ) et de n) :
1) 1 − % =) z1−/2 % =) d %
2) n % =) d
• Pour une proportion , l’incertitude absolue d d´epend
de (ou ˆ). Pour un niveau de confiance de 95% :
r
d = 1.96
(1 − f)
ˆ(1 − ˆ)
n − 1
=
r
2
(1 − f)
ˆ(1 − ˆ)
n
r
2
ˆ(1 − ˆ)
n
r
2
1
4n
=
1
p
n
p
n
Valeur de 1/
(incertitude absolue maximale pour 1 − = 95%)
p
n
n 1/
100 10%
400 5%
1 000 3%
1 600 2.5%
10 000 1%
58

• Incertitude relative d/ˆ (en %) pour l’estimateur ˆ
d’une proportion
(1 − = 0.95 ; f =
0 ; d =
q
2
ˆ(1−ˆ)
n )
ˆ ! .10 .20 .30 .40 .50
n #
100 60 40 31 24 20
200 42 28 21 18 14
300 34 23 17 14 12
500 26 19 15 12 10
1 000 18 13 9 8 6
2 000 14 9 7 6 4
5 000 8 6 4 4 3
10 000 6 4 3 3 2
59

2.10.4 Détermination de la taille d’un échantillon
Problème : Comment doit-on choisir la taille n de l’échantillon
pour que l’incertitude absolue d ne dépasse pas une cer-taine
valeur d0 fixée a priori ?
N.B.) Le niveau de confiance (1 − ) est fixé.
Solution : De manière générale, il faut trouver les valeurs
de n qui permettent de satisfaire l’inégalité
d = z1−/2
q
cVar(ˆ) d0 .
(i) Estimation de μ :
• PESR :
z1−/2
q
(1 − f)s2
corr
n d0
) z1−/2
q
N)s2
(1 − n
corr
n d0
) n
Nz2
1−/2 s2
corr
Nd20+ z2
1−/2 s2
corr
= nPESR
• PEAR :
z1−/2
q
s2
corr
n d0
) n
z2
1−/2s2
corr
d20
= nPEAR
60

MAIS
s2
corr est la variance-échantillon corrigée et dépend donc
elle aussi de la taille n de l’échantillon !
=) on remplace s2
corr par la variance-échantillon corrigée
observée dans un échantillon prélevé lors d’une étude préliminaire
ou d’une étude antérieure du même type
Remarque :
nPESR et nPEAR sont les tailles minimales d’échantillon à
prendre pour un sondage aléatoire PESR et pour un son-dage
aléatoire PEAR respectivement. On vérifie que
nPESR =
nPEAR
1 + nPEAR−1
N
+
• si nPEAR 1, alors nPESR nPEAR :
pour une même incertitude absolue d0 fixée a priori,
la procédure PESR ”coûte moins cher” en termes de
nombre d’individus à prélever que la procédure PEAR
• si N est grand, alors nPESR
=
nPEAR :
l’avantage de la procédure PESR par rapport à la procédure
PEAR n’est pas très marqué si la population sondée est
de grande taille
61

(ii) Estimation de :
• PESR :
d = z1−/2
q
(1 − f) ˆ(1−ˆ)
n−1
=
z1−/2
q
(1 − f) ˆ(1−ˆ)
n d0
=) n
Nz2
1−/2ˆ(1−ˆ)
Nd20
+ z2
1−/2ˆ(1−ˆ)
• PEAR :
d = z1−/2
q
ˆ(1−ˆ)
n−1
=
z1−/2
q
ˆ(1−ˆ)
n d0
=) n
z2
1−/2ˆ(1−ˆ)
d20
avec ˆ remplacé par la proportion-échantillon observée
dans un échantillon prélevé lors d’une étude préliminaire
ou d’une étude antérieure du même type.
Remarque : Dans le cas PEAR, puisque ˆ(1 − ˆ) 1/4
quelle que soit la valeur de ˆ, on peut aussi prendre comme
taille minimale d’échantillon,
z2
1−/2
4d20
=

z1−/2
2d0
2
;
cette alternative est intéressante dans le cas où l’on ne
dispose pas d’estimation préliminaire de .
62

2.10.5 Exemples
a) Cas d’une moyenne
• Population U constituée de N = 1000 employés
• Variable d’intérêt : Y = salaire mensuel net
• Paramètre-population : μ = salaire mensuel net moyen
dans la population U
• Plan de sondage : n = 50 (f = 50/1000 = 0.05) -
sondage aléatoire PESR
• Dans l’échantillon s prélevé :
y = 1100 Euros
s2
corr = 62500
) cVar(y) = (1 − f)s2
corr
n = (1 − 0.05)62500
50 = 1187.5
) I.C. pour μ au niveau de confiance de 95% :
[1100±(1.96)
p
1187.5] = [1100±67.54] = [1032.46; 1167.54]
) Incertitude absolue : d = 67.54
) Incertitude relative : d/y = 67.54/1100 = 6.14%
63

• Quelle taille d’échantillon faut-il choisir pour pouvoir
obtenir une incertitude absolue inférieure ou égale à
d0 = 25 Euros ?
Si l’on prend s2
corr = 62500 comme estimation préliminaire
de la variance-population (corrigée), il faut prendre la
taille n de l’échantillon supérieure ou égale à
1000 (1.96)2 62500
1000 (25)2 + (1.96)2 62500
= 277.54
) il faut prélever au minimum 278 individus
b) Cas d’une proportion
• Population U constituée de N = 10000000 personnes
• Variable d’intérêt : Y = soutien à un programme
yi =

1 si l’individu i soutient le programme
0 sinon
• Paramètre-population : = proportion de personnes
dans la population U qui soutiennent le programme
• Plan de sondage : n = 1000 (f = 1000/10000000) -
sondage aléatoire PESR
64

• Dans l’échantillon s prélevé :
ˆ = 0.20
) cVar(ˆ) = 9999000
10000000 · (0.20)(0.80)
999 = 0.00016
) I.C. pour au niveau de confiance de 95% :
[0.20±(1.96)
p
0.00016] = [0.20±0.025] = [0.175; 0.225]
) Incertitude absolue : d = 0.025
) Incertitude relative : d/ˆ = 0.025/0.20 = 12.5%
• Quelle taille d’échantillon faut-il choisir pour pouvoir
obtenir une incertitude absolue ne dépassant pas d0 =
0.01 ?
Si l’on prend ˆ = 0.20 comme estimation préliminaire
de la proportion-population , il faut prendre la taille
n de l’échantillon supérieure ou égale à
10000000(1.96)2(0.20)(1 − 0.20)
10000000(0.01)2 + (1.96)2(0.20)(1 − 0.20)
= 6142.78
) il faut prendre au minimum 6143 individus
N.B.) On vérifie ici que, puisque N est grand,
nPESR
=
nPEAR =
(1.96)2(0.20)(1 − 0.20)
(0.01)2 = 6146.56
65

c) Cas d’une proportion
Un Tour Opérator désire tester l’idée d’un nouveau mode de distribu-tion
de voyages organisés auprès de son réseau d’agences de voyages,
qui comprend 3 000 agences.
S’il veut estimer le nombre d’agences favorables à son projet, quelle
taille d’échantillon doit-il interroger ? Faites une étude pour différents
niveaux de précision, en considérant un niveau de confiance de 95%.
Solution
N = 3 000
= proportion d’agences favorables au projet
Supposons que l’échantillon soit prélevé selon un tirage PESR. Pour
que l’I.C. au niveau de confiance de 95% donne lieu à une incertitude
absolue d0, il faut prendre une taille n d’échantillon telle que
n nPESR =
N(1.96)2ˆ(1 − ˆ)
Nd20
+ (1.96)2ˆ(1 − ˆ)
·
Mais nous ne disposons d’aucune estimation préalable ˆ de , ce qui
rend impossible le calcul de nPESR par l’expression ci-dessus.
Nous pouvons alors raisonner comme suit. Si nous désignons par nPESR
et nPEAR les tailles minimales d’échantillon à considérer pour que l’in-certitude
absolue soit d0, dans le cas d’un tirage PESR et dans celui
d’un tirage PEAR respectivement, nous pouvons écrire :
nPESR =
nPEAR
1 + nPEAR−1
N
(1)
66

et
nPEAR =
(1.96)2ˆ(1 − ˆ)
d20
n0 =

1.96
2d0
2
·
En prenant pour nPEAR sa valeur maximale n0, l’égalité (1) nous per-met
d’avoir une idée de la taille nPESR requise. Ainsi,
pour d0 = 0.10 : n0 = 96.04 96 ) nPESR 93
pour d0 = 0.05 : n0 = 384.16 384 ) nPESR 341
pour d0 = 0.03 : n0 = 1 067.11 1 067 ) nPESR 787
pour d0 = 0.02 : n0 = 2 401 ) nPESR 1 334
pour d0 = 0.01 : n0 = 9 604 ) nPESR 2 286
Ces résultats montrent bien l’avantage du sondage PESR sur le son-dage
PEAR (pour lequel on garde les n observations réalisées). Pour
une même incertitude absolue, le PESR coûte moins cher en nombre
d’observations que le PEAR. Cet avantage du PESR sur le PEAR se
marque d’autant plus que le taux de sondage est élevé.
N.B.) Dans le cas du PEAR, il arrive même que l’on doive effectuer un
nombre de tirages supérieur à la taille de la population pour pouvoir
satisfaire l’exigence de précision que l’on s’est fixée (cf. d0 = 0.01 par
exemple).
67

2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS
REMISE
Une des étapes cruciales de la mise en oeuvre d’un plan de
sondage est la sélection des unités de sondage.
La procédure de sélection doit pouvoir se formuler sous la
forme d’un algorithme simple, efficace, rapide et consom-mant
peu d’espace mémoire.
Idéalement, l’algorithme de sélection doit pouvoir s’appli-quer
en une seule lecture de la base de sondage.
Il est aussi pratique de pouvoir appliquer l’algorithme de
sélection alors que la taille N de la population n’est pas
connue d’avance (par exemple, lorsqu’on sélectionne des
clients venant se présenter à un guichet au fur et à mesure
de leur passage).
68

2.11.1 Méthode du tri aléatoire
a) Procédure :
• On génère N nombres (pseudo-)aléatoires u1, u2, . . . , uN
suivant une loi U(0, 1) (loi continue uniforme sur l’in-tervalle
(0,1)) et, pour i = 1, . . . ,N, on affecte à
l’individu i le nombre ui
• On trie ensuite la base de sondage par ordre crois-sant
(ou décroissant) des nombres aléatoires : cette
procédure conduit à effectuer un tri aléatoire de la
base de sondage
• On choisit enfin les n premiers (ou les n derniers) in-dividus
de la base de sondage ainsi ordonnée
b) On montre que cette méthode fournit bien un plan de
sondage de type PESR donnant lieu à des échantillons de
taille n fixée a priori
c) Avantage de cette méthode :
– procédure de sélection très aisée à mettre en oeuvre
Défauts de cette méthode :
– la taille N de la population doit être connue au préalable
– on doit trier toute la base de sondage : cette opération
peut s’avérer très longue quand le fichier est grand
69

2.11.2 D’autres méthodes fournissant un plan de sondage de
type PESR avec échantillons de taille n fixée a priori
Méthodes moins chères en temps de calcul et espace-mémoire
• Sondage systématique (cf. Section 5.2), pour autant que
la base de sondage soit triée aléatoirement ou selon un
ordre n’ayant aucun lien avec la variable d’intérêt Y
(ex. : Y = sexe ou choix d’études - base de sondage triée
par ordre alphabétique)
N.B.) La taille N de la population doit normalement être
connue au préalable, mais il y a moyen d’adapter la méthode
pour pouvoir l’utiliser quand N est inconnu
• Méthode de sélection-rejet, méthode de mise à jour de
l’échantillon, méthode des sauts aléatoires, . . .
Certaines de ces méthodes ne nécessitent pas de connaˆıtre
la taille N de la population au préalable
70

2.11.3 Tirage de Bernoulli
Technique de tirage aléatoire des individus donnant lieu
• à la même probabilité d’inclusion pour tous les indivi-dus
de la population
• à un échantillon de taille aléatoire
a) Procédure :
• On se fixe une quantité p 2 (0, 1)
• Pour i = 1, . . . ,N :
– On génère un nombre (pseudo-)aléatoire ui suivant
une loi U(0, 1) (loi continue uniforme sur l’intervalle
(0,1))
– Si ui p, alors l’individu i est sélectionné
Si ui p, alors l’individu i n’est pas sélectionné
N.B.) La procédure de sélection est indépendante d’un in-dividu
à l’autre
b) Probabilités d’inclusion :
pi = P(i 2 S) = P(ui p)
= probabilité qu’une v.a. de loi U(0, 1)
prenne une valeur inférieure ou égale à p
= p
) tous les individus de la population ont la même proba-bilit
é d’inclusion
71

c) Avantages de cette méthode :
– la base de sondage est lue séquentiellement ; la taille N
de la population ne doit pas être connue au préalable
– technique très facile à programmer
Défaut de cette méthode :
– fournit un échantillon de taille aléatoire (il y a même
une probabilité non nulle de ne sélectionner aucun in-dividu)
d) Taille nS de l’échantillon :
nS = taille de l’échantillon qui sera prélevé
= nombre d’individus qui seront sélectionnés
Bin(N, p)
=) E(nS) = Np et Var(nS) = Np(1 − p)
=) p = taux de sondage moyen
e) Estimation de :
• ˆB = 1
p
P
i2S yi
N.B.) Dans le cas PESR à taille n fixée a priori :
ˆPESR = N ˆμPESR =
N
n
X
i2S
yi
=
1
f
X
i2S
yi =
X
i2S
yi
pi
72

•
E(ˆB) = E

1
p
X
i2S
yi
!
= E

1
p
X
i2U
yiIi
!
=
1
p
X
i2U
yiE(Ii) =
1
p
X
i2U
yip
=
X
i2U
yi =
=) ˆB est un estimateur sans biais de
• On montre que (pr´ecision de ˆB)
Var(ˆB) =

1
p − 1
P
y2
i2U i
cVar(ˆB) = 1
p

1
p − 1
P
y2
i2S i
f) Estimation de μ :
• μ =
N ) ˆμB = ˆB
N = 1
Np
P
i2S yi (6= y)
N.B.) Np= 6nS ; Np = E(nS)
• E(μB) ˆ= μ
) μB ˆest un estimateur sans biais de μ

• Var(μB) ˆ= Var
ˆB
N

= 1
N2Var(ˆB)
cVar(ˆμB) = 1
N2
cVar(ˆB)
73

Sondage aléatoire simple ou a probabilité égal

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Sondage aléatoire simple ou a probabilité égal