SlideShare une entreprise Scribd logo
1  sur  73
Télécharger pour lire hors ligne
Chapitre 2 
SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES 
EGALES 
PLAN DU CHAPITRE 2 
2.1 DEFINITIONS 
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 
2.2.1 Plan de sondage 
2.2.2 Probabilit´es d’inclusion 
2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR) 
2.3.1 Plan de sondage 
2.3.2 Probabilit´es d’inclusion 
2.4 VARIABLES INDICATRICES 
2.5 ESTIMATEUR 
2.6 ESTIMATION D’UNE MOYENNE 
2.6.1 Sondage al´eatoire PESR 
2.6.2 Sondage al´eatoire PEAR 
2.7 ESTIMATION D’UN TOTAL 
2.7.1 Estimateur de  
2.7.2 Esp´erance de ˆ 
2.7.3 Pr´ecision de ˆ 
1
2.8 ESTIMATION D’UNE PROPORTION 
2.8.1 Estimateur de  
2.8.2 Esp´erance de ˆ 
2.8.3 Pr´ecision de ˆ 
2.9 EFFET DE (PLAN DE) SONDAGE 
2.9.1 D´efinition 
2.9.2 Exemple 
2.10 INTERVALLES DE CONFIANCE 
2.10.1 Distribution d’´echantillonnage de ˆμ 
2.10.2 Intervalles de confiance 
2.10.3 Incertitude absolue et relative 
2.10.4 D´etermination de la taille d’un ´echantillon 
2.10.5 Exemples 
2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS 
REMISE 
2.11.1 M´ethode du tri al´eatoire 
2.11.2 D’autres m´ethodes fournissant un plan de son-dage 
de type PESR avec ´echantillons de taille n fix´ee a 
priori 
2.11.3 Tirage de Bernoulli 
2
2.1 DEFINITIONS 
• Le nombre n de tirages `a effectuer dans la population 
est fix´e a priori 
• 2 proc´edures possibles de tirage al´eatoire : 
a) n tirages au hasard avec remise : n tirages au hasard 
successifs et en repla¸cant l’unit´e selectionn´ee dans la 
population avant le tirage suivant 
b) n tirages au hasard sans remise : n tirages au hasard 
successifs et sans replacer l’unit´e s´electionn´ee dans la 
population avant le tirage suivant 
+ 

 = {s1, s2, . . . , sM} : ensemble des ´echantillons que l’on 
peut obtenir par la proc´edure de tirage al´eatoire choisie 
Caract´eristiques du plan de sondage : 
• Tous les individus de U ont la mˆeme probabilit´e de 
faire partie de l’´echantillon S qui sera s´electionn´e : ils 
ont tous la mˆeme probabilit´e d’inclusion 
• Tous les ´echantillons appartenant `a 
 se voient as-socier 
une (mˆeme) probabilit´e connue non nulle de 
s´election 
3
D´enominations : 
• sondage PEAR : sondage al´eatoire simple ou `a proba-bilit 
´es ´egales, avec remise 
• sondage PESR : sondage al´eatoire simple ou `a proba-bilit 
´es ´egales, sans remise 
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 
2.2.1 Plan de sondage 
• Les ´echantillons sont de la forme 
s = {i1, i2, . . . , in}, 
avec i16= i26= . . .6= in 2 U et ns = n 
• Nombre M d’´echantillons possibles : 
M = 
 
N 
n 
 
= 
N! 
n!(N − n)! 
• Pour tout s 2 
 : 
p(s) = 
 1 
N 
n 
 
4
• Exemple 2.1 : 
Population : U = {1, 2, 3, 4} =) N = 4 
Taille de l’´echantillon `a pr´elever : n = 2 
Taux de sondage : f = n/N = 50% 
Ensemble des ´echantillons pouvant ˆetre obtenus par tirage 
al´eatoire PESR : 

 = {{1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4}} =) M = 6 
On v´erifie que 
N 
n 
 
= 
 
4 
2 
 
= 
4! 
2!(4 − 2)! 
= 
4! 
2!2! 
= 
4 · 3 · 2 
2 · 2 
= 6 = M 
Probabilit´e de s´election d’un ´echantillon s particulier : 
p ({2, 4}) 
= P ((le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4) 
ou (le 1er s´electionn´e est 4 et le 2`eme s´electionn´e est 2)) 
= P(le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4) 
+P(le 1er s´electionn´e est 4 et le 2`eme s´electionn´e est 2) 
= P(le 1er s´electionn´e est 2) 
·P(le 2`eme s´electionn´e est 4| le 1er s´electionn´e est 2) 
+P(le 1er s´electionn´e est 4) 
·P(le 2`eme s´electionn´e est 2| le 1er s´electionn´e est 4) 
4 · 1 
3 + 1 
4 · 1 
3 = 2 
12 = 1 
6 
= 1 
=) tous les ´echantillons s de 
 ont la mˆeme probabilit´e 
de s´election : p(s) = 1/6 pour tout s 2 
 
5
2.2.2 Probabilit´es d’inclusion 
• La probabilit´e d’inclusion pi de l’individu i est la probabi-lit 
´e que cet individu i fasse partie de l’´echantillon (al´eatoire) 
S qui sera pr´elev´e ; 
en d’autres termes, pi est la probabilit´e de pr´elever un 
´echantillon qui contienne l’individu i : 
pi = P(i 2 S) = 
X 
s2
|i2s 
p(s) 
• Dans le cas du sondage PESR, pour tout i 2 U : 
pi = 
X 
s2
|i2s 
 1 
N 
n 
 
= 
nombre d’´echantillons possibles contenant i 
N 
n 
 
= 
 
N − 1 
n − 1 
 
 
N 
n 
 = 
n 
N 
= taux de sondage 
6
• Exemple 2.1 (suite) : 
Probabilit´e d’inclusion de l’individu 2 : 3 ´echantillons sur 
les 6 ´echantillons possibles contiennent l’individu 2 
=) p2 = 
3 
6 
= 
1 
2 
= 
n 
N 
On v´erifie que tous les individus de U ont bien la mˆeme 
probabilit´e d’inclusion : 
pi = 
1 
2 
pour tout i 2 U 
7
2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR) 
2.3.1 Plan de sondage 
• Les ´echantillons possibles sont de la forme 
s = {i1, i2, . . . , in} 
avec i1, i2, . . . , in 2 U. Un mˆeme individu peut ˆetre s´electionn´e 
`a plusieurs reprises (ns  n). 
• Nombre M d’´echantillons possibles : 
M = . . . (expression tr`es complexe) 
M = nombre d’´echantillons dont les n individus sont dis-tincts 
+ nombre d’´echantillons dans lesquels un individu 
est s´electionn´e 2 fois et les (n − 2) autres individus sont 
distincts + nombre d’´echantillons dans lesquels 2 indivi-dus 
sont chacun s´electionn´es 2 fois et les (n − 4) autres 
individus sont distincts + . . . 
8
• Exemple 2.2 : 
Population : U = {1, 2, 3, 4} =) N = 4 
Nombre de tirages `a effectuer : n = 2 
Ensemble des ´echantillons pouvant ˆetre obtenus par tirage 
al´eatoire PEAR : 

 = {{1, 1}, {1, 2}, {1, 3}, {1, 4}, {2, 2}, {2, 3}, {2, 4}, 
{3, 3}, {3, 4}, {4, 4}} =) M = 10 
Probabilit´e de s´election d’un ´echantillon s particulier : mˆeme 
raisonnement que dans l’exemple 2.1 
p ({2, 4}) = 
1 
4 
· 
1 
4 
+ 
1 
4 
· 
1 
4 
= 
2 
16 
= 
1 
8 
p ({1, 1}) = 
1 
4 
· 
1 
4 
= 
1 
16 
=) on v´erifie que 
p ({1, 1}) = p ({2, 2}) = p ({3, 3}) = p ({4, 4}) = 
1 
16 
p ({1, 2}) = p ({1, 3}) = . . . = p ({3, 4}) = 
2 
16 
= 
1 
8 
9
• On peut associer `a tout ´echantillon s 2 
 une probabilit´e 
de s´election p(s) telle que 
p(s)  0 et 
X 
s2
 
p(s) = 1 
MAIS, contrairement au sondage al´eatoire PESR, les ´echantillons 
de 
 ne sont pas tous ´equiprobables. 
Remarque : Par contre, si on tient compte de l’ordre de 
tirage dans la d´efinition des ´echantillons, ces derniers re-deviennent 
´equiprobables : 
– Les ´echantillons possibles sont de la forme 
so = (i1, i2, . . . , in) 
avec i1, i2, . . . , in 2 U et ik= individu s´electionn´e lors 
du k`eme tirage (k = 1, . . . , n) 
– Nombre Mo d’´echantillons possibles : 
Mo = Nn 
– Pour tout so 2 
o : 
p(so) = 
1 
Nn 
10
Exemple 2.2 (suite) : 

o = {(1, 1), (1, 2), (1, 3), (1, 4) 
(2, 1), (2, 2), (2, 3), (2, 4) 
(3, 1), (3, 2), (3, 3), (3, 4) 
(4, 1), (4, 2), (4, 3), (4, 4)} 
=) Mo = 16 = 42 
p ((2, 4)) = P (le 1er s´electionn´e est 2 
et le 2`eme s´electionn´e est 4) 
= 
1 
4 
· 
1 
4 
= 
1 
16 
On v´erifie que p(so) = 1/16 pour tout so 2 
o 
11
2.3.2 Probabilit´es d’inclusion 
Pour tout i 2 U : 
pi = P(i 2 S) 
= 1 − P(i 2 /S) 
= 1 −  
P(i n’est s´electionn´e `a aucun des n tirages) 
N − 1 
= 1 − 
N 
n 
= 1 − 
 
1 − 
1 
N 
n 
=) tous les individus de U ont bien la mˆeme probabilit´e 
d’inclusion 
Exemple 2.2 (suite) : 
Probabilit´e d’inclusion de l’individu 2 : 
p2 = 1 − 
 
1 − 
1 
4 
2 
= 1 − 
 
3 
4 
2 
= 
7 
16 
12
Remarque : 
Si n  N, alors pi 
= 
n/N 
=)les probabilit´es d’inclusion pour le sondage PEAR sont 
pratiquement identiques `a celles pour le sondage PESR 
Exemple : 
N = 1 000 
n = 10 
 
=) f = 
n 
N 
= 1% 
PESR : pi = f = 1% 
PEAR : pi = 1 − 
 
1 − 1 
1 000 
10 
= 0.00995 = 
0.01 = 1% 
13
2.4 VARIABLES INDICATRICES 
S = ´echantillon (al´eatoire) qui sera pr´elev´e 
par n tirages al´eatoires dans la population 
nS = nombre d’individus distincts dans S 
=) sondage al´eatoire 
PESR : nS = n 
PEAR : nS  n 
(PEAR : un mˆeme individu peut ˆetre s´electionn´e `a plu-sieurs 
reprises =) nS est al´eatoire) 
Variables indicatrices d’inclusion : pour tout i 2 U, 
• Ii = 
 
1 si i 2 S 
0 sinon 
 
P(Ii = 1) = P(i 2 S) = pi 
• 
P(Ii = 0) = P(i 2 /S) = 1 − pi 
=) Ii  Bin(1, pi) 
=) 
 
E(Ii) = pi 
Var(Ii) = pi(1 − pi) 
• 
P 
i2U Ii 
= nombre d’individus de U qui font partie de l’´ech. S 
= nS 
14
• 
P 
i2U pi = 
P 
i2U E(Ii) = E 
P 
i2U Ii 
 
= E(nS) 
Exemple : Pour le sondage PESR : 
X 
i2U 
pi = 
X 
i2U 
n 
N 
= N · 
n 
N 
= n 
15
2.5 ESTIMATEUR 
Objectif 
Estimer un param`etre-population  : 
 = (y1, y2, . . . , yN) 2  
(cf. Section 1.2.3 :  = , μ, 2, , . . .) 
Estimateur ˆ de  
• Un estimateur ˆ de  est une fonction des valeurs ob-serv 
´ees pour Y dans l’´echantillon pr´elev´e, qui prend 
ses valeurs dans l’ensemble  des valeurs possibles de 
 : 
ˆ = h(yi; i 2 S) 2  
• ˆ est une variable al´eatoire :on ne peut pas pr´edire `a 
l’avance quels individus feront partie de l’´echantillon 
particulier s qui sera effectivement pr´elev´e 
=) on ne peut pas pr´edire `a l’avance quelles valeurs 
de Y seront observ´ees dans l’´echantillon particulier s 
qui sera effectivement pr´elev´e 
=) on ne peut pas pr´edire `a l’avance quelle valeur 
prendra ˆ dans l’´echantillon particulier s qui sera ef-fectivement 
pr´elev´e 
16
• La valeur prise par ˆ dans l’´echantillon particulier s est 
not´ee ˆs : 
ˆs = h(yi; i 2 s); 
cette valeur ˆs fournit une estimation de . 
• Comme toute variable al´eatoire, l’estimateur ˆ poss`ede 
une certaine distribution de probabilit´e, appel´ee distri-bution 
d’´echantillonnage, ´etroitement li´ee au plan de 
sondage : n 
ˆs, p(s) 
 
; s 2 
 
o 
=) 
8 
: 
E(ˆ) = 
P 
s2
 p(s)ˆs 
Var(ˆ) = 
P 
s2
 p(s) 
 
ˆs − E(ˆ) 
2 
17
Exemple 2.3 
• Population : U = {1, 2, 3} 
• Variable d’int´erˆet : Y = ˆage 
avec y1 = 28, y2 = 32, y3 = 40 
• Param`etres-population : 
μ = 
28 + 32 + 40 
3 
= 33.33 
2 = 
(28 − 33.33)2 + (32 − 33.33)2 + (40 − 33.33)2 
3 
= 24.89 
 = proportion d’individus dans la population 
ˆag´es de moins de 30 ans 
= 1/3 
• Plan de sondage (PESR) : 
n = 2 

 = {s1 = {1, 2}, s2 = {1, 3}, s3 = {2, 3}} 
p(s1) = p(s2) = p(s3) = 1/3 
18
• Estimateurs : 
ˆμ = 
1 
n 
X 
i2S 
yi = y (moyenne-´echantillon) 
ˆ2 = 
1 
n 
X 
i2S 
(yi − y)2 = s2 (variance-´echantillon) 
ˆ = proportion d’individus dans l’´echantillon S 
ˆag´es de moins de 30 ans 
• Distributions d’´echantillonnage : 
s p(s) ˆμs ˆ2 
s ˆs 
{1,2} 1/3 30 4 0.5 
{1,3} 1/3 34 36 0.5 
{2,3} 1/3 36 16 0 
1 
=) 
E(ˆμ) = 
1 
3 
· 30 + 
1 
3 
· 34 + 
1 
3 
· 36 
= 33.33 = μ 
Var(ˆμ) = 
1 
3 
(30 − 33.33)2 + 
1 
3 
(34 − 33.33)2 
+ 
1 
3 
(36 − 33.33)2 = 6.45 
E(ˆ2) = 
1 
3 
· 4 + 
1 
3 
· 36 + 
1 
3 
· 16 
= 18.676= 2 
19
E(ˆ) = 
1 
3 
· (0.5) + 
1 
3 
· (0.5) + 
1 
3 
· 0 = 
1 
3 
=  
Var(ˆ) = 
1 
3 
 
1 
2 
− 
1 
3 
2 
+ 
1 
3 
 
1 
2 
− 
1 
3 
2 
+ 
1 
3 
 
0 − 
1 
3 
2 
= 0.05 
Erreur d’´echantillonnage 
• En g´en´eral, la valeur prise par un estimateur dans un 
´echantillon est diff´erente de la valeur du param`etre 
qu’il cherche `a estimer. 
Ex. : En g´en´eral, la moyenne-´echantillon est distincte 
de la moyenne-population. 
• La valeur ˆs prise par l’estimateur ˆ dans l’´echantillon 
s n’est qu’une estimation de la valeur exacte du pa-ram` 
etre-population . 
• L’erreur que l’on commet en rempla¸cant  par ˆs n’est 
pas imputable `a une incomp´etence dans des mesures 
ou des calculs : elle r´esulte du fait qu’une partie de la 
population a ´et´e omise. Cette erreur est appel´ee erreur 
d’´echantillonnage. 
• On peut ´evaluer l’importance de l’erreur d’´echantillonnage 
associ´ee `a un estimateur en calculant le biais et la va-riance 
ou l’erreur quadratique moyenne de cet estima-teur. 
20
Deux propri´et´es sont g´en´eralement recherch´ees pour un 
estimateur : 
– ˆetre sans biais 
– avoir une bonne pr´ecision 
21
Biais d’un estimateur 
• Un estimateur ˆ du param`etre-population  est sans 
biais (non biais´e) si et seulement si 
E(ˆ) =  
Ex. : ˆμ est un estimateur sans biais de μ ; ˆ est un 
estimateur sans biais de  ; ˆ2 est un estimateur biais´e 
de 2 
• Le biais de l’estimateur ˆ est 
B(ˆ) = E(ˆ) −  
22
Pr´ecision d’un estimateur 
• La pr´ecision d’un estimateur est mesur´ee par son er-reur 
quadratique moyenne EQM(ˆ) (mean squared er-ror 
MSE(ˆ)) : 
h 
i 
X 
EQM(ˆ) = E 
( ˆ− )2 
= 
s2
 
p(s)(ˆs − )2 
= Var(ˆ) + 
 
B(ˆ) 
2 
• Si ˆ est un estimateur sans biais de , alors 
EQM(ˆ) = Var(ˆ) 
Distributions d’´echantillonnage de ˆ1 et ˆ2 : 
E(ˆ1) = E(ˆ2) =  ; Var(ˆ1)  Var(ˆ2) 
P 
 
 −   ˆ1   +  
 
 P 
 
 −   ˆ2   +  
 
La probabilit´e de prendre une valeur fort proche de  
est plus grande pour ˆ1 que pour ˆ2. 
23
2.6 ESTIMATION D’UNE MOYENNE 
2.6.1 Sondage al´eatoire PESR 
Echantillon de taille n 
a) Estimateur de μ : 
ˆμPESR = 
1 
n 
X 
i2S 
yi = y (moyenne-´echantillon) 
b) ˆμPESR est sans biais : E(ˆμPESR) = μ 
D´em. : 
E(ˆμPESR) = E 
  
1 
n 
X 
i2S 
yi 
! 
= E 
  
1 
n 
X 
i2U 
yiIi 
! 
= 
1 
n 
X 
i2U 
yi E(Ii) 
= 
1 
n 
X 
i2U 
yi pi car E(Ii) = pi 
= 
1 
n 
X 
i2U 
yi 
n 
N 
car pi = n 
N (PESR) 
= 
1 
N 
X 
i2U 
yi = μ 
24
c) Pr´ecision de ˆμPESR : 
Var(ˆμPESR) = 
 
1 
n 
− 
1 
N 
 
2 
corr = (1 − f) 
2 
corr 
n 
o`u 
f = 
n 
N 
et 2 
corr = 
1 
N − 1 
X 
i2U 
(yi − μ)2 
La variance et donc la pr´ecision de ˆμPESR d´ependent de 
trois ´el´ements : 
• la taille n de l’´echantillon : plus l’´echantillon est grand, 
plus l’estimation de μ est pr´ecise 
• le taux de sondage f : plus f est proche de 1, c’est- 
`a-dire plus la taille de l’´echantillon est proche de celle 
de la population, plus l’estimation de μ est pr´ecise. A 
la limite, pour f = 1 (´echantillon ´egal `a la population 
tout enti`ere), Var(ˆμPESR) = 0 : il n’y a plus d’erreur 
d’´echantillonnage 
• la variance 2 
corr de la variable d’int´erˆet Y dans la po-pulation 
U : plus la population est homog`ene (2 
corr pe-tite), 
plus le sondage y est efficace. Par contre, sonder 
une population tr`es h´et´erog`ene (2 
corr grande) n´ecessite, 
pour s’assurer que Var(ˆμPESR) ne soit pas trop ´elev´ee, 
de pr´elever un ´echantillon de taille importante ou de 
r´ealiser un d´ecoupage pr´ealable en sous-populations 
homog`enes (cf. sondage stratifi´e) 
25
d) Estimation de Var(ˆμPESR) 
On peut montrer que la variance-´echantillon corrig´ee 
s2 
corr = 
1 
n − 1 
X 
i2S 
(yi − y)2 
est un estimateur sans biais de 2 
corr. D`es lors, 
cVar(ˆμPESR) = (1 − f) 
s2 
corr 
n 
est un estimateur sans biais de Var(ˆμPESR). 
La valeur prise par cVar(ˆμPESR) dans l’´echantillon s parti-culier 
effectivement pr´elev´e nous fournit une estimation de 
la variance, et donc de la pr´ecision, de l’estimateur ˆμPESR 
de μ. 
26
e) Exemple 2.4 
Une population U est compos´ee des cinq nombres 2, 3, 6, 8 et 11. 
On veut estimer la moyenne-population μ `a partir d’un ´echantillon 
d’effectif 2 pr´elev´e dans U selon une proc´edure PESR. 
! Estimateur de μ : y. Propri´et´es de y ? 
Param`etres de la population : 
μ = 
2 + 3 + 6 + 8 + 11 
5 
= 6 
2 = 
(2 − 6)2 + . . . + (11 − 6)2 
5 
= 10.8 
2 
corr = 
5 
4 
(10.8) = 13.5 
Taux de sondage : 
f = 
n 
N 
= 
2 
5 
= 0.4 = 40% 
Nombre d’´echantillons possibles : 
 
N 
n 
 
= 
 
5 
2 
 
= 
5! 
2!(5 − 2)! 
= 
5! 
2!3! 
= 
5 × 4 × 3 × 2 × 1 
2 × 1 × 3 × 2 × 1 
= 10 
27
Plan de sondage et distribution d’´echantillonnage de y : 
Echantillons 
possibles : s p(s) ys 
{2, 3} 1/10 2.5 
{2, 6} 1/10 4 
{2, 8} 1/10 5 
{2, 11} 1/10 6.5 
{3, 6} 1/10 4.5 
{3, 8} 1/10 5.5 
{3, 11} 1/10 7 
{6, 8} 1/10 7 
{6, 11} 1/10 8.5 
{8, 11} 1/10 9.5 
1 
E(y) = 
1 
10 
(2.5) + 
1 
10 
(4) + . . . + 
1 
10 
(9.5) = 6 = μ 
Var(y) = 
1 
10 
(2.5 − 6)2 + 
1 
10 
(4 − 6)2 + . . . + 
1 
10 
(9.5 − 6)2 = 4.05 
On v´erifie bien que Var(y) = (1 − f)2 
corr 
n = (1 − 0.4)13.5 
2 = 4.05. 
Supposons que le hasard nous fasse s´electionner l’´echantillon {2, 3}. 
Dans ce cas, y = 2.5 (estimation de μ) et 
s2 
corr = 
1 
2 − 1 
 
(2 − 2.5)2 + (3 − 2.5)2 
= 0.5 . 
On estime alors Var(y) par 
(1 − f) 
s2 
corr 
n 
= (1 − 0.4) 
0.5 
2 
= 0.15 . 
28
2.6.2 Sondage al´eatoire PEAR 
n tirages al´eatoires avec remise dans la population 
nS = nombre (al´eatoire) d’individus distincts dans l’´echantillon 
S qui sera pr´elev´e 
(i) Lien avec l’inf´erence statistique classique 
F Dans la population U : 
Les valeurs prises par la variable d’int´erˆet Y chez les N 
individus de U sont 
y1, y2, . . . , yN 
=) 
( 
μ = 1 
N 
P 
i2U yi 
2 = 1 
N 
P 
i2U(yi − μ)2 
F Tirage au hasard (`a probabilit´es ´egales) d’un individu 
dans la population : 
• Il s’agit d’une exp´erience al´eatoire dont l’ensemble des 
r´esultats possibles est U. 
• On peut associer `a cette exp´erience al´eatoire la va-riable 
al´eatoire Z qui prend la valeur yi si l’individu 
s´electionn´e est l’individu i. 
29
Cette v.a. Z poss`ede une distribution de probabilit´e 
qui co¨ıncide avec la distribution (de fr´equences) de Y 
dans U : pour i = 1, . . . ,N, 
P(Z = yi) = P(l’individu s´electionn´e est l’individu i) 
= 1/N 
( + 
E(Z) = μ 
Var(Z) = 2 
F n tirages `a probabilit´es ´egales et avec remise (PEAR) 
dans la population : 
• On associe au k`eme tirage (k = 1, . . . , n) la va-riable 
al´eatoire Zk qui prend la valeur yi si l’individu 
s´electionn´e au k`eme tirage est l’individu i : 
Zk = yi si ik = i; 
P(Zk = yi) = P (l’individu s´electionn´e au k`eme tirage 
est l’individu i) = 1/N 
=) 
( 
E(Zk) = μ 
Var(Zk) = 2 (k = 1, . . . , n) 
• Les Zk (k = 1, . . . , n) sont des v.a. ind´ependantes et 
identiquement distribu´ees (i.i.d.) 
30
(ii) Tirage de n individus distincts : nS = n 
a) Estimateur de μ : 
ˆμPEAR = 
1 
n 
X 
i2S 
yi = y (moyenne-´echantillon) 
Autre ´ecriture possible : ˆμPEAR = 1 
n 
Pn 
k=1 Zk 
b) ˆμPEAR est sans biais : 
E(ˆμPEAR) = μ 
D´em. : 
E(ˆμPEAR) = 
1 
n 
Xn 
k=1 
E(Zk) = 
1 
n 
Xn 
k=1 
μ = μ 
c) Pr´ecision de ˆμPEAR : 
Var(ˆμPEAR) = 
2 
n 
D´em. : 
Var(ˆμPEAR) = Var 
  
1 
n 
Xn 
k=1 
Zk 
! 
= 
1 
n2 
Xn 
k=1 
Var(Zk) 
= 
1 
n2 
Xn 
k=1 
2 = 
n2 
n2 = 
2 
n 
31
Pour le sondage al´eatoire PEAR, comme dans le cas du 
sondage al´eatoire PESR, la variance et donc la pr´ecision 
de ˆμPEAR d´epend de 
• la taille n de l’´echantillon 
• la variance 2 de la variable d’int´erˆet Y dans la po-pulation 
U 
=) plus l’´echantillon est grand et la population est 
homog`ene, plus l’estimation de μ est pr´ecise 
MAIS, 
contrairement au cas du sondage al´eatoire PESR, la 
variance de ˆμPEAR ne d´epend pas de la taille N de 
la population (et donc du taux de sondage f), ce qui 
n’est pas n´ecessairement tr`es intuitif ! ! ! 
d) Estimation de Var(ˆμPEAR) : 
La variance-´echantillon corrig´ee 
s2 
corr = 
1 
n − 1 
X 
i2S 
(yi − y)2 
est un estimateur sans biais de 2 (cf. cours de statis-tique 
de base). D`es lors, 
cVar(ˆμPEAR) = 
s2 
corr 
n 
est un estimateur sans biais de Var(ˆμPEAR) 
32
e) Exemple 2.4 (suite) 
Nombre d’´echantillons possibles dans le cas PEAR (si l’on tient compte 
de l’ordre du tirage) : N2 = 25. 
Echantillons Echantillons 
possibles : s p(s) ys possibles : s p(s) ys 
2, 2 1/25 2 8, 2 1/25 5 
2, 3 1/25 2.5 8, 3 1/25 5.5 
2, 6 1/25 4 8, 6 1/25 7 
2, 8 1/25 5 8, 8 1/25 8 
2, 11 1/25 6.5 8, 11 1/25 9.5 
3, 2 1/25 2.5 11, 2 1/25 6.5 
3, 3 1/25 3 11, 3 1/25 7 
3, 6 1/25 4.5 11, 6 1/25 8.5 
3, 8 1/25 5.5 11, 8 1/25 9.5 
3, 11 1/25 7 11, 11 1/25 11 
6, 2 1/25 4 
6, 3 1/25 4.5 
6, 6 1/25 6 
6, 8 1/25 7 
6, 11 1/25 8.5 
33
) Distribution d’´echantillonnage de y : 
Valeurs possibles 
de y Probas 
2 1/25 
2.5 2/25 
3 1/25 
4 2/25 
4.5 2/25 
5 2/25 
5.5 2/25 
6 1/25 
6.5 2/25 
7 4/25 
8 1/25 
8.5 2/25 
9.5 2/25 
11 1/25 
1 
E(y) = 
1 
25 
(2) + 
2 
25 
(2.5) + . . . + 
1 
25 
(11) = 6 = μ 
Var(y) = 
1 
25 
(2 − 6)2 + 
2 
25 
(2.5 − 6)2 + . . . + 
1 
25 
(11 − 6)2 = 5.4 
On v´erifie bien que Var(y) = 2 
n = 10.8 
2 = 5.4. 
Supposons que le hasard nous fasse s´electionner l’´echantillon {2, 3}. 
Dans ce cas, y = 2.5 (estimation de μ) et s2 
corr = 0.5. On estime alors 
Var(y) par 
s2 
corr 
n 
= 
0.5 
2 
= 0.25 . 
34
(iii) Tirage de m individus distincts : nS = m  n 
1) Utilisation des n observations 
Mˆemes r´esultats qu’en (ii) (! ˆμPEAR) 
2) Prise en compte seulement des m individus distincts 
a) Estimateur de μ : 
ˆμdiff = 
1 
nS 
X 
i2Sdiff 
yi 
o`u 
• S = ´echantillon al´eatoire constitu´e des n individus 
pr´elev´es 
• Sdiff = ensemble des individus distincts s´electionn´es 
• nS = #Sdiff = nombre d’individus distincts dans S 
Remarque : 
S est al´eatoire ) Sdiff et nS sont al´eatoires ) le 
nombre d’observations `a prendre en consid´eration 
pour calculer ˆμdiff est al´eatoire : difficult´e suppl´ementaire ! ! ! 
b) ˆμdiff est sans biais : 
E(ˆμdiff) = μ 
35
c) Pr´ecision de ˆμdiff : 
• Var(ˆμdiff) = 
1 
n − 1 
2N + n−1 
12N2 
 
2 
corr 
• Var(ˆμdiff)  Var(ˆμPEAR) : 
dans le cas du pr´el`evement de n individus par son-dage 
PEAR, il est toujours plus int´eressant de ne 
conserver que les unit´es statistiques distinctes. 
36
2.7 ESTIMATION D’UN TOTAL 
Dans la population U :  = 
P 
i2U yi = Nμ 
2.7.1 Estimateur de  
Dans le cas du sondage PESR comme dans celui du son-dage 
PEAR o`u l’on utilise les n observations de l’´echantillon, 
on estime μ par y, que nous d´esignerons simplement par 
ˆμ 
=) Estimateur de  : ˆ = N ˆμ 
N.B.) N est suppos´e connu 
2.7.2 Esp´erance de ˆ 
Dans le cas des sondages PESR et PEAR o`u l’on utilise les 
n observations de l’´echantillon : 
E(ˆμ) = μ 
=) E(ˆ ) = NE(ˆμ) = Nμ =  
=) ˆ est un estimateur sans biais de  
37
2.7.3 Pr´ecision de ˆ 
Var(ˆ ) = Var(N ˆμ) = N2Var(ˆμ) 
a) Sondage al´eatoire PESR 
• Var(ˆ ) = N2(1 − f)2 
corr/n 
• cVar(ˆ ) = N2(1 − f)s2 
corr/n 
b) Sondage al´eatoire PEAR (utilisation des n observations 
de l’´echantillon) 
• Var(ˆ ) = N22/n 
• cVar(ˆ ) = N2s2 
corr/n 
38
2.8 ESTIMATION D’UNE PROPORTION 
• U est partag´e en deux sous-ensembles : K1 et K2 
Ex. : K1 = ensemble des individus de la population U qui 
poss`edent une certaine caract´eristique 
•  = proportion d’individus de U qui appartiennent `a K1 
•  peut ˆetre vu comme une moyenne-population : 
Soit 
yi = 
 
1 si i 2 K1 
0 si i 2 K2 
(i = 1, . . . ,N) 
) 
8 
: 
μ = 1 
N 
P 
i2U yi =  
2 = 1 
N 
P 
i2U(yi − μ)2 = 1 
N 
P 
i2U y2 
i − μ2 
= 1 
N 
P 
i2U yi − μ2 =  − 2 = (1 − ) 
2.8.1 Estimateur de  
Dans le cas des sondages PESR et PEAR o`u l’on utilise les 
n observations de l’´echantillon : 
ˆ = ˆμ = y = 1 
n 
P 
i2S yi 
= proportion d’individus dans l’´echantillon 
qui appartiennent `a K1 
39
2.8.2 Esp´erance de ˆ 
Dans le cas des sondages PESR et PEAR o`u l’on utilise les 
n observations de l’´echantillon : 
E(ˆ) =  
=) ˆ est sans biais 
2.8.3 Pr´ecision de ˆ 
a) Sondage al´eatoire PESR 
• 
Var(ˆ) = (1 − f) 
2 
corr 
n 
= (1 − f) 
1 
n 
· 
N 
N − 1 
2 
= (1 − f) 
N(1 − ) 
(N − 1)n 
= (1 − 
n 
N 
) 
N(1 − ) 
(N − 1)n 
= 
N − n 
N − 1 
· 
(1 − ) 
n 
= 
(1 − f) 
(1 − ) 
n 
si 
N 
N − 1 
= 
1 
40
• Un estimateur sans biais de 2 
corr est 
s2 
corr = 
1 
n − 1 
X 
i2S 
(yi − y)2 
= 
n 
n − 1 
  
1 
n 
X 
i2S 
(yi − y)2 
! 
= 
n 
n − 1 
  
1 
n 
X 
i2S 
y2 
i − y2 
! 
= 
n 
n − 1 
  
1 
n 
X 
i2S 
yi − y2 
! 
= 
n 
n − 1 
 
ˆ − ˆ2 
= 
n 
n − 1 
ˆ(1 − ˆ) 
=) Un estimateur sans biais de Var(ˆ) = (1−f)2 
corr 
n 
est 
cVar(ˆ) = (1 − f) 
ˆ(1 − ˆ) 
n − 1 
41
b) Sondage al´eatoire PEAR (utilisation des n observations 
de l’´echantillon) 
• Var(ˆ) = 2 
n = (1−) 
n 
corr = n 
• Un estimateur sans biais de 2 est s2 
n−1 ˆ(1−ˆ) 
=) un estimateur sans biais de Var(ˆ) = 2 
n est 
cVar(ˆ) = 
ˆ(1 − ˆ) 
n − 1 
En conclusion : facteurs jouant sur Var(ˆ) (ou 
p 
Var(ˆ)) 
PEAR : 
p 
Var(ˆ) = 
r 
(1 − ) 
n 
PESR : 
p 
Var(ˆ)  
r 
(1 − f) 
(1 − ) 
n 
 
r 
(1 − ) 
n 
si f fort petit 
42
Valeurs de 
q 
(1−) 
n en fonction de  et de n 
(Valeurs en multiples de .01) 
p ! .05 .10 .15 .20 .25 .30 .35 .40 .45 .50 
n # 
100 2.2 3.0 3.6 4.0 4.3 4.6 4.8 4.9 5.0 5.0 
150 1.8 2.4 2.9 3.2 3.5 3.7 3.8 3.9 4.1 4.1 
200 1.5 2.1 2.5 2.8 3.1 3.2 3.4 3.5 3.5 3.5 
250 1.4 1.9 2.3 2.5 2.7 2.9 3.0 3.1 3.1 3.2 
300 1.3 1.7 2.1 2.3 2.5 2.6 2.8 2.8 2.9 2.9 
350 1.2 1.6 1.9 2.1 2.3 2.4 2.5 2.6 2.7 2.7 
400 1.1 1.5 1.8 2.0 2.2 2.3 2.4 2.4 2.5 2.5 
450 1.0 1.4 1.7 1.9 2.0 2.2 2.2 2.3 2.3 2.4 
500 1.0 1.3 1.6 1.8 1.9 2.0 2.1 2.2 2.2 2.2 
600 .9 1.2 1.5 1.6 1.8 1.9 1.9 2.0 2.0 2.0 
700 .8 1.1 1.3 1.5 1.6 1.7 1.8 1.9 1.9 1.9 
800 .8 1.1 1.3 1.4 1.5 1.6 1.7 1.7 1.8 1.8 
900 .7 1.0 1.2 1.3 1.4 1.5 1.6 1.6 1.7 1.7 
1 000 .7 .9 1.1 1.3 1.4 1.4 1.5 1.5 1.6 1.6 
1 500 .6 .8 .9 1.0 1.1 1.2 1.2 1.3 1.3 1.3 
2 000 .5 .7 .8 .9 1.0 1.0 1.1 1.1 1.1 1.1 
2 500 .4 .6 .7 .8 .9 .9 1.0 1.0 1.0 1.0 
3 000 .4 .5 .7 .7 .8 .8 .9 .9 .9 .9 
4 000 .3 .5 .6 .6 .7 .7 .8 .8 .8 .8 
5 000 .3 .4 .5 .6 .6 .6 .7 .7 .7 .7 
10 000 .2 .3 .4 .4 .4 .5 .5 .5 .5 .5 
20 000 .2 .2 .3 .3 .3 .3 .4 .4 .4 .4 
43
2.9 EFFET DE (PLAN DE) SONDAGE 
Question : Lorsqu’on d´esire estimer un param`etre-population 
par sondage et qu’on a le choix entre plusieurs plans de 
sondage possibles, lequel doit-on utiliser ? 
R´eponse : L’id´eal est de pouvoir appliquer le plan de son-dage 
donnant lieu `a l’estimateur le plus pr´ecis du param`etre-population. 
L’effet de sondage est une mesure permettant de comparer 
deux plans de sondage en termes de pr´ecision des estima-teurs 
qu’ils fournissent. 
2.9.1 D´efinition 
•  : param`etre `a estimer 
• On dispose de deux plans de sondage diff´erents (pour 
la mˆeme taille d’´echantillon n) : 
P1 = {(s, p1(s)); s 2 
1} 
P2 = {(s0, p2(s0)); s0 2 
2} 
• ˆ1 : estimateur de  si l’on suit le plan de sondage P1 
ˆ2 : estimateur de  si l’on suit le plan de sondage P2 
44
• Si ˆ1 et ˆ2 sont deux estimateurs sans biais de , alors 
l’effet de sondage de P1 par rapport `a P2 est d´efini par 
D(P1| P2) = 
VarP1(ˆ1) 
VarP2(ˆ2) 
• Interpr´etation : 
D(P1| P2)  1 
() VarP1(ˆ1)  VarP2(ˆ2) 
() pour une mˆeme taille d’´echantillon n, l’estima-teur 
ˆ1 est plus pr´ecis que l’estimateur ˆ2 
()le plan de sondage P1 permet une estimation plus 
pr´ecise de  que le plan de sondage P2 
2.9.2 Exemple 
Prenons  = μ. 
La taille n de l’´echantillon est fix´ee a priori. 
P1 : sondage al´eatoire PESR : ˆ1 = ˆμPESR = y et 
VarPESR(y) = 
 
1 
n 
− 
1 
N 
 
2 
corr = 
N − n 
N − 1 
· 
2 
n 
P2 : sondage al´eatoire PEAR : ˆ2 = ˆμPEAR = y et 
VarPEAR(y) = 
2 
n 
45
=) D(PESR| PEAR) = N−n 
N−1 
= 
1 − f  1 
=) PESR doit ˆetre pr´ef´er´e `a PEAR 
Exemple 2.4 (suite) 
L’effet de sondage est donn´e par 
D(PESR|PEAR) = 
VarPESR(y) 
VarPEAR(y) 
= 
4.05 
5.4 
= 0.75  1. 
y est un estimateur de μ plus pr´ecis dans le cas PESR ; 
les valeurs possibles de y sont moins dispers´ees autour de 
μ = 6 dans le cas PESR que dans le cas PEAR. 
Remarques : 
• On peut montrer que, pour un mˆeme nombre n de ti-rages, 
Var(ˆμPESR)  Var(ˆμdiff)  Var(ˆμPEAR); 
le plan al´eatoire simple sans remise est toujours pr´ef´erable 
et, si le plan est avec remise, il est toujours plus int´eressant 
de ne conserver que les unit´es statistiques distinctes. 
46
• Si n est petit par rapport `a N (c`ad le taux de sondage 
f est tr`es petit), alors le gain en pr´ecision de PESR par 
rapport `a PEAR est tr`es faible. 
Valeurs de N−n 
N−1 
N ! 100 10 000 1 000 000 
n # 
10 0.909 0.999 0.99999 
100 0 0.990 0.99990 
1 000 − 0.900 0.99900 
10 000 − 0 0.99000 
• En pratique, le choix du plan de sondage ne se fonde pas 
sur le seul crit`ere de la pr´ecision de l’estimateur. Ce choix 
doit se faire en tenant compte aussi 
– du coˆut de l’op´eration 
– des possibilit´es d’application 
– des facilit´es d’application 
Ces diff´erents crit`eres sont parfois contradictoires ! 
47
2.10 INTERVALLES DE CONFIANCE 
2.10.1 Distribution d’´echantillonnage de ˆμ 
(i) Sondage al´eatoire PEAR 
• Rappels : 
– n tirages au hasard successifs avec remise 
– On associe au k`eme tirage (k = 1, . . . , n) la va-riable 
al´eatoire Zk qui prend la valeur yi si l’individu 
s´electionn´e au k`eme tirage est l’individu i 
– Z1,Z2, . . . ,Zn sont des v.a.’s i.i.d. telles que 
E(Zk) = μ et Var(Zk) = 2 
pour tout k = 1, . . . , n ; Zk a une distribution de 
probabilit´e qui co¨ıncide avec la distribution de fr´equences 
de la variable d’int´erˆet Y dans la population U 
• Si Y a une distribution de fr´equences que l’on peut 
”approcher” (ajuster) par la loi N(μ, 2), alors on peut 
consid´erer que Z1,Z2, . . . ,Zn sont i.i.d. N(μ, 2) 
et 
ˆμ = 
1 
n 
Xn 
k=1 
Zk  N 
 
μ, 
2 
n 
 
() 
ˆμ − μ 
/ 
p 
n 
 N(0, 1) 
48
Si, de plus, 2 est inconnu, on peut l’estimer par son 
estimateur sans biais s2 
corr et on a 
μ ˆ− μ 
p 
scorr/ 
n 
 tn−1 
• Dans le cas o`u l’on ne connaˆıt pas la distribution de Y 
dans U, le th´eor`eme central limite (TCL) nous indique 
que, si n  30, 
ˆμ − μ 
/ 
p 
n 
 N(0, 1) 
Si, de plus, 2 est inconnu, on peut l’estimer par son 
estimateur sans biais s2 
corr et on a 
ˆμ − μ 
scorr/ 
p 
n 
 N(0, 1) 
(ii) Sondage al´eatoire PESR 
• Si on d´efinissait des v.a.’s Zk (k = 1, . . . , n) comme 
pour le sondage al´eatoire PEAR, elles ne seraient ni 
ind´ependantes, ni ´equidistribu´ees 
=) impossibilit´e de faire appel au TCL classique 
=) utilisation d’un th´eor`eme central pour population 
finie 
49
• Si U(N) est une population de taille N, de moyenne 
μ(N) et de variance ((N))2 
et 
si y(n) est la variable al´eatoire correspondant `a la moyenne 
arithm´etique des observations d’un ´echantillon al´eatoire 
S(n) de taille n : y(n) = 1 
n 
P 
i2S(n) yi, 
alors 
y(n) − μ(N) 
q 
Var(y(n)) 
 N(0, 1) 
quand n ! 1 et N − n ! 1, et sous des condi-tions 
g´en´erales li´ees `a la part de ((N))2 due `a chaque 
´el´ement de U(N) 
• Sous des conditions identiques : 
y(n) − μ(N) 
q 
cVar(y(n)) 
 N(0, 1) 
50
2.10.2 Intervalles de confiance 
De mani`ere g´en´erale, si ˆ est un estimateur non biais´e de 
 et si on peut supposer que 
ˆ −  q 
cVar(ˆ) 
 N(0, 1), 
l’intervalle de confiance pour  au niveau de confiance 1− 
(0    1) est donn´e par 
 
ˆ ± z1−/2 
q 
cVar(ˆ) 
 
, 
o`u z1−/2 est le quantile d’ordre 1−/2 de la loi N(0, 1) 
(si X  N(0, 1), alors P[X  z1−/2] = 1 − /2) 
D´em. : 
Si X  N(0, 1), alors 
P(−z1−/2  X  z1−/2) = 1 − . 
51
Puisque pˆ− 
dVar(ˆ) 
 N(0, 1), on a donc 
P 
 
−z1−/2  
pˆ− 
dVar(ˆ) 
 z1−/2 
 
= 
1 −  
=) P 
 
ˆ − z1−/2 
q 
cVar(ˆ)    ˆ + z1−/2 
q 
cVar(ˆ) 
 
= 
1 −  
N.B.) 
• si 1 −  = 95%, alors z1−/2 = z0.975 = 1.96 
• si 1 −  = 90%, alors z1−/2 = z0.95 = 1.645 
(i) I.C. pour μ au niveau de confiance 1 −  : 
 
ˆμ ± z1−/2 
q 
cVar(ˆμ) 
 
PESR : 
 
ˆμ ± z1−/2 
q 
(1 − f)s2 
corr 
n 
 
PEAR : 
 
ˆμ ± z1−/2 
q 
s2 
corr 
n 
 
52
(ii) I.C. pour  au niveau de confiance 1 −  : 
 
ˆ ± z1−/2 
q 
cVar(ˆ ) 
 
PESR : 
 
ˆ ± z1−/2 
q 
N2(1 − f)s2 
corr 
n 
 
PEAR : 
 
ˆ ± z1−/2 
q 
N2s2 
corr 
n 
 
(iii) I.C. pour  au niveau de confiance 1 −  : 
 
ˆ ± z1−/2 
q 
cVar(ˆ) 
 
PESR : 
 
ˆ ± z1−/2 
q 
(1 − f) ˆ(1−ˆ) 
n−1 
 
PEAR : 
 
ˆ ± z1−/2 
q 
ˆ(1−ˆ) 
n−1 
 
Remarque : 
L’I.C. pour  est un intervalle al´eatoire : les valeurs de ses 
bornes varient d’un ´echantillon `a l’autre. 
53
Exemple 2.5 
Un ´echantillon de 400 automobilistes d’un pays comprend 40 pro-pri 
´etaires d’une voiture de marque A. Construisez un intervalle de 
confiance, au niveau de confiance de 95%, pour la proportion r´eelle 
d’automobilistes de ce pays qui poss`edent une voiture de marque A, 
en consid´erant que l’´echantillon a ´et´e pr´elev´e selon un tirage PESR 
dans une population de taille 
a) N = 5 000 ; 
b) N = 100 000. 
Solution 
n = 400 
 = proportion d’automobilistes poss´edant une voiture de marque A 
dans le pays 
ˆ = 40/400 = 0.1 
L’I.C. pour  au niveau de confiance de 95% est 
 
ˆ ± z0.975 
q 
cVar(ˆ) 
 
= 
 
ˆ ± (1.96) 
q 
cVar(ˆ) 
 
. 
Puisque le tirage est PESR, nous avons 
cVar(ˆ) = (1 − f) 
ˆ(1 − ˆ) 
n − 1 
= (1 − f) 
(0.1)(0.9) 
399 
= (1 − f)(0.00023) 
a) Si N = 5 000, le taux de sondage est ´egal `a f = 400 
5 000 = 0.08 = 
8%. On a alors 
cVar(ˆ) = (0.92)(0.00023) = 0.00021 
) 
q 
cVar(ˆ) = 0.01441 
54
L’I.C. pour  au niveau de confiance de 95% est alors 
[0.1 ± (1.96)(0.01441)] = [0.1 ± 0.02823] 
= [0.07177 ; 0.12823] = [7.177% ; 12.823%] 
b) Si N = 100 000, le taux de sondage est ´egal `a f = 400 
100 000 = 
0.004. On a alors 
cVar(ˆ) = (0.996)(0.00023) = 0.00022 
) 
q 
cVar(ˆ) = 0.01499 
L’I.C. pour  au niveau de confiance de 95% est alors 
[0.1 ± (1.96)(0.01499)] = [0.1 ± 0.02938] 
= [0.07062 ; 0.12938] = [7.062% ; 12.938%] 
On voit donc sur cet exemple que, lorsque le taux de sondage diminue 
(`a taille n d’´echantillon fix´ee), la pr´ecision (estim´ee) de l’estimateur ˆ 
de  diminue et, par cons´equent, l’I.C. s’´elargit quelque peu. 
Exemple 2.6 
145 m´enages de touristes s´ejournant en France dans une r´egion donn´ee 
ont d´epens´e, en moyenne journali`ere, 35.5 Euros ; l’´ecart-type de ces 
145 d´epenses journali`eres s’´el`eve `a 8.4 Euros. Sachant que dans la 
r´egion o`u a ´et´e effectu´ee l’enquˆete il est venu 50 000 m´enages de tou-ristes, 
que peut-on dire de la d´epense globale journali`ere de l’ensemble 
de ces m´enages (on suppose que l’´echantillon est du type PESR) ? 
55
Solution 
Param`etre `a estimer :  = d´epense journali`ere globale des 50 000 
m´enages de touristes. 
ˆ = Ny = (50 000)(35.5) = 1 775 000 Euros 
Le tirage ´etant PESR, on a 
cVar(ˆ ) = N2(1 − f) 
s2 
corr 
n 
f = 
145 
50 000 
= 0.0029 = 0.29% 
s2 
corr = 
145 
144 
(8.4)2 = 71.05 
= (50 000)2(1 − 0.0029) 
71.05 
145 
= 1 221 447 500 
L’I.C. pour  au niveau de confiance de 95% est d`es lors ´egal `a 
 
ˆ ± z0.975 
q 
cVar(ˆ ) 
 
= [1 775 000 ± (1.96)(34 949.21)] 
= [1 775 000 ± 68 500.46] 
= [1 706 499.54 ; 1 843 500.46] 
Il y a donc 95 chances sur 100 que la d´epense journali`ere globale des 
50 000 m´enages de touristes soit comprise entre (approximativement) 
1 706 500 Euros et 1 843 500 Euros. 
56
2.10.3 Incertitude absolue et relative 
• Si l’I.C. pour  est de la forme [ˆ − d, ˆ + d], d est 
appel´e incertitude absolue (= demi-longueur de l’I.C.) 
De mani`ere g´en´erale, 
d = z1−/2 
q 
cVar(ˆ) 
• L’incertitude relative est d´efinie par d/ˆ (en %) 
• (i) Incertitude absolue pour μ / PESR 
z1−/2 
r 
(1 − f) 
s2 
corr 
n 
(ii) Incertitude absolue pour  / PESR 
z1−/2 
r 
N2(1 − f) 
s2 
corr 
n 
(iii) Incertitude absolue pour  / PESR 
z1−/2 
r 
(1 − f) 
ˆ(1 − ˆ) 
n − 1 
• Tout comme l’I.C., l’incertitude absolue d est al´eatoire : 
sa valeur varie d’un ´echantillon `a l’autre. 
57
• d d´epend de  et de cVar(ˆ) (et donc aussi, de fa¸con 
indirecte, de Var(ˆ) et de n) : 
1) 1 −  % =) z1−/2 % =) d % 
2) n % =) d  
• Pour une proportion , l’incertitude absolue d d´epend 
de  (ou ˆ). Pour un niveau de confiance de 95% : 
r 
d = 1.96 
(1 − f) 
ˆ(1 − ˆ) 
n − 1 
= 
r 
2 
(1 − f) 
ˆ(1 − ˆ) 
n 
r 
 2 
ˆ(1 − ˆ) 
n 
r 
 2 
1 
4n 
= 
1 
p 
n 
p 
n 
Valeur de 1/ 
(incertitude absolue maximale pour 1 −  = 95%) 
p 
n 
n 1/ 
100 10% 
400 5% 
1 000 3% 
1 600 2.5% 
10 000 1% 
58
• Incertitude relative d/ˆ (en %) pour l’estimateur ˆ 
d’une proportion 
(1 −  = 0.95 ; f = 
0 ; d = 
q 
2 
ˆ(1−ˆ) 
n ) 
ˆ ! .10 .20 .30 .40 .50 
n # 
100 60 40 31 24 20 
200 42 28 21 18 14 
300 34 23 17 14 12 
500 26 19 15 12 10 
1 000 18 13 9 8 6 
2 000 14 9 7 6 4 
5 000 8 6 4 4 3 
10 000 6 4 3 3 2 
59
2.10.4 D´etermination de la taille d’un ´echantillon 
Probl`eme : Comment doit-on choisir la taille n de l’´echantillon 
pour que l’incertitude absolue d ne d´epasse pas une cer-taine 
valeur d0 fix´ee a priori ? 
N.B.) Le niveau de confiance (1 − ) est fix´e. 
Solution : De mani`ere g´en´erale, il faut trouver les valeurs 
de n qui permettent de satisfaire l’in´egalit´e 
d = z1−/2 
q 
cVar(ˆ)  d0 . 
(i) Estimation de μ : 
• PESR : 
z1−/2 
q 
(1 − f)s2 
corr 
n  d0 
) z1−/2 
q 
N)s2 
(1 − n 
corr 
n  d0 
) n  
Nz2 
1−/2 s2 
corr 
Nd20+ z2 
1−/2 s2 
corr 
= nPESR 
• PEAR : 
z1−/2 
q 
s2 
corr 
n  d0 
) n  
z2 
1−/2s2 
corr 
d20 
= nPEAR 
60
MAIS 
s2 
corr est la variance-´echantillon corrig´ee et d´epend donc 
elle aussi de la taille n de l’´echantillon ! 
=) on remplace s2 
corr par la variance-´echantillon corrig´ee 
observ´ee dans un ´echantillon pr´elev´e lors d’une ´etude pr´eliminaire 
ou d’une ´etude ant´erieure du mˆeme type 
Remarque : 
nPESR et nPEAR sont les tailles minimales d’´echantillon `a 
prendre pour un sondage al´eatoire PESR et pour un son-dage 
al´eatoire PEAR respectivement. On v´erifie que 
nPESR = 
nPEAR 
1 + nPEAR−1 
N 
+ 
• si nPEAR  1, alors nPESR  nPEAR : 
pour une mˆeme incertitude absolue d0 fix´ee a priori, 
la proc´edure PESR ”coˆute moins cher” en termes de 
nombre d’individus `a pr´elever que la proc´edure PEAR 
• si N est grand, alors nPESR 
= 
nPEAR : 
l’avantage de la proc´edure PESR par rapport `a la proc´edure 
PEAR n’est pas tr`es marqu´e si la population sond´ee est 
de grande taille 
61
(ii) Estimation de  : 
• PESR : 
d = z1−/2 
q 
(1 − f) ˆ(1−ˆ) 
n−1 
= 
z1−/2 
q 
(1 − f) ˆ(1−ˆ) 
n  d0 
=) n  
Nz2 
1−/2ˆ(1−ˆ) 
Nd20 
+ z2 
1−/2ˆ(1−ˆ) 
• PEAR : 
d = z1−/2 
q 
ˆ(1−ˆ) 
n−1 
= 
z1−/2 
q 
ˆ(1−ˆ) 
n  d0 
=) n  
z2 
1−/2ˆ(1−ˆ) 
d20 
avec ˆ remplac´e par la proportion-´echantillon observ´ee 
dans un ´echantillon pr´elev´e lors d’une ´etude pr´eliminaire 
ou d’une ´etude ant´erieure du mˆeme type. 
Remarque : Dans le cas PEAR, puisque ˆ(1 − ˆ)  1/4 
quelle que soit la valeur de ˆ, on peut aussi prendre comme 
taille minimale d’´echantillon, 
z2 
1−/2 
4d20 
= 
 
z1−/2 
2d0 
2 
; 
cette alternative est int´eressante dans le cas o`u l’on ne 
dispose pas d’estimation pr´eliminaire de . 
62
2.10.5 Exemples 
a) Cas d’une moyenne 
• Population U constitu´ee de N = 1000 employ´es 
• Variable d’int´erˆet : Y = salaire mensuel net 
• Param`etre-population : μ = salaire mensuel net moyen 
dans la population U 
• Plan de sondage : n = 50 (f = 50/1000 = 0.05) - 
sondage al´eatoire PESR 
• Dans l’´echantillon s pr´elev´e : 
y = 1100 Euros 
s2 
corr = 62500 
) cVar(y) = (1 − f)s2 
corr 
n = (1 − 0.05)62500 
50 = 1187.5 
) I.C. pour μ au niveau de confiance de 95% : 
[1100±(1.96) 
p 
1187.5] = [1100±67.54] = [1032.46; 1167.54] 
) Incertitude absolue : d = 67.54 
) Incertitude relative : d/y = 67.54/1100 = 6.14% 
63
• Quelle taille d’´echantillon faut-il choisir pour pouvoir 
obtenir une incertitude absolue inf´erieure ou ´egale `a 
d0 = 25 Euros ? 
Si l’on prend s2 
corr = 62500 comme estimation pr´eliminaire 
de la variance-population (corrig´ee), il faut prendre la 
taille n de l’´echantillon sup´erieure ou ´egale `a 
1000 (1.96)2 62500 
1000 (25)2 + (1.96)2 62500 
= 277.54 
) il faut pr´elever au minimum 278 individus 
b) Cas d’une proportion 
• Population U constitu´ee de N = 10000000 personnes 
• Variable d’int´erˆet : Y = soutien `a un programme 
yi = 
 
1 si l’individu i soutient le programme 
0 sinon 
• Param`etre-population :  = proportion de personnes 
dans la population U qui soutiennent le programme 
• Plan de sondage : n = 1000 (f = 1000/10000000) - 
sondage al´eatoire PESR 
64
• Dans l’´echantillon s pr´elev´e : 
ˆ = 0.20 
) cVar(ˆ) = 9999000 
10000000 · (0.20)(0.80) 
999 = 0.00016 
) I.C. pour  au niveau de confiance de 95% : 
[0.20±(1.96) 
p 
0.00016] = [0.20±0.025] = [0.175; 0.225] 
) Incertitude absolue : d = 0.025 
) Incertitude relative : d/ˆ = 0.025/0.20 = 12.5% 
• Quelle taille d’´echantillon faut-il choisir pour pouvoir 
obtenir une incertitude absolue ne d´epassant pas d0 = 
0.01 ? 
Si l’on prend ˆ = 0.20 comme estimation pr´eliminaire 
de la proportion-population , il faut prendre la taille 
n de l’´echantillon sup´erieure ou ´egale `a 
10000000(1.96)2(0.20)(1 − 0.20) 
10000000(0.01)2 + (1.96)2(0.20)(1 − 0.20) 
= 6142.78 
) il faut prendre au minimum 6143 individus 
N.B.) On v´erifie ici que, puisque N est grand, 
nPESR 
= 
nPEAR = 
(1.96)2(0.20)(1 − 0.20) 
(0.01)2 = 6146.56 
65
c) Cas d’une proportion 
Un Tour Op´erator d´esire tester l’id´ee d’un nouveau mode de distribu-tion 
de voyages organis´es aupr`es de son r´eseau d’agences de voyages, 
qui comprend 3 000 agences. 
S’il veut estimer le nombre d’agences favorables `a son projet, quelle 
taille d’´echantillon doit-il interroger ? Faites une ´etude pour diff´erents 
niveaux de pr´ecision, en consid´erant un niveau de confiance de 95%. 
Solution 
N = 3 000 
 = proportion d’agences favorables au projet 
Supposons que l’´echantillon soit pr´elev´e selon un tirage PESR. Pour 
que l’I.C. au niveau de confiance de 95% donne lieu `a une incertitude 
absolue  d0, il faut prendre une taille n d’´echantillon telle que 
n  nPESR = 
N(1.96)2ˆ(1 − ˆ) 
Nd20 
+ (1.96)2ˆ(1 − ˆ) 
· 
Mais nous ne disposons d’aucune estimation pr´ealable ˆ de , ce qui 
rend impossible le calcul de nPESR par l’expression ci-dessus. 
Nous pouvons alors raisonner comme suit. Si nous d´esignons par nPESR 
et nPEAR les tailles minimales d’´echantillon `a consid´erer pour que l’in-certitude 
absolue soit  d0, dans le cas d’un tirage PESR et dans celui 
d’un tirage PEAR respectivement, nous pouvons ´ecrire : 
nPESR = 
nPEAR 
1 + nPEAR−1 
N 
(1) 
66
et 
nPEAR = 
(1.96)2ˆ(1 − ˆ) 
d20 
 n0 = 
 
1.96 
2d0 
2 
· 
En prenant pour nPEAR sa valeur maximale n0, l’´egalit´e (1) nous per-met 
d’avoir une id´ee de la taille nPESR requise. Ainsi, 
pour d0 = 0.10 : n0 = 96.04  96 ) nPESR  93 
pour d0 = 0.05 : n0 = 384.16  384 ) nPESR  341 
pour d0 = 0.03 : n0 = 1 067.11  1 067 ) nPESR  787 
pour d0 = 0.02 : n0 = 2 401 ) nPESR  1 334 
pour d0 = 0.01 : n0 = 9 604 ) nPESR  2 286 
Ces r´esultats montrent bien l’avantage du sondage PESR sur le son-dage 
PEAR (pour lequel on garde les n observations r´ealis´ees). Pour 
une mˆeme incertitude absolue, le PESR coˆute moins cher en nombre 
d’observations que le PEAR. Cet avantage du PESR sur le PEAR se 
marque d’autant plus que le taux de sondage est ´elev´e. 
N.B.) Dans le cas du PEAR, il arrive mˆeme que l’on doive effectuer un 
nombre de tirages sup´erieur `a la taille de la population pour pouvoir 
satisfaire l’exigence de pr´ecision que l’on s’est fix´ee (cf. d0 = 0.01 par 
exemple). 
67
2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS 
REMISE 
Une des ´etapes cruciales de la mise en oeuvre d’un plan de 
sondage est la s´election des unit´es de sondage. 
La proc´edure de s´election doit pouvoir se formuler sous la 
forme d’un algorithme simple, efficace, rapide et consom-mant 
peu d’espace m´emoire. 
Id´ealement, l’algorithme de s´election doit pouvoir s’appli-quer 
en une seule lecture de la base de sondage. 
Il est aussi pratique de pouvoir appliquer l’algorithme de 
s´election alors que la taille N de la population n’est pas 
connue d’avance (par exemple, lorsqu’on s´electionne des 
clients venant se pr´esenter `a un guichet au fur et `a mesure 
de leur passage). 
68
2.11.1 M´ethode du tri al´eatoire 
a) Proc´edure : 
• On g´en`ere N nombres (pseudo-)al´eatoires u1, u2, . . . , uN 
suivant une loi U(0, 1) (loi continue uniforme sur l’in-tervalle 
(0,1)) et, pour i = 1, . . . ,N, on affecte `a 
l’individu i le nombre ui 
• On trie ensuite la base de sondage par ordre crois-sant 
(ou d´ecroissant) des nombres al´eatoires : cette 
proc´edure conduit `a effectuer un tri al´eatoire de la 
base de sondage 
• On choisit enfin les n premiers (ou les n derniers) in-dividus 
de la base de sondage ainsi ordonn´ee 
b) On montre que cette m´ethode fournit bien un plan de 
sondage de type PESR donnant lieu `a des ´echantillons de 
taille n fix´ee a priori 
c) Avantage de cette m´ethode : 
– proc´edure de s´election tr`es ais´ee `a mettre en oeuvre 
D´efauts de cette m´ethode : 
– la taille N de la population doit ˆetre connue au pr´ealable 
– on doit trier toute la base de sondage : cette op´eration 
peut s’av´erer tr`es longue quand le fichier est grand 
69
2.11.2 D’autres m´ethodes fournissant un plan de sondage de 
type PESR avec ´echantillons de taille n fix´ee a priori 
M´ethodes moins ch`eres en temps de calcul et espace-m´emoire 
• Sondage syst´ematique (cf. Section 5.2), pour autant que 
la base de sondage soit tri´ee al´eatoirement ou selon un 
ordre n’ayant aucun lien avec la variable d’int´erˆet Y 
(ex. : Y = sexe ou choix d’´etudes - base de sondage tri´ee 
par ordre alphab´etique) 
N.B.) La taille N de la population doit normalement ˆetre 
connue au pr´ealable, mais il y a moyen d’adapter la m´ethode 
pour pouvoir l’utiliser quand N est inconnu 
• M´ethode de s´election-rejet, m´ethode de mise `a jour de 
l’´echantillon, m´ethode des sauts al´eatoires, . . . 
Certaines de ces m´ethodes ne n´ecessitent pas de connaˆıtre 
la taille N de la population au pr´ealable 
70
2.11.3 Tirage de Bernoulli 
Technique de tirage al´eatoire des individus donnant lieu 
• `a la mˆeme probabilit´e d’inclusion pour tous les indivi-dus 
de la population 
• `a un ´echantillon de taille al´eatoire 
a) Proc´edure : 
• On se fixe une quantit´e p 2 (0, 1) 
• Pour i = 1, . . . ,N : 
– On g´en`ere un nombre (pseudo-)al´eatoire ui suivant 
une loi U(0, 1) (loi continue uniforme sur l’intervalle 
(0,1)) 
– Si ui  p, alors l’individu i est s´electionn´e 
Si ui  p, alors l’individu i n’est pas s´electionn´e 
N.B.) La proc´edure de s´election est ind´ependante d’un in-dividu 
`a l’autre 
b) Probabilit´es d’inclusion : 
pi = P(i 2 S) = P(ui  p) 
= probabilit´e qu’une v.a. de loi U(0, 1) 
prenne une valeur inf´erieure ou ´egale `a p 
= p 
) tous les individus de la population ont la mˆeme proba-bilit 
´e d’inclusion 
71
c) Avantages de cette m´ethode : 
– la base de sondage est lue s´equentiellement ; la taille N 
de la population ne doit pas ˆetre connue au pr´ealable 
– technique tr`es facile `a programmer 
D´efaut de cette m´ethode : 
– fournit un ´echantillon de taille al´eatoire (il y a mˆeme 
une probabilit´e non nulle de ne s´electionner aucun in-dividu) 
d) Taille nS de l’´echantillon : 
nS = taille de l’´echantillon qui sera pr´elev´e 
= nombre d’individus qui seront s´electionn´es 
 Bin(N, p) 
=) E(nS) = Np et Var(nS) = Np(1 − p) 
=) p = taux de sondage moyen 
e) Estimation de  : 
• ˆB = 1 
p 
P 
i2S yi 
N.B.) Dans le cas PESR `a taille n fix´ee a priori : 
ˆPESR = N ˆμPESR = 
N 
n 
X 
i2S 
yi 
= 
1 
f 
X 
i2S 
yi = 
X 
i2S 
yi 
pi 
72
• 
E(ˆB) = E 
  
1 
p 
X 
i2S 
yi 
! 
= E 
  
1 
p 
X 
i2U 
yiIi 
! 
= 
1 
p 
X 
i2U 
yiE(Ii) = 
1 
p 
X 
i2U 
yip 
= 
X 
i2U 
yi =  
=) ˆB est un estimateur sans biais de  
• On montre que (pr´ecision de ˆB) 
Var(ˆB) = 
 
1 
p − 1 
P 
y2 
i2U i 
cVar(ˆB) = 1 
p 
 
1 
p − 1 
P 
y2 
i2S i 
f) Estimation de μ : 
• μ =  
N ) ˆμB = ˆB 
N = 1 
Np 
P 
i2S yi (6= y) 
N.B.) Np= 6nS ; Np = E(nS) 
• E(μB) ˆ= μ 
) μB ˆest un estimateur sans biais de μ 
 
• Var(μB) ˆ= Var 
ˆB 
N 
 
= 1 
N2Var(ˆB) 
cVar(ˆμB) = 1 
N2 
cVar(ˆB) 
73

Contenu connexe

Tendances

Enquêtes Evaluatives
Enquêtes EvaluativesEnquêtes Evaluatives
Enquêtes EvaluativesMeriam
 
Epidemiologie frequence
Epidemiologie frequenceEpidemiologie frequence
Epidemiologie frequenceFoued Delleli
 
Collecte et Traitement de données avec Sphinx
Collecte et Traitement de données avec SphinxCollecte et Traitement de données avec Sphinx
Collecte et Traitement de données avec SphinxIbrahima Sylla
 
Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologieTelelaz Galaa
 
Préparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologiquePréparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologiqueAli Ali
 
Recherche qualitative 2020
Recherche qualitative 2020Recherche qualitative 2020
Recherche qualitative 2020Pascal Boulet
 
Stat4 Principes Des Tests Statistiques
Stat4  Principes Des Tests StatistiquesStat4  Principes Des Tests Statistiques
Stat4 Principes Des Tests StatistiquesJean-Louis ESTRADE
 
MÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUE
MÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUEMÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUE
MÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUEBERNARD Paquito
 
Démarche de la recherche scientifique
Démarche de la recherche scientifiqueDémarche de la recherche scientifique
Démarche de la recherche scientifiqueMATENE ELHACENE
 
Centre Régional de Pharmacovigilance : organisation et missions
Centre Régional de Pharmacovigilance : organisation et missionsCentre Régional de Pharmacovigilance : organisation et missions
Centre Régional de Pharmacovigilance : organisation et missionsCytokinine
 
ネットワークメタ分析入門
ネットワークメタ分析入門ネットワークメタ分析入門
ネットワークメタ分析入門Senshu University
 
傾向スコアマッチと多重補完法の解説 その2
傾向スコアマッチと多重補完法の解説 その2傾向スコアマッチと多重補完法の解説 その2
傾向スコアマッチと多重補完法の解説 その2Atsushi Shiraishi
 
初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」Yasuyuki Okumura
 
Chapitre4 Les sondages à probabilité inégales
Chapitre4 Les sondages à probabilité inégalesChapitre4 Les sondages à probabilité inégales
Chapitre4 Les sondages à probabilité inégalesMahamadou Haro
 
Construction du modèle de Hull White avec l'arbre binomial
Construction du modèle de Hull White avec l'arbre binomialConstruction du modèle de Hull White avec l'arbre binomial
Construction du modèle de Hull White avec l'arbre binomialAli SIDIBE
 

Tendances (20)

Le diagnostic biologique du paludisme
Le diagnostic biologique du paludismeLe diagnostic biologique du paludisme
Le diagnostic biologique du paludisme
 
Etudedemarch
EtudedemarchEtudedemarch
Etudedemarch
 
Enquêtes Evaluatives
Enquêtes EvaluativesEnquêtes Evaluatives
Enquêtes Evaluatives
 
Epidemiologie frequence
Epidemiologie frequenceEpidemiologie frequence
Epidemiologie frequence
 
Collecte et Traitement de données avec Sphinx
Collecte et Traitement de données avec SphinxCollecte et Traitement de données avec Sphinx
Collecte et Traitement de données avec Sphinx
 
Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologie
 
Préparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologiquePréparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologique
 
Echantillonnage
EchantillonnageEchantillonnage
Echantillonnage
 
Recherche qualitative 2020
Recherche qualitative 2020Recherche qualitative 2020
Recherche qualitative 2020
 
En quête du raisonnement bayésien ou comment évaluer les traces et indices ?
En quête du raisonnement bayésien ou comment évaluer les traces et indices ? En quête du raisonnement bayésien ou comment évaluer les traces et indices ?
En quête du raisonnement bayésien ou comment évaluer les traces et indices ?
 
Stat4 Principes Des Tests Statistiques
Stat4  Principes Des Tests StatistiquesStat4  Principes Des Tests Statistiques
Stat4 Principes Des Tests Statistiques
 
MÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUE
MÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUEMÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUE
MÉTHODE ET CONSEILS POUR RÉALISER UNE REVUE SYSTÉMATIQUE
 
Démarche de la recherche scientifique
Démarche de la recherche scientifiqueDémarche de la recherche scientifique
Démarche de la recherche scientifique
 
Centre Régional de Pharmacovigilance : organisation et missions
Centre Régional de Pharmacovigilance : organisation et missionsCentre Régional de Pharmacovigilance : organisation et missions
Centre Régional de Pharmacovigilance : organisation et missions
 
ネットワークメタ分析入門
ネットワークメタ分析入門ネットワークメタ分析入門
ネットワークメタ分析入門
 
傾向スコアマッチと多重補完法の解説 その2
傾向スコアマッチと多重補完法の解説 その2傾向スコアマッチと多重補完法の解説 その2
傾向スコアマッチと多重補完法の解説 その2
 
初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」
 
Chapitre4 Les sondages à probabilité inégales
Chapitre4 Les sondages à probabilité inégalesChapitre4 Les sondages à probabilité inégales
Chapitre4 Les sondages à probabilité inégales
 
Construction du modèle de Hull White avec l'arbre binomial
Construction du modèle de Hull White avec l'arbre binomialConstruction du modèle de Hull White avec l'arbre binomial
Construction du modèle de Hull White avec l'arbre binomial
 
Mesures d'association épidémiologique_15 01 2017
Mesures d'association épidémiologique_15 01 2017Mesures d'association épidémiologique_15 01 2017
Mesures d'association épidémiologique_15 01 2017
 

En vedette

Chapitre2: Sondage aléatoire simple
Chapitre2: Sondage aléatoire simpleChapitre2: Sondage aléatoire simple
Chapitre2: Sondage aléatoire simpleMahamadou Haro
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibGael Varoquaux
 
Je configure mes serveurs avec fabric et fabtools
Je configure mes serveurs avec fabric et fabtoolsJe configure mes serveurs avec fabric et fabtools
Je configure mes serveurs avec fabric et fabtoolsRonan Amicel
 
Scikit learn: apprentissage statistique en Python
Scikit learn: apprentissage statistique en PythonScikit learn: apprentissage statistique en Python
Scikit learn: apprentissage statistique en PythonGael Varoquaux
 
Scikit-learn: the state of the union 2016
Scikit-learn: the state of the union 2016Scikit-learn: the state of the union 2016
Scikit-learn: the state of the union 2016Gael Varoquaux
 
SeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQLSeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQLParis, France
 
Presentation r markdown
Presentation r markdown Presentation r markdown
Presentation r markdown Cdiscount
 
Algorithmique_et_programmation_part2
Algorithmique_et_programmation_part2Algorithmique_et_programmation_part2
Algorithmique_et_programmation_part2Emeric Tapachès
 
Python et les bases de données non sql
Python et les bases de données non sqlPython et les bases de données non sql
Python et les bases de données non sqlbchesneau
 
pandas: a Foundational Python Library for Data Analysis and Statistics
pandas: a Foundational Python Library for Data Analysis and Statisticspandas: a Foundational Python Library for Data Analysis and Statistics
pandas: a Foundational Python Library for Data Analysis and StatisticsWes McKinney
 
pandas: Powerful data analysis tools for Python
pandas: Powerful data analysis tools for Pythonpandas: Powerful data analysis tools for Python
pandas: Powerful data analysis tools for PythonWes McKinney
 
Simple big data, in Python
Simple big data, in PythonSimple big data, in Python
Simple big data, in PythonGael Varoquaux
 
Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...
Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...
Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...Gael Varoquaux
 
Chap XIII : calcul scientifique avec python
Chap XIII : calcul scientifique avec pythonChap XIII : calcul scientifique avec python
Chap XIII : calcul scientifique avec pythonMohammed TAMALI
 
Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?
Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?
Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?Fing
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitresAbdeslam ELMOUDEN
 
Django toolbox
Django toolboxDjango toolbox
Django toolboxxordoquy
 

En vedette (20)

Chapitre2: Sondage aléatoire simple
Chapitre2: Sondage aléatoire simpleChapitre2: Sondage aléatoire simple
Chapitre2: Sondage aléatoire simple
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblib
 
Je configure mes serveurs avec fabric et fabtools
Je configure mes serveurs avec fabric et fabtoolsJe configure mes serveurs avec fabric et fabtools
Je configure mes serveurs avec fabric et fabtools
 
Python et NoSQL
Python et NoSQLPython et NoSQL
Python et NoSQL
 
Scikit learn: apprentissage statistique en Python
Scikit learn: apprentissage statistique en PythonScikit learn: apprentissage statistique en Python
Scikit learn: apprentissage statistique en Python
 
Scikit-learn: the state of the union 2016
Scikit-learn: the state of the union 2016Scikit-learn: the state of the union 2016
Scikit-learn: the state of the union 2016
 
Python packaging
Python packagingPython packaging
Python packaging
 
SeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQLSeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQL
 
Presentation r markdown
Presentation r markdown Presentation r markdown
Presentation r markdown
 
Algorithmique_et_programmation_part2
Algorithmique_et_programmation_part2Algorithmique_et_programmation_part2
Algorithmique_et_programmation_part2
 
R versur Python
R versur PythonR versur Python
R versur Python
 
Python et les bases de données non sql
Python et les bases de données non sqlPython et les bases de données non sql
Python et les bases de données non sql
 
pandas: a Foundational Python Library for Data Analysis and Statistics
pandas: a Foundational Python Library for Data Analysis and Statisticspandas: a Foundational Python Library for Data Analysis and Statistics
pandas: a Foundational Python Library for Data Analysis and Statistics
 
pandas: Powerful data analysis tools for Python
pandas: Powerful data analysis tools for Pythonpandas: Powerful data analysis tools for Python
pandas: Powerful data analysis tools for Python
 
Simple big data, in Python
Simple big data, in PythonSimple big data, in Python
Simple big data, in Python
 
Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...
Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...
Scikit-learn: apprentissage statistique en Python. Créer des machines intelli...
 
Chap XIII : calcul scientifique avec python
Chap XIII : calcul scientifique avec pythonChap XIII : calcul scientifique avec python
Chap XIII : calcul scientifique avec python
 
Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?
Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?
Aux frontières du "Do It Yourself" : des Fab Labs à la nouvelle industrie ?
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitres
 
Django toolbox
Django toolboxDjango toolbox
Django toolbox
 

Sondage aléatoire simple ou a probabilité égal

  • 1. Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES PLAN DU CHAPITRE 2 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.1 Plan de sondage 2.2.2 Probabilit´es d’inclusion 2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR) 2.3.1 Plan de sondage 2.3.2 Probabilit´es d’inclusion 2.4 VARIABLES INDICATRICES 2.5 ESTIMATEUR 2.6 ESTIMATION D’UNE MOYENNE 2.6.1 Sondage al´eatoire PESR 2.6.2 Sondage al´eatoire PEAR 2.7 ESTIMATION D’UN TOTAL 2.7.1 Estimateur de 2.7.2 Esp´erance de ˆ 2.7.3 Pr´ecision de ˆ 1
  • 2. 2.8 ESTIMATION D’UNE PROPORTION 2.8.1 Estimateur de 2.8.2 Esp´erance de ˆ 2.8.3 Pr´ecision de ˆ 2.9 EFFET DE (PLAN DE) SONDAGE 2.9.1 D´efinition 2.9.2 Exemple 2.10 INTERVALLES DE CONFIANCE 2.10.1 Distribution d’´echantillonnage de ˆμ 2.10.2 Intervalles de confiance 2.10.3 Incertitude absolue et relative 2.10.4 D´etermination de la taille d’un ´echantillon 2.10.5 Exemples 2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS REMISE 2.11.1 M´ethode du tri al´eatoire 2.11.2 D’autres m´ethodes fournissant un plan de son-dage de type PESR avec ´echantillons de taille n fix´ee a priori 2.11.3 Tirage de Bernoulli 2
  • 3. 2.1 DEFINITIONS • Le nombre n de tirages `a effectuer dans la population est fix´e a priori • 2 proc´edures possibles de tirage al´eatoire : a) n tirages au hasard avec remise : n tirages au hasard successifs et en repla¸cant l’unit´e selectionn´ee dans la population avant le tirage suivant b) n tirages au hasard sans remise : n tirages au hasard successifs et sans replacer l’unit´e s´electionn´ee dans la population avant le tirage suivant + = {s1, s2, . . . , sM} : ensemble des ´echantillons que l’on peut obtenir par la proc´edure de tirage al´eatoire choisie Caract´eristiques du plan de sondage : • Tous les individus de U ont la mˆeme probabilit´e de faire partie de l’´echantillon S qui sera s´electionn´e : ils ont tous la mˆeme probabilit´e d’inclusion • Tous les ´echantillons appartenant `a se voient as-socier une (mˆeme) probabilit´e connue non nulle de s´election 3
  • 4. D´enominations : • sondage PEAR : sondage al´eatoire simple ou `a proba-bilit ´es ´egales, avec remise • sondage PESR : sondage al´eatoire simple ou `a proba-bilit ´es ´egales, sans remise 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.1 Plan de sondage • Les ´echantillons sont de la forme s = {i1, i2, . . . , in}, avec i16= i26= . . .6= in 2 U et ns = n • Nombre M d’´echantillons possibles : M = N n = N! n!(N − n)! • Pour tout s 2 : p(s) = 1 N n 4
  • 5. • Exemple 2.1 : Population : U = {1, 2, 3, 4} =) N = 4 Taille de l’´echantillon `a pr´elever : n = 2 Taux de sondage : f = n/N = 50% Ensemble des ´echantillons pouvant ˆetre obtenus par tirage al´eatoire PESR : = {{1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4}} =) M = 6 On v´erifie que N n = 4 2 = 4! 2!(4 − 2)! = 4! 2!2! = 4 · 3 · 2 2 · 2 = 6 = M Probabilit´e de s´election d’un ´echantillon s particulier : p ({2, 4}) = P ((le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4) ou (le 1er s´electionn´e est 4 et le 2`eme s´electionn´e est 2)) = P(le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4) +P(le 1er s´electionn´e est 4 et le 2`eme s´electionn´e est 2) = P(le 1er s´electionn´e est 2) ·P(le 2`eme s´electionn´e est 4| le 1er s´electionn´e est 2) +P(le 1er s´electionn´e est 4) ·P(le 2`eme s´electionn´e est 2| le 1er s´electionn´e est 4) 4 · 1 3 + 1 4 · 1 3 = 2 12 = 1 6 = 1 =) tous les ´echantillons s de ont la mˆeme probabilit´e de s´election : p(s) = 1/6 pour tout s 2 5
  • 6. 2.2.2 Probabilit´es d’inclusion • La probabilit´e d’inclusion pi de l’individu i est la probabi-lit ´e que cet individu i fasse partie de l’´echantillon (al´eatoire) S qui sera pr´elev´e ; en d’autres termes, pi est la probabilit´e de pr´elever un ´echantillon qui contienne l’individu i : pi = P(i 2 S) = X s2 |i2s p(s) • Dans le cas du sondage PESR, pour tout i 2 U : pi = X s2 |i2s 1 N n = nombre d’´echantillons possibles contenant i N n = N − 1 n − 1 N n = n N = taux de sondage 6
  • 7. • Exemple 2.1 (suite) : Probabilit´e d’inclusion de l’individu 2 : 3 ´echantillons sur les 6 ´echantillons possibles contiennent l’individu 2 =) p2 = 3 6 = 1 2 = n N On v´erifie que tous les individus de U ont bien la mˆeme probabilit´e d’inclusion : pi = 1 2 pour tout i 2 U 7
  • 8. 2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR) 2.3.1 Plan de sondage • Les ´echantillons possibles sont de la forme s = {i1, i2, . . . , in} avec i1, i2, . . . , in 2 U. Un mˆeme individu peut ˆetre s´electionn´e `a plusieurs reprises (ns n). • Nombre M d’´echantillons possibles : M = . . . (expression tr`es complexe) M = nombre d’´echantillons dont les n individus sont dis-tincts + nombre d’´echantillons dans lesquels un individu est s´electionn´e 2 fois et les (n − 2) autres individus sont distincts + nombre d’´echantillons dans lesquels 2 indivi-dus sont chacun s´electionn´es 2 fois et les (n − 4) autres individus sont distincts + . . . 8
  • 9. • Exemple 2.2 : Population : U = {1, 2, 3, 4} =) N = 4 Nombre de tirages `a effectuer : n = 2 Ensemble des ´echantillons pouvant ˆetre obtenus par tirage al´eatoire PEAR : = {{1, 1}, {1, 2}, {1, 3}, {1, 4}, {2, 2}, {2, 3}, {2, 4}, {3, 3}, {3, 4}, {4, 4}} =) M = 10 Probabilit´e de s´election d’un ´echantillon s particulier : mˆeme raisonnement que dans l’exemple 2.1 p ({2, 4}) = 1 4 · 1 4 + 1 4 · 1 4 = 2 16 = 1 8 p ({1, 1}) = 1 4 · 1 4 = 1 16 =) on v´erifie que p ({1, 1}) = p ({2, 2}) = p ({3, 3}) = p ({4, 4}) = 1 16 p ({1, 2}) = p ({1, 3}) = . . . = p ({3, 4}) = 2 16 = 1 8 9
  • 10. • On peut associer `a tout ´echantillon s 2 une probabilit´e de s´election p(s) telle que p(s) 0 et X s2 p(s) = 1 MAIS, contrairement au sondage al´eatoire PESR, les ´echantillons de ne sont pas tous ´equiprobables. Remarque : Par contre, si on tient compte de l’ordre de tirage dans la d´efinition des ´echantillons, ces derniers re-deviennent ´equiprobables : – Les ´echantillons possibles sont de la forme so = (i1, i2, . . . , in) avec i1, i2, . . . , in 2 U et ik= individu s´electionn´e lors du k`eme tirage (k = 1, . . . , n) – Nombre Mo d’´echantillons possibles : Mo = Nn – Pour tout so 2 o : p(so) = 1 Nn 10
  • 11. Exemple 2.2 (suite) : o = {(1, 1), (1, 2), (1, 3), (1, 4) (2, 1), (2, 2), (2, 3), (2, 4) (3, 1), (3, 2), (3, 3), (3, 4) (4, 1), (4, 2), (4, 3), (4, 4)} =) Mo = 16 = 42 p ((2, 4)) = P (le 1er s´electionn´e est 2 et le 2`eme s´electionn´e est 4) = 1 4 · 1 4 = 1 16 On v´erifie que p(so) = 1/16 pour tout so 2 o 11
  • 12. 2.3.2 Probabilit´es d’inclusion Pour tout i 2 U : pi = P(i 2 S) = 1 − P(i 2 /S) = 1 − P(i n’est s´electionn´e `a aucun des n tirages) N − 1 = 1 − N n = 1 − 1 − 1 N n =) tous les individus de U ont bien la mˆeme probabilit´e d’inclusion Exemple 2.2 (suite) : Probabilit´e d’inclusion de l’individu 2 : p2 = 1 − 1 − 1 4 2 = 1 − 3 4 2 = 7 16 12
  • 13. Remarque : Si n N, alors pi = n/N =)les probabilit´es d’inclusion pour le sondage PEAR sont pratiquement identiques `a celles pour le sondage PESR Exemple : N = 1 000 n = 10 =) f = n N = 1% PESR : pi = f = 1% PEAR : pi = 1 − 1 − 1 1 000 10 = 0.00995 = 0.01 = 1% 13
  • 14. 2.4 VARIABLES INDICATRICES S = ´echantillon (al´eatoire) qui sera pr´elev´e par n tirages al´eatoires dans la population nS = nombre d’individus distincts dans S =) sondage al´eatoire PESR : nS = n PEAR : nS n (PEAR : un mˆeme individu peut ˆetre s´electionn´e `a plu-sieurs reprises =) nS est al´eatoire) Variables indicatrices d’inclusion : pour tout i 2 U, • Ii = 1 si i 2 S 0 sinon P(Ii = 1) = P(i 2 S) = pi • P(Ii = 0) = P(i 2 /S) = 1 − pi =) Ii Bin(1, pi) =) E(Ii) = pi Var(Ii) = pi(1 − pi) • P i2U Ii = nombre d’individus de U qui font partie de l’´ech. S = nS 14
  • 15. • P i2U pi = P i2U E(Ii) = E P i2U Ii = E(nS) Exemple : Pour le sondage PESR : X i2U pi = X i2U n N = N · n N = n 15
  • 16. 2.5 ESTIMATEUR Objectif Estimer un param`etre-population : = (y1, y2, . . . , yN) 2 (cf. Section 1.2.3 : = , μ, 2, , . . .) Estimateur ˆ de • Un estimateur ˆ de est une fonction des valeurs ob-serv ´ees pour Y dans l’´echantillon pr´elev´e, qui prend ses valeurs dans l’ensemble des valeurs possibles de : ˆ = h(yi; i 2 S) 2 • ˆ est une variable al´eatoire :on ne peut pas pr´edire `a l’avance quels individus feront partie de l’´echantillon particulier s qui sera effectivement pr´elev´e =) on ne peut pas pr´edire `a l’avance quelles valeurs de Y seront observ´ees dans l’´echantillon particulier s qui sera effectivement pr´elev´e =) on ne peut pas pr´edire `a l’avance quelle valeur prendra ˆ dans l’´echantillon particulier s qui sera ef-fectivement pr´elev´e 16
  • 17. • La valeur prise par ˆ dans l’´echantillon particulier s est not´ee ˆs : ˆs = h(yi; i 2 s); cette valeur ˆs fournit une estimation de . • Comme toute variable al´eatoire, l’estimateur ˆ poss`ede une certaine distribution de probabilit´e, appel´ee distri-bution d’´echantillonnage, ´etroitement li´ee au plan de sondage : n ˆs, p(s) ; s 2 o =) 8 : E(ˆ) = P s2 p(s)ˆs Var(ˆ) = P s2 p(s) ˆs − E(ˆ) 2 17
  • 18. Exemple 2.3 • Population : U = {1, 2, 3} • Variable d’int´erˆet : Y = ˆage avec y1 = 28, y2 = 32, y3 = 40 • Param`etres-population : μ = 28 + 32 + 40 3 = 33.33 2 = (28 − 33.33)2 + (32 − 33.33)2 + (40 − 33.33)2 3 = 24.89 = proportion d’individus dans la population ˆag´es de moins de 30 ans = 1/3 • Plan de sondage (PESR) : n = 2 = {s1 = {1, 2}, s2 = {1, 3}, s3 = {2, 3}} p(s1) = p(s2) = p(s3) = 1/3 18
  • 19. • Estimateurs : ˆμ = 1 n X i2S yi = y (moyenne-´echantillon) ˆ2 = 1 n X i2S (yi − y)2 = s2 (variance-´echantillon) ˆ = proportion d’individus dans l’´echantillon S ˆag´es de moins de 30 ans • Distributions d’´echantillonnage : s p(s) ˆμs ˆ2 s ˆs {1,2} 1/3 30 4 0.5 {1,3} 1/3 34 36 0.5 {2,3} 1/3 36 16 0 1 =) E(ˆμ) = 1 3 · 30 + 1 3 · 34 + 1 3 · 36 = 33.33 = μ Var(ˆμ) = 1 3 (30 − 33.33)2 + 1 3 (34 − 33.33)2 + 1 3 (36 − 33.33)2 = 6.45 E(ˆ2) = 1 3 · 4 + 1 3 · 36 + 1 3 · 16 = 18.676= 2 19
  • 20. E(ˆ) = 1 3 · (0.5) + 1 3 · (0.5) + 1 3 · 0 = 1 3 = Var(ˆ) = 1 3 1 2 − 1 3 2 + 1 3 1 2 − 1 3 2 + 1 3 0 − 1 3 2 = 0.05 Erreur d’´echantillonnage • En g´en´eral, la valeur prise par un estimateur dans un ´echantillon est diff´erente de la valeur du param`etre qu’il cherche `a estimer. Ex. : En g´en´eral, la moyenne-´echantillon est distincte de la moyenne-population. • La valeur ˆs prise par l’estimateur ˆ dans l’´echantillon s n’est qu’une estimation de la valeur exacte du pa-ram` etre-population . • L’erreur que l’on commet en rempla¸cant par ˆs n’est pas imputable `a une incomp´etence dans des mesures ou des calculs : elle r´esulte du fait qu’une partie de la population a ´et´e omise. Cette erreur est appel´ee erreur d’´echantillonnage. • On peut ´evaluer l’importance de l’erreur d’´echantillonnage associ´ee `a un estimateur en calculant le biais et la va-riance ou l’erreur quadratique moyenne de cet estima-teur. 20
  • 21. Deux propri´et´es sont g´en´eralement recherch´ees pour un estimateur : – ˆetre sans biais – avoir une bonne pr´ecision 21
  • 22. Biais d’un estimateur • Un estimateur ˆ du param`etre-population est sans biais (non biais´e) si et seulement si E(ˆ) = Ex. : ˆμ est un estimateur sans biais de μ ; ˆ est un estimateur sans biais de ; ˆ2 est un estimateur biais´e de 2 • Le biais de l’estimateur ˆ est B(ˆ) = E(ˆ) − 22
  • 23. Pr´ecision d’un estimateur • La pr´ecision d’un estimateur est mesur´ee par son er-reur quadratique moyenne EQM(ˆ) (mean squared er-ror MSE(ˆ)) : h i X EQM(ˆ) = E ( ˆ− )2 = s2 p(s)(ˆs − )2 = Var(ˆ) + B(ˆ) 2 • Si ˆ est un estimateur sans biais de , alors EQM(ˆ) = Var(ˆ) Distributions d’´echantillonnage de ˆ1 et ˆ2 : E(ˆ1) = E(ˆ2) = ; Var(ˆ1) Var(ˆ2) P − ˆ1 + P − ˆ2 + La probabilit´e de prendre une valeur fort proche de est plus grande pour ˆ1 que pour ˆ2. 23
  • 24. 2.6 ESTIMATION D’UNE MOYENNE 2.6.1 Sondage al´eatoire PESR Echantillon de taille n a) Estimateur de μ : ˆμPESR = 1 n X i2S yi = y (moyenne-´echantillon) b) ˆμPESR est sans biais : E(ˆμPESR) = μ D´em. : E(ˆμPESR) = E 1 n X i2S yi ! = E 1 n X i2U yiIi ! = 1 n X i2U yi E(Ii) = 1 n X i2U yi pi car E(Ii) = pi = 1 n X i2U yi n N car pi = n N (PESR) = 1 N X i2U yi = μ 24
  • 25. c) Pr´ecision de ˆμPESR : Var(ˆμPESR) = 1 n − 1 N 2 corr = (1 − f) 2 corr n o`u f = n N et 2 corr = 1 N − 1 X i2U (yi − μ)2 La variance et donc la pr´ecision de ˆμPESR d´ependent de trois ´el´ements : • la taille n de l’´echantillon : plus l’´echantillon est grand, plus l’estimation de μ est pr´ecise • le taux de sondage f : plus f est proche de 1, c’est- `a-dire plus la taille de l’´echantillon est proche de celle de la population, plus l’estimation de μ est pr´ecise. A la limite, pour f = 1 (´echantillon ´egal `a la population tout enti`ere), Var(ˆμPESR) = 0 : il n’y a plus d’erreur d’´echantillonnage • la variance 2 corr de la variable d’int´erˆet Y dans la po-pulation U : plus la population est homog`ene (2 corr pe-tite), plus le sondage y est efficace. Par contre, sonder une population tr`es h´et´erog`ene (2 corr grande) n´ecessite, pour s’assurer que Var(ˆμPESR) ne soit pas trop ´elev´ee, de pr´elever un ´echantillon de taille importante ou de r´ealiser un d´ecoupage pr´ealable en sous-populations homog`enes (cf. sondage stratifi´e) 25
  • 26. d) Estimation de Var(ˆμPESR) On peut montrer que la variance-´echantillon corrig´ee s2 corr = 1 n − 1 X i2S (yi − y)2 est un estimateur sans biais de 2 corr. D`es lors, cVar(ˆμPESR) = (1 − f) s2 corr n est un estimateur sans biais de Var(ˆμPESR). La valeur prise par cVar(ˆμPESR) dans l’´echantillon s parti-culier effectivement pr´elev´e nous fournit une estimation de la variance, et donc de la pr´ecision, de l’estimateur ˆμPESR de μ. 26
  • 27. e) Exemple 2.4 Une population U est compos´ee des cinq nombres 2, 3, 6, 8 et 11. On veut estimer la moyenne-population μ `a partir d’un ´echantillon d’effectif 2 pr´elev´e dans U selon une proc´edure PESR. ! Estimateur de μ : y. Propri´et´es de y ? Param`etres de la population : μ = 2 + 3 + 6 + 8 + 11 5 = 6 2 = (2 − 6)2 + . . . + (11 − 6)2 5 = 10.8 2 corr = 5 4 (10.8) = 13.5 Taux de sondage : f = n N = 2 5 = 0.4 = 40% Nombre d’´echantillons possibles : N n = 5 2 = 5! 2!(5 − 2)! = 5! 2!3! = 5 × 4 × 3 × 2 × 1 2 × 1 × 3 × 2 × 1 = 10 27
  • 28. Plan de sondage et distribution d’´echantillonnage de y : Echantillons possibles : s p(s) ys {2, 3} 1/10 2.5 {2, 6} 1/10 4 {2, 8} 1/10 5 {2, 11} 1/10 6.5 {3, 6} 1/10 4.5 {3, 8} 1/10 5.5 {3, 11} 1/10 7 {6, 8} 1/10 7 {6, 11} 1/10 8.5 {8, 11} 1/10 9.5 1 E(y) = 1 10 (2.5) + 1 10 (4) + . . . + 1 10 (9.5) = 6 = μ Var(y) = 1 10 (2.5 − 6)2 + 1 10 (4 − 6)2 + . . . + 1 10 (9.5 − 6)2 = 4.05 On v´erifie bien que Var(y) = (1 − f)2 corr n = (1 − 0.4)13.5 2 = 4.05. Supposons que le hasard nous fasse s´electionner l’´echantillon {2, 3}. Dans ce cas, y = 2.5 (estimation de μ) et s2 corr = 1 2 − 1 (2 − 2.5)2 + (3 − 2.5)2 = 0.5 . On estime alors Var(y) par (1 − f) s2 corr n = (1 − 0.4) 0.5 2 = 0.15 . 28
  • 29. 2.6.2 Sondage al´eatoire PEAR n tirages al´eatoires avec remise dans la population nS = nombre (al´eatoire) d’individus distincts dans l’´echantillon S qui sera pr´elev´e (i) Lien avec l’inf´erence statistique classique F Dans la population U : Les valeurs prises par la variable d’int´erˆet Y chez les N individus de U sont y1, y2, . . . , yN =) ( μ = 1 N P i2U yi 2 = 1 N P i2U(yi − μ)2 F Tirage au hasard (`a probabilit´es ´egales) d’un individu dans la population : • Il s’agit d’une exp´erience al´eatoire dont l’ensemble des r´esultats possibles est U. • On peut associer `a cette exp´erience al´eatoire la va-riable al´eatoire Z qui prend la valeur yi si l’individu s´electionn´e est l’individu i. 29
  • 30. Cette v.a. Z poss`ede une distribution de probabilit´e qui co¨ıncide avec la distribution (de fr´equences) de Y dans U : pour i = 1, . . . ,N, P(Z = yi) = P(l’individu s´electionn´e est l’individu i) = 1/N ( + E(Z) = μ Var(Z) = 2 F n tirages `a probabilit´es ´egales et avec remise (PEAR) dans la population : • On associe au k`eme tirage (k = 1, . . . , n) la va-riable al´eatoire Zk qui prend la valeur yi si l’individu s´electionn´e au k`eme tirage est l’individu i : Zk = yi si ik = i; P(Zk = yi) = P (l’individu s´electionn´e au k`eme tirage est l’individu i) = 1/N =) ( E(Zk) = μ Var(Zk) = 2 (k = 1, . . . , n) • Les Zk (k = 1, . . . , n) sont des v.a. ind´ependantes et identiquement distribu´ees (i.i.d.) 30
  • 31. (ii) Tirage de n individus distincts : nS = n a) Estimateur de μ : ˆμPEAR = 1 n X i2S yi = y (moyenne-´echantillon) Autre ´ecriture possible : ˆμPEAR = 1 n Pn k=1 Zk b) ˆμPEAR est sans biais : E(ˆμPEAR) = μ D´em. : E(ˆμPEAR) = 1 n Xn k=1 E(Zk) = 1 n Xn k=1 μ = μ c) Pr´ecision de ˆμPEAR : Var(ˆμPEAR) = 2 n D´em. : Var(ˆμPEAR) = Var 1 n Xn k=1 Zk ! = 1 n2 Xn k=1 Var(Zk) = 1 n2 Xn k=1 2 = n2 n2 = 2 n 31
  • 32. Pour le sondage al´eatoire PEAR, comme dans le cas du sondage al´eatoire PESR, la variance et donc la pr´ecision de ˆμPEAR d´epend de • la taille n de l’´echantillon • la variance 2 de la variable d’int´erˆet Y dans la po-pulation U =) plus l’´echantillon est grand et la population est homog`ene, plus l’estimation de μ est pr´ecise MAIS, contrairement au cas du sondage al´eatoire PESR, la variance de ˆμPEAR ne d´epend pas de la taille N de la population (et donc du taux de sondage f), ce qui n’est pas n´ecessairement tr`es intuitif ! ! ! d) Estimation de Var(ˆμPEAR) : La variance-´echantillon corrig´ee s2 corr = 1 n − 1 X i2S (yi − y)2 est un estimateur sans biais de 2 (cf. cours de statis-tique de base). D`es lors, cVar(ˆμPEAR) = s2 corr n est un estimateur sans biais de Var(ˆμPEAR) 32
  • 33. e) Exemple 2.4 (suite) Nombre d’´echantillons possibles dans le cas PEAR (si l’on tient compte de l’ordre du tirage) : N2 = 25. Echantillons Echantillons possibles : s p(s) ys possibles : s p(s) ys 2, 2 1/25 2 8, 2 1/25 5 2, 3 1/25 2.5 8, 3 1/25 5.5 2, 6 1/25 4 8, 6 1/25 7 2, 8 1/25 5 8, 8 1/25 8 2, 11 1/25 6.5 8, 11 1/25 9.5 3, 2 1/25 2.5 11, 2 1/25 6.5 3, 3 1/25 3 11, 3 1/25 7 3, 6 1/25 4.5 11, 6 1/25 8.5 3, 8 1/25 5.5 11, 8 1/25 9.5 3, 11 1/25 7 11, 11 1/25 11 6, 2 1/25 4 6, 3 1/25 4.5 6, 6 1/25 6 6, 8 1/25 7 6, 11 1/25 8.5 33
  • 34. ) Distribution d’´echantillonnage de y : Valeurs possibles de y Probas 2 1/25 2.5 2/25 3 1/25 4 2/25 4.5 2/25 5 2/25 5.5 2/25 6 1/25 6.5 2/25 7 4/25 8 1/25 8.5 2/25 9.5 2/25 11 1/25 1 E(y) = 1 25 (2) + 2 25 (2.5) + . . . + 1 25 (11) = 6 = μ Var(y) = 1 25 (2 − 6)2 + 2 25 (2.5 − 6)2 + . . . + 1 25 (11 − 6)2 = 5.4 On v´erifie bien que Var(y) = 2 n = 10.8 2 = 5.4. Supposons que le hasard nous fasse s´electionner l’´echantillon {2, 3}. Dans ce cas, y = 2.5 (estimation de μ) et s2 corr = 0.5. On estime alors Var(y) par s2 corr n = 0.5 2 = 0.25 . 34
  • 35. (iii) Tirage de m individus distincts : nS = m n 1) Utilisation des n observations Mˆemes r´esultats qu’en (ii) (! ˆμPEAR) 2) Prise en compte seulement des m individus distincts a) Estimateur de μ : ˆμdiff = 1 nS X i2Sdiff yi o`u • S = ´echantillon al´eatoire constitu´e des n individus pr´elev´es • Sdiff = ensemble des individus distincts s´electionn´es • nS = #Sdiff = nombre d’individus distincts dans S Remarque : S est al´eatoire ) Sdiff et nS sont al´eatoires ) le nombre d’observations `a prendre en consid´eration pour calculer ˆμdiff est al´eatoire : difficult´e suppl´ementaire ! ! ! b) ˆμdiff est sans biais : E(ˆμdiff) = μ 35
  • 36. c) Pr´ecision de ˆμdiff : • Var(ˆμdiff) = 1 n − 1 2N + n−1 12N2 2 corr • Var(ˆμdiff) Var(ˆμPEAR) : dans le cas du pr´el`evement de n individus par son-dage PEAR, il est toujours plus int´eressant de ne conserver que les unit´es statistiques distinctes. 36
  • 37. 2.7 ESTIMATION D’UN TOTAL Dans la population U : = P i2U yi = Nμ 2.7.1 Estimateur de Dans le cas du sondage PESR comme dans celui du son-dage PEAR o`u l’on utilise les n observations de l’´echantillon, on estime μ par y, que nous d´esignerons simplement par ˆμ =) Estimateur de : ˆ = N ˆμ N.B.) N est suppos´e connu 2.7.2 Esp´erance de ˆ Dans le cas des sondages PESR et PEAR o`u l’on utilise les n observations de l’´echantillon : E(ˆμ) = μ =) E(ˆ ) = NE(ˆμ) = Nμ = =) ˆ est un estimateur sans biais de 37
  • 38. 2.7.3 Pr´ecision de ˆ Var(ˆ ) = Var(N ˆμ) = N2Var(ˆμ) a) Sondage al´eatoire PESR • Var(ˆ ) = N2(1 − f)2 corr/n • cVar(ˆ ) = N2(1 − f)s2 corr/n b) Sondage al´eatoire PEAR (utilisation des n observations de l’´echantillon) • Var(ˆ ) = N22/n • cVar(ˆ ) = N2s2 corr/n 38
  • 39. 2.8 ESTIMATION D’UNE PROPORTION • U est partag´e en deux sous-ensembles : K1 et K2 Ex. : K1 = ensemble des individus de la population U qui poss`edent une certaine caract´eristique • = proportion d’individus de U qui appartiennent `a K1 • peut ˆetre vu comme une moyenne-population : Soit yi = 1 si i 2 K1 0 si i 2 K2 (i = 1, . . . ,N) ) 8 : μ = 1 N P i2U yi = 2 = 1 N P i2U(yi − μ)2 = 1 N P i2U y2 i − μ2 = 1 N P i2U yi − μ2 = − 2 = (1 − ) 2.8.1 Estimateur de Dans le cas des sondages PESR et PEAR o`u l’on utilise les n observations de l’´echantillon : ˆ = ˆμ = y = 1 n P i2S yi = proportion d’individus dans l’´echantillon qui appartiennent `a K1 39
  • 40. 2.8.2 Esp´erance de ˆ Dans le cas des sondages PESR et PEAR o`u l’on utilise les n observations de l’´echantillon : E(ˆ) = =) ˆ est sans biais 2.8.3 Pr´ecision de ˆ a) Sondage al´eatoire PESR • Var(ˆ) = (1 − f) 2 corr n = (1 − f) 1 n · N N − 1 2 = (1 − f) N(1 − ) (N − 1)n = (1 − n N ) N(1 − ) (N − 1)n = N − n N − 1 · (1 − ) n = (1 − f) (1 − ) n si N N − 1 = 1 40
  • 41. • Un estimateur sans biais de 2 corr est s2 corr = 1 n − 1 X i2S (yi − y)2 = n n − 1 1 n X i2S (yi − y)2 ! = n n − 1 1 n X i2S y2 i − y2 ! = n n − 1 1 n X i2S yi − y2 ! = n n − 1 ˆ − ˆ2 = n n − 1 ˆ(1 − ˆ) =) Un estimateur sans biais de Var(ˆ) = (1−f)2 corr n est cVar(ˆ) = (1 − f) ˆ(1 − ˆ) n − 1 41
  • 42. b) Sondage al´eatoire PEAR (utilisation des n observations de l’´echantillon) • Var(ˆ) = 2 n = (1−) n corr = n • Un estimateur sans biais de 2 est s2 n−1 ˆ(1−ˆ) =) un estimateur sans biais de Var(ˆ) = 2 n est cVar(ˆ) = ˆ(1 − ˆ) n − 1 En conclusion : facteurs jouant sur Var(ˆ) (ou p Var(ˆ)) PEAR : p Var(ˆ) = r (1 − ) n PESR : p Var(ˆ) r (1 − f) (1 − ) n r (1 − ) n si f fort petit 42
  • 43. Valeurs de q (1−) n en fonction de et de n (Valeurs en multiples de .01) p ! .05 .10 .15 .20 .25 .30 .35 .40 .45 .50 n # 100 2.2 3.0 3.6 4.0 4.3 4.6 4.8 4.9 5.0 5.0 150 1.8 2.4 2.9 3.2 3.5 3.7 3.8 3.9 4.1 4.1 200 1.5 2.1 2.5 2.8 3.1 3.2 3.4 3.5 3.5 3.5 250 1.4 1.9 2.3 2.5 2.7 2.9 3.0 3.1 3.1 3.2 300 1.3 1.7 2.1 2.3 2.5 2.6 2.8 2.8 2.9 2.9 350 1.2 1.6 1.9 2.1 2.3 2.4 2.5 2.6 2.7 2.7 400 1.1 1.5 1.8 2.0 2.2 2.3 2.4 2.4 2.5 2.5 450 1.0 1.4 1.7 1.9 2.0 2.2 2.2 2.3 2.3 2.4 500 1.0 1.3 1.6 1.8 1.9 2.0 2.1 2.2 2.2 2.2 600 .9 1.2 1.5 1.6 1.8 1.9 1.9 2.0 2.0 2.0 700 .8 1.1 1.3 1.5 1.6 1.7 1.8 1.9 1.9 1.9 800 .8 1.1 1.3 1.4 1.5 1.6 1.7 1.7 1.8 1.8 900 .7 1.0 1.2 1.3 1.4 1.5 1.6 1.6 1.7 1.7 1 000 .7 .9 1.1 1.3 1.4 1.4 1.5 1.5 1.6 1.6 1 500 .6 .8 .9 1.0 1.1 1.2 1.2 1.3 1.3 1.3 2 000 .5 .7 .8 .9 1.0 1.0 1.1 1.1 1.1 1.1 2 500 .4 .6 .7 .8 .9 .9 1.0 1.0 1.0 1.0 3 000 .4 .5 .7 .7 .8 .8 .9 .9 .9 .9 4 000 .3 .5 .6 .6 .7 .7 .8 .8 .8 .8 5 000 .3 .4 .5 .6 .6 .6 .7 .7 .7 .7 10 000 .2 .3 .4 .4 .4 .5 .5 .5 .5 .5 20 000 .2 .2 .3 .3 .3 .3 .4 .4 .4 .4 43
  • 44. 2.9 EFFET DE (PLAN DE) SONDAGE Question : Lorsqu’on d´esire estimer un param`etre-population par sondage et qu’on a le choix entre plusieurs plans de sondage possibles, lequel doit-on utiliser ? R´eponse : L’id´eal est de pouvoir appliquer le plan de son-dage donnant lieu `a l’estimateur le plus pr´ecis du param`etre-population. L’effet de sondage est une mesure permettant de comparer deux plans de sondage en termes de pr´ecision des estima-teurs qu’ils fournissent. 2.9.1 D´efinition • : param`etre `a estimer • On dispose de deux plans de sondage diff´erents (pour la mˆeme taille d’´echantillon n) : P1 = {(s, p1(s)); s 2 1} P2 = {(s0, p2(s0)); s0 2 2} • ˆ1 : estimateur de si l’on suit le plan de sondage P1 ˆ2 : estimateur de si l’on suit le plan de sondage P2 44
  • 45. • Si ˆ1 et ˆ2 sont deux estimateurs sans biais de , alors l’effet de sondage de P1 par rapport `a P2 est d´efini par D(P1| P2) = VarP1(ˆ1) VarP2(ˆ2) • Interpr´etation : D(P1| P2) 1 () VarP1(ˆ1) VarP2(ˆ2) () pour une mˆeme taille d’´echantillon n, l’estima-teur ˆ1 est plus pr´ecis que l’estimateur ˆ2 ()le plan de sondage P1 permet une estimation plus pr´ecise de que le plan de sondage P2 2.9.2 Exemple Prenons = μ. La taille n de l’´echantillon est fix´ee a priori. P1 : sondage al´eatoire PESR : ˆ1 = ˆμPESR = y et VarPESR(y) = 1 n − 1 N 2 corr = N − n N − 1 · 2 n P2 : sondage al´eatoire PEAR : ˆ2 = ˆμPEAR = y et VarPEAR(y) = 2 n 45
  • 46. =) D(PESR| PEAR) = N−n N−1 = 1 − f 1 =) PESR doit ˆetre pr´ef´er´e `a PEAR Exemple 2.4 (suite) L’effet de sondage est donn´e par D(PESR|PEAR) = VarPESR(y) VarPEAR(y) = 4.05 5.4 = 0.75 1. y est un estimateur de μ plus pr´ecis dans le cas PESR ; les valeurs possibles de y sont moins dispers´ees autour de μ = 6 dans le cas PESR que dans le cas PEAR. Remarques : • On peut montrer que, pour un mˆeme nombre n de ti-rages, Var(ˆμPESR) Var(ˆμdiff) Var(ˆμPEAR); le plan al´eatoire simple sans remise est toujours pr´ef´erable et, si le plan est avec remise, il est toujours plus int´eressant de ne conserver que les unit´es statistiques distinctes. 46
  • 47. • Si n est petit par rapport `a N (c`ad le taux de sondage f est tr`es petit), alors le gain en pr´ecision de PESR par rapport `a PEAR est tr`es faible. Valeurs de N−n N−1 N ! 100 10 000 1 000 000 n # 10 0.909 0.999 0.99999 100 0 0.990 0.99990 1 000 − 0.900 0.99900 10 000 − 0 0.99000 • En pratique, le choix du plan de sondage ne se fonde pas sur le seul crit`ere de la pr´ecision de l’estimateur. Ce choix doit se faire en tenant compte aussi – du coˆut de l’op´eration – des possibilit´es d’application – des facilit´es d’application Ces diff´erents crit`eres sont parfois contradictoires ! 47
  • 48. 2.10 INTERVALLES DE CONFIANCE 2.10.1 Distribution d’´echantillonnage de ˆμ (i) Sondage al´eatoire PEAR • Rappels : – n tirages au hasard successifs avec remise – On associe au k`eme tirage (k = 1, . . . , n) la va-riable al´eatoire Zk qui prend la valeur yi si l’individu s´electionn´e au k`eme tirage est l’individu i – Z1,Z2, . . . ,Zn sont des v.a.’s i.i.d. telles que E(Zk) = μ et Var(Zk) = 2 pour tout k = 1, . . . , n ; Zk a une distribution de probabilit´e qui co¨ıncide avec la distribution de fr´equences de la variable d’int´erˆet Y dans la population U • Si Y a une distribution de fr´equences que l’on peut ”approcher” (ajuster) par la loi N(μ, 2), alors on peut consid´erer que Z1,Z2, . . . ,Zn sont i.i.d. N(μ, 2) et ˆμ = 1 n Xn k=1 Zk N μ, 2 n () ˆμ − μ / p n N(0, 1) 48
  • 49. Si, de plus, 2 est inconnu, on peut l’estimer par son estimateur sans biais s2 corr et on a μ ˆ− μ p scorr/ n tn−1 • Dans le cas o`u l’on ne connaˆıt pas la distribution de Y dans U, le th´eor`eme central limite (TCL) nous indique que, si n 30, ˆμ − μ / p n N(0, 1) Si, de plus, 2 est inconnu, on peut l’estimer par son estimateur sans biais s2 corr et on a ˆμ − μ scorr/ p n N(0, 1) (ii) Sondage al´eatoire PESR • Si on d´efinissait des v.a.’s Zk (k = 1, . . . , n) comme pour le sondage al´eatoire PEAR, elles ne seraient ni ind´ependantes, ni ´equidistribu´ees =) impossibilit´e de faire appel au TCL classique =) utilisation d’un th´eor`eme central pour population finie 49
  • 50. • Si U(N) est une population de taille N, de moyenne μ(N) et de variance ((N))2 et si y(n) est la variable al´eatoire correspondant `a la moyenne arithm´etique des observations d’un ´echantillon al´eatoire S(n) de taille n : y(n) = 1 n P i2S(n) yi, alors y(n) − μ(N) q Var(y(n)) N(0, 1) quand n ! 1 et N − n ! 1, et sous des condi-tions g´en´erales li´ees `a la part de ((N))2 due `a chaque ´el´ement de U(N) • Sous des conditions identiques : y(n) − μ(N) q cVar(y(n)) N(0, 1) 50
  • 51. 2.10.2 Intervalles de confiance De mani`ere g´en´erale, si ˆ est un estimateur non biais´e de et si on peut supposer que ˆ − q cVar(ˆ) N(0, 1), l’intervalle de confiance pour au niveau de confiance 1− (0 1) est donn´e par ˆ ± z1−/2 q cVar(ˆ) , o`u z1−/2 est le quantile d’ordre 1−/2 de la loi N(0, 1) (si X N(0, 1), alors P[X z1−/2] = 1 − /2) D´em. : Si X N(0, 1), alors P(−z1−/2 X z1−/2) = 1 − . 51
  • 52. Puisque pˆ− dVar(ˆ) N(0, 1), on a donc P −z1−/2 pˆ− dVar(ˆ) z1−/2 = 1 − =) P ˆ − z1−/2 q cVar(ˆ) ˆ + z1−/2 q cVar(ˆ) = 1 − N.B.) • si 1 − = 95%, alors z1−/2 = z0.975 = 1.96 • si 1 − = 90%, alors z1−/2 = z0.95 = 1.645 (i) I.C. pour μ au niveau de confiance 1 − : ˆμ ± z1−/2 q cVar(ˆμ) PESR : ˆμ ± z1−/2 q (1 − f)s2 corr n PEAR : ˆμ ± z1−/2 q s2 corr n 52
  • 53. (ii) I.C. pour au niveau de confiance 1 − : ˆ ± z1−/2 q cVar(ˆ ) PESR : ˆ ± z1−/2 q N2(1 − f)s2 corr n PEAR : ˆ ± z1−/2 q N2s2 corr n (iii) I.C. pour au niveau de confiance 1 − : ˆ ± z1−/2 q cVar(ˆ) PESR : ˆ ± z1−/2 q (1 − f) ˆ(1−ˆ) n−1 PEAR : ˆ ± z1−/2 q ˆ(1−ˆ) n−1 Remarque : L’I.C. pour est un intervalle al´eatoire : les valeurs de ses bornes varient d’un ´echantillon `a l’autre. 53
  • 54. Exemple 2.5 Un ´echantillon de 400 automobilistes d’un pays comprend 40 pro-pri ´etaires d’une voiture de marque A. Construisez un intervalle de confiance, au niveau de confiance de 95%, pour la proportion r´eelle d’automobilistes de ce pays qui poss`edent une voiture de marque A, en consid´erant que l’´echantillon a ´et´e pr´elev´e selon un tirage PESR dans une population de taille a) N = 5 000 ; b) N = 100 000. Solution n = 400 = proportion d’automobilistes poss´edant une voiture de marque A dans le pays ˆ = 40/400 = 0.1 L’I.C. pour au niveau de confiance de 95% est ˆ ± z0.975 q cVar(ˆ) = ˆ ± (1.96) q cVar(ˆ) . Puisque le tirage est PESR, nous avons cVar(ˆ) = (1 − f) ˆ(1 − ˆ) n − 1 = (1 − f) (0.1)(0.9) 399 = (1 − f)(0.00023) a) Si N = 5 000, le taux de sondage est ´egal `a f = 400 5 000 = 0.08 = 8%. On a alors cVar(ˆ) = (0.92)(0.00023) = 0.00021 ) q cVar(ˆ) = 0.01441 54
  • 55. L’I.C. pour au niveau de confiance de 95% est alors [0.1 ± (1.96)(0.01441)] = [0.1 ± 0.02823] = [0.07177 ; 0.12823] = [7.177% ; 12.823%] b) Si N = 100 000, le taux de sondage est ´egal `a f = 400 100 000 = 0.004. On a alors cVar(ˆ) = (0.996)(0.00023) = 0.00022 ) q cVar(ˆ) = 0.01499 L’I.C. pour au niveau de confiance de 95% est alors [0.1 ± (1.96)(0.01499)] = [0.1 ± 0.02938] = [0.07062 ; 0.12938] = [7.062% ; 12.938%] On voit donc sur cet exemple que, lorsque le taux de sondage diminue (`a taille n d’´echantillon fix´ee), la pr´ecision (estim´ee) de l’estimateur ˆ de diminue et, par cons´equent, l’I.C. s’´elargit quelque peu. Exemple 2.6 145 m´enages de touristes s´ejournant en France dans une r´egion donn´ee ont d´epens´e, en moyenne journali`ere, 35.5 Euros ; l’´ecart-type de ces 145 d´epenses journali`eres s’´el`eve `a 8.4 Euros. Sachant que dans la r´egion o`u a ´et´e effectu´ee l’enquˆete il est venu 50 000 m´enages de tou-ristes, que peut-on dire de la d´epense globale journali`ere de l’ensemble de ces m´enages (on suppose que l’´echantillon est du type PESR) ? 55
  • 56. Solution Param`etre `a estimer : = d´epense journali`ere globale des 50 000 m´enages de touristes. ˆ = Ny = (50 000)(35.5) = 1 775 000 Euros Le tirage ´etant PESR, on a cVar(ˆ ) = N2(1 − f) s2 corr n f = 145 50 000 = 0.0029 = 0.29% s2 corr = 145 144 (8.4)2 = 71.05 = (50 000)2(1 − 0.0029) 71.05 145 = 1 221 447 500 L’I.C. pour au niveau de confiance de 95% est d`es lors ´egal `a ˆ ± z0.975 q cVar(ˆ ) = [1 775 000 ± (1.96)(34 949.21)] = [1 775 000 ± 68 500.46] = [1 706 499.54 ; 1 843 500.46] Il y a donc 95 chances sur 100 que la d´epense journali`ere globale des 50 000 m´enages de touristes soit comprise entre (approximativement) 1 706 500 Euros et 1 843 500 Euros. 56
  • 57. 2.10.3 Incertitude absolue et relative • Si l’I.C. pour est de la forme [ˆ − d, ˆ + d], d est appel´e incertitude absolue (= demi-longueur de l’I.C.) De mani`ere g´en´erale, d = z1−/2 q cVar(ˆ) • L’incertitude relative est d´efinie par d/ˆ (en %) • (i) Incertitude absolue pour μ / PESR z1−/2 r (1 − f) s2 corr n (ii) Incertitude absolue pour / PESR z1−/2 r N2(1 − f) s2 corr n (iii) Incertitude absolue pour / PESR z1−/2 r (1 − f) ˆ(1 − ˆ) n − 1 • Tout comme l’I.C., l’incertitude absolue d est al´eatoire : sa valeur varie d’un ´echantillon `a l’autre. 57
  • 58. • d d´epend de et de cVar(ˆ) (et donc aussi, de fa¸con indirecte, de Var(ˆ) et de n) : 1) 1 − % =) z1−/2 % =) d % 2) n % =) d • Pour une proportion , l’incertitude absolue d d´epend de (ou ˆ). Pour un niveau de confiance de 95% : r d = 1.96 (1 − f) ˆ(1 − ˆ) n − 1 = r 2 (1 − f) ˆ(1 − ˆ) n r 2 ˆ(1 − ˆ) n r 2 1 4n = 1 p n p n Valeur de 1/ (incertitude absolue maximale pour 1 − = 95%) p n n 1/ 100 10% 400 5% 1 000 3% 1 600 2.5% 10 000 1% 58
  • 59. • Incertitude relative d/ˆ (en %) pour l’estimateur ˆ d’une proportion (1 − = 0.95 ; f = 0 ; d = q 2 ˆ(1−ˆ) n ) ˆ ! .10 .20 .30 .40 .50 n # 100 60 40 31 24 20 200 42 28 21 18 14 300 34 23 17 14 12 500 26 19 15 12 10 1 000 18 13 9 8 6 2 000 14 9 7 6 4 5 000 8 6 4 4 3 10 000 6 4 3 3 2 59
  • 60. 2.10.4 D´etermination de la taille d’un ´echantillon Probl`eme : Comment doit-on choisir la taille n de l’´echantillon pour que l’incertitude absolue d ne d´epasse pas une cer-taine valeur d0 fix´ee a priori ? N.B.) Le niveau de confiance (1 − ) est fix´e. Solution : De mani`ere g´en´erale, il faut trouver les valeurs de n qui permettent de satisfaire l’in´egalit´e d = z1−/2 q cVar(ˆ) d0 . (i) Estimation de μ : • PESR : z1−/2 q (1 − f)s2 corr n d0 ) z1−/2 q N)s2 (1 − n corr n d0 ) n Nz2 1−/2 s2 corr Nd20+ z2 1−/2 s2 corr = nPESR • PEAR : z1−/2 q s2 corr n d0 ) n z2 1−/2s2 corr d20 = nPEAR 60
  • 61. MAIS s2 corr est la variance-´echantillon corrig´ee et d´epend donc elle aussi de la taille n de l’´echantillon ! =) on remplace s2 corr par la variance-´echantillon corrig´ee observ´ee dans un ´echantillon pr´elev´e lors d’une ´etude pr´eliminaire ou d’une ´etude ant´erieure du mˆeme type Remarque : nPESR et nPEAR sont les tailles minimales d’´echantillon `a prendre pour un sondage al´eatoire PESR et pour un son-dage al´eatoire PEAR respectivement. On v´erifie que nPESR = nPEAR 1 + nPEAR−1 N + • si nPEAR 1, alors nPESR nPEAR : pour une mˆeme incertitude absolue d0 fix´ee a priori, la proc´edure PESR ”coˆute moins cher” en termes de nombre d’individus `a pr´elever que la proc´edure PEAR • si N est grand, alors nPESR = nPEAR : l’avantage de la proc´edure PESR par rapport `a la proc´edure PEAR n’est pas tr`es marqu´e si la population sond´ee est de grande taille 61
  • 62. (ii) Estimation de : • PESR : d = z1−/2 q (1 − f) ˆ(1−ˆ) n−1 = z1−/2 q (1 − f) ˆ(1−ˆ) n d0 =) n Nz2 1−/2ˆ(1−ˆ) Nd20 + z2 1−/2ˆ(1−ˆ) • PEAR : d = z1−/2 q ˆ(1−ˆ) n−1 = z1−/2 q ˆ(1−ˆ) n d0 =) n z2 1−/2ˆ(1−ˆ) d20 avec ˆ remplac´e par la proportion-´echantillon observ´ee dans un ´echantillon pr´elev´e lors d’une ´etude pr´eliminaire ou d’une ´etude ant´erieure du mˆeme type. Remarque : Dans le cas PEAR, puisque ˆ(1 − ˆ) 1/4 quelle que soit la valeur de ˆ, on peut aussi prendre comme taille minimale d’´echantillon, z2 1−/2 4d20 = z1−/2 2d0 2 ; cette alternative est int´eressante dans le cas o`u l’on ne dispose pas d’estimation pr´eliminaire de . 62
  • 63. 2.10.5 Exemples a) Cas d’une moyenne • Population U constitu´ee de N = 1000 employ´es • Variable d’int´erˆet : Y = salaire mensuel net • Param`etre-population : μ = salaire mensuel net moyen dans la population U • Plan de sondage : n = 50 (f = 50/1000 = 0.05) - sondage al´eatoire PESR • Dans l’´echantillon s pr´elev´e : y = 1100 Euros s2 corr = 62500 ) cVar(y) = (1 − f)s2 corr n = (1 − 0.05)62500 50 = 1187.5 ) I.C. pour μ au niveau de confiance de 95% : [1100±(1.96) p 1187.5] = [1100±67.54] = [1032.46; 1167.54] ) Incertitude absolue : d = 67.54 ) Incertitude relative : d/y = 67.54/1100 = 6.14% 63
  • 64. • Quelle taille d’´echantillon faut-il choisir pour pouvoir obtenir une incertitude absolue inf´erieure ou ´egale `a d0 = 25 Euros ? Si l’on prend s2 corr = 62500 comme estimation pr´eliminaire de la variance-population (corrig´ee), il faut prendre la taille n de l’´echantillon sup´erieure ou ´egale `a 1000 (1.96)2 62500 1000 (25)2 + (1.96)2 62500 = 277.54 ) il faut pr´elever au minimum 278 individus b) Cas d’une proportion • Population U constitu´ee de N = 10000000 personnes • Variable d’int´erˆet : Y = soutien `a un programme yi = 1 si l’individu i soutient le programme 0 sinon • Param`etre-population : = proportion de personnes dans la population U qui soutiennent le programme • Plan de sondage : n = 1000 (f = 1000/10000000) - sondage al´eatoire PESR 64
  • 65. • Dans l’´echantillon s pr´elev´e : ˆ = 0.20 ) cVar(ˆ) = 9999000 10000000 · (0.20)(0.80) 999 = 0.00016 ) I.C. pour au niveau de confiance de 95% : [0.20±(1.96) p 0.00016] = [0.20±0.025] = [0.175; 0.225] ) Incertitude absolue : d = 0.025 ) Incertitude relative : d/ˆ = 0.025/0.20 = 12.5% • Quelle taille d’´echantillon faut-il choisir pour pouvoir obtenir une incertitude absolue ne d´epassant pas d0 = 0.01 ? Si l’on prend ˆ = 0.20 comme estimation pr´eliminaire de la proportion-population , il faut prendre la taille n de l’´echantillon sup´erieure ou ´egale `a 10000000(1.96)2(0.20)(1 − 0.20) 10000000(0.01)2 + (1.96)2(0.20)(1 − 0.20) = 6142.78 ) il faut prendre au minimum 6143 individus N.B.) On v´erifie ici que, puisque N est grand, nPESR = nPEAR = (1.96)2(0.20)(1 − 0.20) (0.01)2 = 6146.56 65
  • 66. c) Cas d’une proportion Un Tour Op´erator d´esire tester l’id´ee d’un nouveau mode de distribu-tion de voyages organis´es aupr`es de son r´eseau d’agences de voyages, qui comprend 3 000 agences. S’il veut estimer le nombre d’agences favorables `a son projet, quelle taille d’´echantillon doit-il interroger ? Faites une ´etude pour diff´erents niveaux de pr´ecision, en consid´erant un niveau de confiance de 95%. Solution N = 3 000 = proportion d’agences favorables au projet Supposons que l’´echantillon soit pr´elev´e selon un tirage PESR. Pour que l’I.C. au niveau de confiance de 95% donne lieu `a une incertitude absolue d0, il faut prendre une taille n d’´echantillon telle que n nPESR = N(1.96)2ˆ(1 − ˆ) Nd20 + (1.96)2ˆ(1 − ˆ) · Mais nous ne disposons d’aucune estimation pr´ealable ˆ de , ce qui rend impossible le calcul de nPESR par l’expression ci-dessus. Nous pouvons alors raisonner comme suit. Si nous d´esignons par nPESR et nPEAR les tailles minimales d’´echantillon `a consid´erer pour que l’in-certitude absolue soit d0, dans le cas d’un tirage PESR et dans celui d’un tirage PEAR respectivement, nous pouvons ´ecrire : nPESR = nPEAR 1 + nPEAR−1 N (1) 66
  • 67. et nPEAR = (1.96)2ˆ(1 − ˆ) d20 n0 = 1.96 2d0 2 · En prenant pour nPEAR sa valeur maximale n0, l’´egalit´e (1) nous per-met d’avoir une id´ee de la taille nPESR requise. Ainsi, pour d0 = 0.10 : n0 = 96.04 96 ) nPESR 93 pour d0 = 0.05 : n0 = 384.16 384 ) nPESR 341 pour d0 = 0.03 : n0 = 1 067.11 1 067 ) nPESR 787 pour d0 = 0.02 : n0 = 2 401 ) nPESR 1 334 pour d0 = 0.01 : n0 = 9 604 ) nPESR 2 286 Ces r´esultats montrent bien l’avantage du sondage PESR sur le son-dage PEAR (pour lequel on garde les n observations r´ealis´ees). Pour une mˆeme incertitude absolue, le PESR coˆute moins cher en nombre d’observations que le PEAR. Cet avantage du PESR sur le PEAR se marque d’autant plus que le taux de sondage est ´elev´e. N.B.) Dans le cas du PEAR, il arrive mˆeme que l’on doive effectuer un nombre de tirages sup´erieur `a la taille de la population pour pouvoir satisfaire l’exigence de pr´ecision que l’on s’est fix´ee (cf. d0 = 0.01 par exemple). 67
  • 68. 2.11 ALGORITHMES POUR LES PLANS SIMPLES SANS REMISE Une des ´etapes cruciales de la mise en oeuvre d’un plan de sondage est la s´election des unit´es de sondage. La proc´edure de s´election doit pouvoir se formuler sous la forme d’un algorithme simple, efficace, rapide et consom-mant peu d’espace m´emoire. Id´ealement, l’algorithme de s´election doit pouvoir s’appli-quer en une seule lecture de la base de sondage. Il est aussi pratique de pouvoir appliquer l’algorithme de s´election alors que la taille N de la population n’est pas connue d’avance (par exemple, lorsqu’on s´electionne des clients venant se pr´esenter `a un guichet au fur et `a mesure de leur passage). 68
  • 69. 2.11.1 M´ethode du tri al´eatoire a) Proc´edure : • On g´en`ere N nombres (pseudo-)al´eatoires u1, u2, . . . , uN suivant une loi U(0, 1) (loi continue uniforme sur l’in-tervalle (0,1)) et, pour i = 1, . . . ,N, on affecte `a l’individu i le nombre ui • On trie ensuite la base de sondage par ordre crois-sant (ou d´ecroissant) des nombres al´eatoires : cette proc´edure conduit `a effectuer un tri al´eatoire de la base de sondage • On choisit enfin les n premiers (ou les n derniers) in-dividus de la base de sondage ainsi ordonn´ee b) On montre que cette m´ethode fournit bien un plan de sondage de type PESR donnant lieu `a des ´echantillons de taille n fix´ee a priori c) Avantage de cette m´ethode : – proc´edure de s´election tr`es ais´ee `a mettre en oeuvre D´efauts de cette m´ethode : – la taille N de la population doit ˆetre connue au pr´ealable – on doit trier toute la base de sondage : cette op´eration peut s’av´erer tr`es longue quand le fichier est grand 69
  • 70. 2.11.2 D’autres m´ethodes fournissant un plan de sondage de type PESR avec ´echantillons de taille n fix´ee a priori M´ethodes moins ch`eres en temps de calcul et espace-m´emoire • Sondage syst´ematique (cf. Section 5.2), pour autant que la base de sondage soit tri´ee al´eatoirement ou selon un ordre n’ayant aucun lien avec la variable d’int´erˆet Y (ex. : Y = sexe ou choix d’´etudes - base de sondage tri´ee par ordre alphab´etique) N.B.) La taille N de la population doit normalement ˆetre connue au pr´ealable, mais il y a moyen d’adapter la m´ethode pour pouvoir l’utiliser quand N est inconnu • M´ethode de s´election-rejet, m´ethode de mise `a jour de l’´echantillon, m´ethode des sauts al´eatoires, . . . Certaines de ces m´ethodes ne n´ecessitent pas de connaˆıtre la taille N de la population au pr´ealable 70
  • 71. 2.11.3 Tirage de Bernoulli Technique de tirage al´eatoire des individus donnant lieu • `a la mˆeme probabilit´e d’inclusion pour tous les indivi-dus de la population • `a un ´echantillon de taille al´eatoire a) Proc´edure : • On se fixe une quantit´e p 2 (0, 1) • Pour i = 1, . . . ,N : – On g´en`ere un nombre (pseudo-)al´eatoire ui suivant une loi U(0, 1) (loi continue uniforme sur l’intervalle (0,1)) – Si ui p, alors l’individu i est s´electionn´e Si ui p, alors l’individu i n’est pas s´electionn´e N.B.) La proc´edure de s´election est ind´ependante d’un in-dividu `a l’autre b) Probabilit´es d’inclusion : pi = P(i 2 S) = P(ui p) = probabilit´e qu’une v.a. de loi U(0, 1) prenne une valeur inf´erieure ou ´egale `a p = p ) tous les individus de la population ont la mˆeme proba-bilit ´e d’inclusion 71
  • 72. c) Avantages de cette m´ethode : – la base de sondage est lue s´equentiellement ; la taille N de la population ne doit pas ˆetre connue au pr´ealable – technique tr`es facile `a programmer D´efaut de cette m´ethode : – fournit un ´echantillon de taille al´eatoire (il y a mˆeme une probabilit´e non nulle de ne s´electionner aucun in-dividu) d) Taille nS de l’´echantillon : nS = taille de l’´echantillon qui sera pr´elev´e = nombre d’individus qui seront s´electionn´es Bin(N, p) =) E(nS) = Np et Var(nS) = Np(1 − p) =) p = taux de sondage moyen e) Estimation de : • ˆB = 1 p P i2S yi N.B.) Dans le cas PESR `a taille n fix´ee a priori : ˆPESR = N ˆμPESR = N n X i2S yi = 1 f X i2S yi = X i2S yi pi 72
  • 73. • E(ˆB) = E 1 p X i2S yi ! = E 1 p X i2U yiIi ! = 1 p X i2U yiE(Ii) = 1 p X i2U yip = X i2U yi = =) ˆB est un estimateur sans biais de • On montre que (pr´ecision de ˆB) Var(ˆB) = 1 p − 1 P y2 i2U i cVar(ˆB) = 1 p 1 p − 1 P y2 i2S i f) Estimation de μ : • μ = N ) ˆμB = ˆB N = 1 Np P i2S yi (6= y) N.B.) Np= 6nS ; Np = E(nS) • E(μB) ˆ= μ ) μB ˆest un estimateur sans biais de μ • Var(μB) ˆ= Var ˆB N = 1 N2Var(ˆB) cVar(ˆμB) = 1 N2 cVar(ˆB) 73