SlideShare une entreprise Scribd logo
1  sur  6
Télécharger pour lire hors ligne
Utilisation des proc´ dures SAS dans l’enseignement des sondages
e
Yves Aragon ¡ Anne Ruiz-Gazen
e-mail: aragon@cict.fr, ruiz@cict.fr

1. Introduction
Depuis la version 8, SAS [6] propose trois proc´ dures pour les questions d’estimation en sondages. Il s’agit des
e
proc surveyselect pour la s´ lection d’´ chantillons, surveymeans pour l’estimation de moyennes, totaux
e
e
et ratios et surveyreg pour l’estimation des coefficients d’une r´ gression. Les proc´ dure SAS sont relativement
e
e
faciles d’utilisation. Elles permettent de compl´ ter des exercices de travaux dirig´ s et, si on dispose d’une popue
e
lation exhaustive, d’exp´ rimenter des propri´ t´ s th´ oriques par simulation. La proc surveyselect offre de
e
ee e
nombreuses possibilit´ s de tirages al´ atoires tandis que surveymeans et surveyreg tiennent compte de plans
e
e
de sondages complexes dans les estimations. Nous pr´ sentons ces diff´ rentes proc´ dures et illustrons leur usage sur
e
e
e
la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons
de donn´ es issues du recensement de 1999. Nous nous int´ ressons a l’estimation du nombre total de logements
e
e
`
vacants. L’ensemble des communes est partitionn´ en 32 Bassins de vie quotidienne (BVQ). La variable nombre
e
de logements est consid´ r´ e comme une information auxiliaire. Les communes sont r´ parties en 4 strates d’apr` s
ee
e
e
la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ dagogique, nous echantillonnons
e
´
suivant diff´ rentes m´ thodes. Ce choix de donn´ es est inspir´ de l’exemple des municipalit´ s de Su` de de [5].
e
e
e
e
e
e
2. Tirage d’´ chantillons
e
La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ chantillons, notamment des tirages
e
avec probabilit´ s proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synth´ tique et
e
`
e
compl` te des possibilit´ s).
e
e
2.1. Exemple de plan a un degr´
e
`
Les donn´ es sont dans la table COMpop et les strates sont d´ finies par la variable stratloge. Consid´ rons la
e
e
e
s´ lection d’´ chantillons d´ crite par la syntaxe suivante :
e
e
e
proc surveyselect data=COMpop method=srs
n=(5 10 21 34)
seed=57926 out=logestsi rep=1000;
strata stratloge;
run;
Le plan de sondage est un plan stratifi´ simple. La m´ thode de tirage est donn´ e par srs (simple random
e
e
e
sampling) et les tailles d’´ chantillon dans chaque strate sont donn´ es par n. La graine du g´ n´ rateur de nombres
e
e
e e
al´ atoires a et´ fix´ e (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pour
e
´e e
´
faire des comparaisons empiriques de m´ thodes (voir la section 5).
e
SAS fournit en sortie les echantillons et les probabilit´ s d’inclusion du premier ordre, les poids (SamplingWeight),
´
e
inverses des probabilit´ s d’inclusion, utilis´ s pour l’´ tape d’estimation et, pour certains plans, les probabilit´ s
e
e
e
e
d’inclusion du second ordre (option JTPROBS).
Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ de Toulouse 1, 21 all´ e de Brienne, 31000
e
e
Toulouse, France et Laboratoire de Statistique et Probabilit´ s, UMR CNRS C5583, Universit´ Paul Sabatier, Toulouse.
e
e
2

Yves Aragon, Anne Ruiz-Gazen

2.2. Exemple de plan a un degr´ avec remise et probabilit´ s proportionnelles a la taille
e
e
`
`
On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com´
munes.
proc surveyselect data=COMpop method=pps_wr n=70
seed=98556 out=logepps rep=1000 outhits ;
size loge;
run;
Dans un plan avec remise, SAS cr´ e une variable (NumberHits) indiquant le nombre d’apparitions de chaque
e
observation. Par l’option outhits, chaque unit´ figure dans le fichier de sortie autant de fois qu’elle a et´ tir´ e.
e
´e e
Il est pr´ f´ rable d’utiliser cette option en vue des etapes d’estimation suivantes.
ee
´
2.3. Exemple de plan a deux degr´ s
e
`

Æ

¿¾ BVQ. On veut tirer un echantillon de communes
´
On dispose de la table BVQpop des identifiants des Á
pr´ sentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degr´ s.
e
`
e
¯ Degr´ 1. On tire un echantillon × Á de ÒÁ ´
e
´

µ BVQ suivant un plan SI, taux de sondage :

Á

ÒÁ ÆÁ .

proc surveyselect data= BVQpop sampsize= 6 seed= 25123
stats out=bvqsel rep=500;
run;
La table en sortie contient notamment les variables replicate, num´ ro d’´ chantillon, et BVQ_N, identifiant des
e
e
BVQ tir´ s dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQ
e
´
´
echantillonn´ s : comsel1 o` les poids du sondage de ce premier degr´ sont renomm´ s w1.
´
e
u
e
e

¯ Degr´ 2. Dans chaque BVQ ¾ × Á , de Æ communes, on tire un echantillon × de Ò
e
´
Ò Æ.
plan SI, taux de sondage :

´ ¿µ communes suivant un

proc surveyselect data= comsel1 sampsize= 3
seed= 55268 out=comsel2 stats;
strata BVQ_N;
by replicate;
run;
On renomme w2 les poids de sondage de ce degr´ .
e
Dans le cas d’un plan a deux degr´ s, il est important que l’utilisateur stocke par une etape data le produit des
`
e
´
poids des deux degr´ s w12 = w1 * w2 en vue de l’´ tape d’estimation.
e
e
3. Estimation de totaux, moyennes et ratios
Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios,
et coefficients de r´ gressions lin´ aires, en tenant compte du plan d’´ chantillonnage. Les poids d’observation sont
e
e
e
pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure
du plan de sondage est donn´ e par les commandes strata et cluster. Une moyenne est consid´ r´ e comme
e
ee
un ratio et elle est estim´ e a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille de
e `
l’´ chantillon.
e
3.1. Exemple d’utilisation de la proc surveymeans
On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de
´
logements vacants (variable logevac) stock´ es dans le fichier resultat par la syntaxe suivante :
e
proc surveyselect data=COMpop method=srs n=70 stats
seed=47279 out=logsi rep=1000;
run;
Utilisation des proc´ dures SAS dans l’enseignement des sondages
e

3

proc surveymeans data=logsi total=554 sum;
var logevac;
by Replicate;
weight Samplingweight;
ods select none;
ods output Statistics = resultat;
run;
ods select all;
C’est l’Output Delivery System (ODS) qui g` re les sorties des proc´ dures surveymeans et surveyreg. La
e
e
commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la
commande ods select none; supprime toute impression dans la fenˆ tre output.
e
3.2. Exemples d’utilisation de la proc surveyreg
Cette proc´ dure r´ alise essentiellement l’estimation des coefficients d’une r´ gression a l’aide de donn´ es obtenues
e
e
e
`
e
par echantillonnage. Mais elle permet egalement des estimations par r´ gression et par ratio de totaux ou de
´
´
e
moyennes.
Consid´ rons l’estimation par r´ gression du nombre total de logements vacants (logevac) a l’aide de l’information
e
e
`
auxiliaire nombre de logements, d’apr` s le mod` le :
e
e
logevac

¬¼ · ¬½loge · Ù Ù

´¼ ¾ µ

Sachant que le nombre total de logements est 197314, l’estimateur du total est :
syntaxe suivante r´ alise cette estimation :
e

¬¼ ¢

· ¬½ ¢ ½ ¿½

. La

proc surveyreg data=logsi total=554;
model logevac = loge / Solution;
by Replicate;
Estimate "logevac" Intercept 554 loge 197314;
ods select none;
ods output Estimates = resultat;
run;
ods select all;
Une estimation par ratio du nombre total de logements vacants correspond au mod` le :
e
logevac

¬½ loge · Ù Ù

´¼

¾

loge

µ

Apr` s avoir calcul´ la variable ratiologe = 1/loge, on estime le total par la syntaxe :
e
e
proc surveyreg data=logsi total=554;
model logevac = loge /Noint Solution;
Weight ratiologe;
by Replicate;
Estimate "logevac" loge 197314;
ods select none;
ods output Estimates = resultat;
run;
ods select all;
Des commandes strata et cluster sont egalement disponibles pour d´ crire la structure du plan. En pr´ sence
´
e
e
de poids de sondages in´ gaux et d’un mod` le sur la variance, l’utilisateur doit calculer pr´ alablement la variable
e
e
e
de la commande Weight. Pour l’estimation par r´ gression, SAS retient essentiellement une approche bas ee sur
e
´
un mod` le et non assist´ e par un mod` le (voir les discussions de [5] et [8] sur cette distinction).
e
e
e
4

Yves Aragon, Anne Ruiz-Gazen

4. Estimation de variances
4.1. Principe
SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de r´ gression. Quand l’estimateur
e
n’est pas lin´ aire, cas d’un ratio par exemple, SAS utilise la technique de lin´ arisation a la facon de [9] (voir aussi
e
e
`
¸
[7] pour un expos´ r´ cent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans
e e
stratifi´ s et a plusieurs degr´ s. Pour un plan a plusieurs degr´ s, l’utilisateur doit fournir le produit des poids des
e
`
e
`
e
diff´ rents degr´ s mais ne peut indiquer la structure du plan que pour le premier degr´ . Illustrons cette limitation
e
e
e
sur un plan SI,SI.
4.2. Exemple d’estimation de variance dans un plan a deux degr´ s
e
`
Dans un plan a plusieurs degr´ s, la variance de l’estimateur du total est la somme des variances correspondant aux
`
e
diff´ rents degr´ s (voir [5] p. 137). Consid´ rons en particulier un plan a deux degr´ s SI,SI. L’estimation sans biais
e
e
e
`
e
de la variance du total s’´ crit :
e
var´

ص

·

avec

ÆÁ¾ ½   Á Ëؾ ×
Ò
Á

Á

et

ÆÁ
ÒÁ

×Á

¾
Æ ¾ ½   ËÝ ×
Ò

Attention. (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxi` me) degr´ et le
e
e
e
terme surestime la variance du premier degr´ (voir par exemple [5] p. 137).
Sur l’exemple du plan a deux degr´ s de la section 2.3, deux solutions s’offrent a nous pour estimer la variance de
`
e
`
l’estimateur par les valeurs dilat´ es du nombre total de logements.
e
(1) Suivre les suggestions de SAS c’est-` -dire :
a
– pr´ ciser le plan du premier degr´ par la commande cluster bvq_n;,
e
e
– utiliser les poids produits des deux degr´ s (w12 = w1 * w2),
e
– pr´ ciser la correction de population finie (fpc1 = Á
e
¿¾ ¼ ½ ) par l’option rate=fpc1.
On obtient, , estimateur biais´ de la variance comme on l’a indiqu´ ci-dessus.
e
e

Ø

(2) Calculer l’estimateur sans biais var´ µ en calculant aussi
total dans un plan stratifi´ (strata BVQ_n).
e

. Au facteur

Æ Á ÒÁ pr`s,
e

est la variance d’un

5. Comparaisons empiriques
Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer diff´ rents
`
e
plans de sondage et diff´ rentes m´ thodes d’estimation. Pour chaque plan, on a r´ alis´ 1000 tirages et on donne les
e
e
e e
estimations moyennes du total et les coefficients de variation des estimateurs calcul´ s a partir des variances eme `
piriques. Le nombre total de logements vacants fourni par le recensement est 10768.
5.1. Comparaison de plans d’ echantillonnage
´
Nous avons consid´ r´ les plans suivants :
ee
SI : plan simple de taille

Ò

¼ communes,

STSI taille : plan simple stratifi´ avec affectation proportionnelle a la taille en nombre de communes,
e
`
STSI loge : plan simple stratifi´ avec affectation proportionnelle au nombre de logements,
e
pps : plan avec remise et probabilit´ s proportionnelles au nombre de logements,
e
grappe : plan simple de taille

Ò

BVQ et tirage des 4 grappes de communes associ´ es.
e
Utilisation des proc´ dures SAS dans l’enseignement des sondages
e

5

On a fix´ les tailles d’´ chantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car
e
e
`
`
4 BVQ correspondent en moyenne a 70 communes.
`
Plan
SI
STSI taille
STSI loge
pps
grappe

Estimation total
10668
10776
10745
10779
10758

Coefficient de variation
18.84%
13.35%
6.97%
7.45%
31.96%

Tableau 1

Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifi´ permet d’am´ liorer la pr´ cision tandis
`
e
e
e
qu’un plan en grappes conduit g´ n´ ralement a une perte de pr´ cision. Les meilleurs r´ sultats sont obtenus en
e e
`
e
e
prenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifi´ ou par
´
e
echantillonnage avec probabilit´ proportionnelle a la taille.
´
e
`
5.2. Comparaison des estimateurs par valeurs dilat ees, par ratio et par r´ gression pour un plan SI
e
´
Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’int´ rˆ t de prendre en compte la variable
ee
auxiliaire nombre de logements dans l’estimation.
M´ thode d’estimation
e
par valeurs dilat´ es
e
par
ratio
par r´ gression
e

Estimation total
10668
10854
10828

Coefficient de variation
18.84%
11.25%
11.72%

Tableau 2

0

50

100

150

200

5.3. Comparaison des estimations de variance dans le plan a deux degr´ s
e
`

0.7

0.8

0.9

1.0

Fig. 1. Histogramme du rapport “estimation sugg´ r´ e par SAS/estimation sans biais”.
ee

La figure ci-dessus donne l’histogramme des rapports A/(A+B) d´ finis section 4.2 ; le num´ rateur correspond
e
e
a l’estimation de variance sugg´ r´ e par SAS tandis que le d´ nominateur donne l’estimation sans biais. On observe
`
ee
e
que la grande majorit´ des valeurs sont sup´ rieures a 80%, ce qui justifie pour cet exemple l’utilisation de la
e
e
`
formule simplifi´ e sugg´ r´ e par SAS.
e
ee
6

Yves Aragon, Anne Ruiz-Gazen: Utilisation des proc´ dures SAS dans l’enseignement des sondages
e

6. Conclusion
La proc´ dure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’ex´ cution tr` s
e
e
e
satisfaisants. Les proc´ dures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1])
e
qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avanc´ es significae
tives par rapport aux proc´ dures classiques means, reg et logistic. L’acc` s aux techniques de sondage s’en
e
e
trouve facilit´ , que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel sp´ cifique.
e
e
Notons enfin que SAS propose aussi deux proc´ dures pour le traitement des valeurs manquantes : les proc
e
mi et mianalyze.
References
1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27
Paper 258-27 .
2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician,
No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2.
3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures
and Macro Coding”, SUGI 27 Paper 263-27.
4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS
?”, SUGI 27 Paper 266-27 .
5. S¨ rndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694
a
pages.
6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC.
7. Till´ Y. (2001). Th´ orie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages.
e
e
8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach,
Wiley, New-York, 536 pages.
9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the
American Statistical Association, Vol. 66, pp. 411-414.

Contenu connexe

En vedette

Questionaire results
Questionaire resultsQuestionaire results
Questionaire resultsMeembo
 
PresentacióN Red 2008 Vr
PresentacióN Red 2008 VrPresentacióN Red 2008 Vr
PresentacióN Red 2008 Vrguest2fdc6b
 
Joyeux Anniversaire!!!!
Joyeux Anniversaire!!!! Joyeux Anniversaire!!!!
Joyeux Anniversaire!!!! sandyhoyos_19
 
Ecoecrirepourleweb0214 140213050450-phpapp01
Ecoecrirepourleweb0214 140213050450-phpapp01Ecoecrirepourleweb0214 140213050450-phpapp01
Ecoecrirepourleweb0214 140213050450-phpapp01Nathalie Assoulant
 
Cornudo Es
Cornudo EsCornudo Es
Cornudo EsStrujen
 
cnc journal
cnc journalcnc journal
cnc journalkerneng
 
Newsletter FSBO janvier 2014
Newsletter FSBO janvier 2014Newsletter FSBO janvier 2014
Newsletter FSBO janvier 2014CSBO
 
Ariana Y Brian
Ariana Y BrianAriana Y Brian
Ariana Y Brianadoynan
 
Redynamisation de la production laitière à travers l’innovation dans la condu...
Redynamisation de la production laitière à travers l’innovation dans la condu...Redynamisation de la production laitière à travers l’innovation dans la condu...
Redynamisation de la production laitière à travers l’innovation dans la condu...Fatimata Kone
 
Notes coefficient
Notes coefficientNotes coefficient
Notes coefficientaelkhaldi
 
Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure
Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure
Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure Flavie0506
 
Alvarado De La Cruz
Alvarado De La CruzAlvarado De La Cruz
Alvarado De La Cruzjohankdick
 
Réseaux de femmes transformatrices de l'arachide en milieu rural
Réseaux de femmes transformatrices de l'arachide en milieu ruralRéseaux de femmes transformatrices de l'arachide en milieu rural
Réseaux de femmes transformatrices de l'arachide en milieu ruralFatimata Kone
 

En vedette (20)

Questionaire results
Questionaire resultsQuestionaire results
Questionaire results
 
PresentacióN Red 2008 Vr
PresentacióN Red 2008 VrPresentacióN Red 2008 Vr
PresentacióN Red 2008 Vr
 
test 1
test 1test 1
test 1
 
Joyeux Anniversaire!!!!
Joyeux Anniversaire!!!! Joyeux Anniversaire!!!!
Joyeux Anniversaire!!!!
 
AmigOos
AmigOosAmigOos
AmigOos
 
Ecoecrirepourleweb0214 140213050450-phpapp01
Ecoecrirepourleweb0214 140213050450-phpapp01Ecoecrirepourleweb0214 140213050450-phpapp01
Ecoecrirepourleweb0214 140213050450-phpapp01
 
Cornudo Es
Cornudo EsCornudo Es
Cornudo Es
 
cnc journal
cnc journalcnc journal
cnc journal
 
Newsletter FSBO janvier 2014
Newsletter FSBO janvier 2014Newsletter FSBO janvier 2014
Newsletter FSBO janvier 2014
 
Premiers pas
Premiers pasPremiers pas
Premiers pas
 
Amor odio
Amor odioAmor odio
Amor odio
 
Ariana Y Brian
Ariana Y BrianAriana Y Brian
Ariana Y Brian
 
Guía de aprendizaje 01 (10 copias)
Guía de aprendizaje 01 (10 copias)Guía de aprendizaje 01 (10 copias)
Guía de aprendizaje 01 (10 copias)
 
Redynamisation de la production laitière à travers l’innovation dans la condu...
Redynamisation de la production laitière à travers l’innovation dans la condu...Redynamisation de la production laitière à travers l’innovation dans la condu...
Redynamisation de la production laitière à travers l’innovation dans la condu...
 
Notes coefficient
Notes coefficientNotes coefficient
Notes coefficient
 
Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure
Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure
Les jeux vidéos nouvelles générations : le retour du jeu d'action / aventure
 
Cap a on s'encamina Espanya?
Cap a on s'encamina Espanya?Cap a on s'encamina Espanya?
Cap a on s'encamina Espanya?
 
Best cars
Best carsBest cars
Best cars
 
Alvarado De La Cruz
Alvarado De La CruzAlvarado De La Cruz
Alvarado De La Cruz
 
Réseaux de femmes transformatrices de l'arachide en milieu rural
Réseaux de femmes transformatrices de l'arachide en milieu ruralRéseaux de femmes transformatrices de l'arachide en milieu rural
Réseaux de femmes transformatrices de l'arachide en milieu rural
 

Similaire à Aragongazen

Efficacité du processus de mesure (Calcul R$R).pdf
Efficacité du processus de mesure (Calcul R$R).pdfEfficacité du processus de mesure (Calcul R$R).pdf
Efficacité du processus de mesure (Calcul R$R).pdfAyaEss
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdfOuailChoukhairi
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et RAB IR
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multmohamedchaouche
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Lecture 3: Visualization and Programming
Lecture 3: Visualization and ProgrammingLecture 3: Visualization and Programming
Lecture 3: Visualization and ProgrammingSmee Kaem Chann
 
Chapitre3: Les sondages stratifiés
Chapitre3: Les sondages stratifiésChapitre3: Les sondages stratifiés
Chapitre3: Les sondages stratifiésMahamadou Haro
 
Quantification histograme
Quantification histogrameQuantification histograme
Quantification histogrameGata Hipogata
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unmohamedchaouche
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiquesvauzelle
 
Sujet1 si-1-mines-mp-2007
Sujet1 si-1-mines-mp-2007Sujet1 si-1-mines-mp-2007
Sujet1 si-1-mines-mp-2007Achraf Ourti
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 

Similaire à Aragongazen (20)

Efficacité du processus de mesure (Calcul R$R).pdf
Efficacité du processus de mesure (Calcul R$R).pdfEfficacité du processus de mesure (Calcul R$R).pdf
Efficacité du processus de mesure (Calcul R$R).pdf
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Rapport MOGPL
Rapport MOGPLRapport MOGPL
Rapport MOGPL
 
Tp1 matlab
Tp1 matlab Tp1 matlab
Tp1 matlab
 
Lecture 3: Visualization and Programming
Lecture 3: Visualization and ProgrammingLecture 3: Visualization and Programming
Lecture 3: Visualization and Programming
 
Matlab by Prof.Keang Sè Pouv
Matlab by Prof.Keang Sè PouvMatlab by Prof.Keang Sè Pouv
Matlab by Prof.Keang Sè Pouv
 
Chapitre3: Les sondages stratifiés
Chapitre3: Les sondages stratifiésChapitre3: Les sondages stratifiés
Chapitre3: Les sondages stratifiés
 
Quantification histograme
Quantification histogrameQuantification histograme
Quantification histograme
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiques
 
Sujet1 si-1-mines-mp-2007
Sujet1 si-1-mines-mp-2007Sujet1 si-1-mines-mp-2007
Sujet1 si-1-mines-mp-2007
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 

Aragongazen

  • 1. Utilisation des proc´ dures SAS dans l’enseignement des sondages e Yves Aragon ¡ Anne Ruiz-Gazen e-mail: aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois proc´ dures pour les questions d’estimation en sondages. Il s’agit des e proc surveyselect pour la s´ lection d’´ chantillons, surveymeans pour l’estimation de moyennes, totaux e e et ratios et surveyreg pour l’estimation des coefficients d’une r´ gression. Les proc´ dure SAS sont relativement e e faciles d’utilisation. Elles permettent de compl´ ter des exercices de travaux dirig´ s et, si on dispose d’une popue e lation exhaustive, d’exp´ rimenter des propri´ t´ s th´ oriques par simulation. La proc surveyselect offre de e ee e nombreuses possibilit´ s de tirages al´ atoires tandis que surveymeans et surveyreg tiennent compte de plans e e de sondages complexes dans les estimations. Nous pr´ sentons ces diff´ rentes proc´ dures et illustrons leur usage sur e e e la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons de donn´ es issues du recensement de 1999. Nous nous int´ ressons a l’estimation du nombre total de logements e e ` vacants. L’ensemble des communes est partitionn´ en 32 Bassins de vie quotidienne (BVQ). La variable nombre e de logements est consid´ r´ e comme une information auxiliaire. Les communes sont r´ parties en 4 strates d’apr` s ee e e la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ dagogique, nous echantillonnons e ´ suivant diff´ rentes m´ thodes. Ce choix de donn´ es est inspir´ de l’exemple des municipalit´ s de Su` de de [5]. e e e e e e 2. Tirage d’´ chantillons e La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ chantillons, notamment des tirages e avec probabilit´ s proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synth´ tique et e ` e compl` te des possibilit´ s). e e 2.1. Exemple de plan a un degr´ e ` Les donn´ es sont dans la table COMpop et les strates sont d´ finies par la variable stratloge. Consid´ rons la e e e s´ lection d’´ chantillons d´ crite par la syntaxe suivante : e e e proc surveyselect data=COMpop method=srs n=(5 10 21 34) seed=57926 out=logestsi rep=1000; strata stratloge; run; Le plan de sondage est un plan stratifi´ simple. La m´ thode de tirage est donn´ e par srs (simple random e e e sampling) et les tailles d’´ chantillon dans chaque strate sont donn´ es par n. La graine du g´ n´ rateur de nombres e e e e al´ atoires a et´ fix´ e (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pour e ´e e ´ faire des comparaisons empiriques de m´ thodes (voir la section 5). e SAS fournit en sortie les echantillons et les probabilit´ s d’inclusion du premier ordre, les poids (SamplingWeight), ´ e inverses des probabilit´ s d’inclusion, utilis´ s pour l’´ tape d’estimation et, pour certains plans, les probabilit´ s e e e e d’inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ de Toulouse 1, 21 all´ e de Brienne, 31000 e e Toulouse, France et Laboratoire de Statistique et Probabilit´ s, UMR CNRS C5583, Universit´ Paul Sabatier, Toulouse. e e
  • 2. 2 Yves Aragon, Anne Ruiz-Gazen 2.2. Exemple de plan a un degr´ avec remise et probabilit´ s proportionnelles a la taille e e ` ` On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com´ munes. proc surveyselect data=COMpop method=pps_wr n=70 seed=98556 out=logepps rep=1000 outhits ; size loge; run; Dans un plan avec remise, SAS cr´ e une variable (NumberHits) indiquant le nombre d’apparitions de chaque e observation. Par l’option outhits, chaque unit´ figure dans le fichier de sortie autant de fois qu’elle a et´ tir´ e. e ´e e Il est pr´ f´ rable d’utiliser cette option en vue des etapes d’estimation suivantes. ee ´ 2.3. Exemple de plan a deux degr´ s e ` Æ ¿¾ BVQ. On veut tirer un echantillon de communes ´ On dispose de la table BVQpop des identifiants des Á pr´ sentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degr´ s. e ` e ¯ Degr´ 1. On tire un echantillon × Á de ÒÁ ´ e ´ µ BVQ suivant un plan SI, taux de sondage : Á ÒÁ ÆÁ . proc surveyselect data= BVQpop sampsize= 6 seed= 25123 stats out=bvqsel rep=500; run; La table en sortie contient notamment les variables replicate, num´ ro d’´ chantillon, et BVQ_N, identifiant des e e BVQ tir´ s dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQ e ´ ´ echantillonn´ s : comsel1 o` les poids du sondage de ce premier degr´ sont renomm´ s w1. ´ e u e e ¯ Degr´ 2. Dans chaque BVQ ¾ × Á , de Æ communes, on tire un echantillon × de Ò e ´ Ò Æ. plan SI, taux de sondage : ´ ¿µ communes suivant un proc surveyselect data= comsel1 sampsize= 3 seed= 55268 out=comsel2 stats; strata BVQ_N; by replicate; run; On renomme w2 les poids de sondage de ce degr´ . e Dans le cas d’un plan a deux degr´ s, il est important que l’utilisateur stocke par une etape data le produit des ` e ´ poids des deux degr´ s w12 = w1 * w2 en vue de l’´ tape d’estimation. e e 3. Estimation de totaux, moyennes et ratios Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios, et coefficients de r´ gressions lin´ aires, en tenant compte du plan d’´ chantillonnage. Les poids d’observation sont e e e pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure du plan de sondage est donn´ e par les commandes strata et cluster. Une moyenne est consid´ r´ e comme e ee un ratio et elle est estim´ e a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille de e ` l’´ chantillon. e 3.1. Exemple d’utilisation de la proc surveymeans On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de ´ logements vacants (variable logevac) stock´ es dans le fichier resultat par la syntaxe suivante : e proc surveyselect data=COMpop method=srs n=70 stats seed=47279 out=logsi rep=1000; run;
  • 3. Utilisation des proc´ dures SAS dans l’enseignement des sondages e 3 proc surveymeans data=logsi total=554 sum; var logevac; by Replicate; weight Samplingweight; ods select none; ods output Statistics = resultat; run; ods select all; C’est l’Output Delivery System (ODS) qui g` re les sorties des proc´ dures surveymeans et surveyreg. La e e commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la commande ods select none; supprime toute impression dans la fenˆ tre output. e 3.2. Exemples d’utilisation de la proc surveyreg Cette proc´ dure r´ alise essentiellement l’estimation des coefficients d’une r´ gression a l’aide de donn´ es obtenues e e e ` e par echantillonnage. Mais elle permet egalement des estimations par r´ gression et par ratio de totaux ou de ´ ´ e moyennes. Consid´ rons l’estimation par r´ gression du nombre total de logements vacants (logevac) a l’aide de l’information e e ` auxiliaire nombre de logements, d’apr` s le mod` le : e e logevac ¬¼ · ¬½loge · Ù Ù ´¼ ¾ µ Sachant que le nombre total de logements est 197314, l’estimateur du total est : syntaxe suivante r´ alise cette estimation : e ¬¼ ¢ · ¬½ ¢ ½ ¿½ . La proc surveyreg data=logsi total=554; model logevac = loge / Solution; by Replicate; Estimate "logevac" Intercept 554 loge 197314; ods select none; ods output Estimates = resultat; run; ods select all; Une estimation par ratio du nombre total de logements vacants correspond au mod` le : e logevac ¬½ loge · Ù Ù ´¼ ¾ loge µ Apr` s avoir calcul´ la variable ratiologe = 1/loge, on estime le total par la syntaxe : e e proc surveyreg data=logsi total=554; model logevac = loge /Noint Solution; Weight ratiologe; by Replicate; Estimate "logevac" loge 197314; ods select none; ods output Estimates = resultat; run; ods select all; Des commandes strata et cluster sont egalement disponibles pour d´ crire la structure du plan. En pr´ sence ´ e e de poids de sondages in´ gaux et d’un mod` le sur la variance, l’utilisateur doit calculer pr´ alablement la variable e e e de la commande Weight. Pour l’estimation par r´ gression, SAS retient essentiellement une approche bas ee sur e ´ un mod` le et non assist´ e par un mod` le (voir les discussions de [5] et [8] sur cette distinction). e e e
  • 4. 4 Yves Aragon, Anne Ruiz-Gazen 4. Estimation de variances 4.1. Principe SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de r´ gression. Quand l’estimateur e n’est pas lin´ aire, cas d’un ratio par exemple, SAS utilise la technique de lin´ arisation a la facon de [9] (voir aussi e e ` ¸ [7] pour un expos´ r´ cent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans e e stratifi´ s et a plusieurs degr´ s. Pour un plan a plusieurs degr´ s, l’utilisateur doit fournir le produit des poids des e ` e ` e diff´ rents degr´ s mais ne peut indiquer la structure du plan que pour le premier degr´ . Illustrons cette limitation e e e sur un plan SI,SI. 4.2. Exemple d’estimation de variance dans un plan a deux degr´ s e ` Dans un plan a plusieurs degr´ s, la variance de l’estimateur du total est la somme des variances correspondant aux ` e diff´ rents degr´ s (voir [5] p. 137). Consid´ rons en particulier un plan a deux degr´ s SI,SI. L’estimation sans biais e e e ` e de la variance du total s’´ crit : e var´ ص · avec ÆÁ¾ ½   Á Ëؾ × Ò Á Á et ÆÁ ÒÁ ×Á ¾ Æ ¾ ½   ËÝ × Ò Attention. (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxi` me) degr´ et le e e e terme surestime la variance du premier degr´ (voir par exemple [5] p. 137). Sur l’exemple du plan a deux degr´ s de la section 2.3, deux solutions s’offrent a nous pour estimer la variance de ` e ` l’estimateur par les valeurs dilat´ es du nombre total de logements. e (1) Suivre les suggestions de SAS c’est-` -dire : a – pr´ ciser le plan du premier degr´ par la commande cluster bvq_n;, e e – utiliser les poids produits des deux degr´ s (w12 = w1 * w2), e – pr´ ciser la correction de population finie (fpc1 = Á e ¿¾ ¼ ½ ) par l’option rate=fpc1. On obtient, , estimateur biais´ de la variance comme on l’a indiqu´ ci-dessus. e e Ø (2) Calculer l’estimateur sans biais var´ µ en calculant aussi total dans un plan stratifi´ (strata BVQ_n). e . Au facteur Æ Á ÒÁ pr`s, e est la variance d’un 5. Comparaisons empiriques Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer diff´ rents ` e plans de sondage et diff´ rentes m´ thodes d’estimation. Pour chaque plan, on a r´ alis´ 1000 tirages et on donne les e e e e estimations moyennes du total et les coefficients de variation des estimateurs calcul´ s a partir des variances eme ` piriques. Le nombre total de logements vacants fourni par le recensement est 10768. 5.1. Comparaison de plans d’ echantillonnage ´ Nous avons consid´ r´ les plans suivants : ee SI : plan simple de taille Ò ¼ communes, STSI taille : plan simple stratifi´ avec affectation proportionnelle a la taille en nombre de communes, e ` STSI loge : plan simple stratifi´ avec affectation proportionnelle au nombre de logements, e pps : plan avec remise et probabilit´ s proportionnelles au nombre de logements, e grappe : plan simple de taille Ò BVQ et tirage des 4 grappes de communes associ´ es. e
  • 5. Utilisation des proc´ dures SAS dans l’enseignement des sondages e 5 On a fix´ les tailles d’´ chantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car e e ` ` 4 BVQ correspondent en moyenne a 70 communes. ` Plan SI STSI taille STSI loge pps grappe Estimation total 10668 10776 10745 10779 10758 Coefficient de variation 18.84% 13.35% 6.97% 7.45% 31.96% Tableau 1 Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifi´ permet d’am´ liorer la pr´ cision tandis ` e e e qu’un plan en grappes conduit g´ n´ ralement a une perte de pr´ cision. Les meilleurs r´ sultats sont obtenus en e e ` e e prenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifi´ ou par ´ e echantillonnage avec probabilit´ proportionnelle a la taille. ´ e ` 5.2. Comparaison des estimateurs par valeurs dilat ees, par ratio et par r´ gression pour un plan SI e ´ Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’int´ rˆ t de prendre en compte la variable ee auxiliaire nombre de logements dans l’estimation. M´ thode d’estimation e par valeurs dilat´ es e par ratio par r´ gression e Estimation total 10668 10854 10828 Coefficient de variation 18.84% 11.25% 11.72% Tableau 2 0 50 100 150 200 5.3. Comparaison des estimations de variance dans le plan a deux degr´ s e ` 0.7 0.8 0.9 1.0 Fig. 1. Histogramme du rapport “estimation sugg´ r´ e par SAS/estimation sans biais”. ee La figure ci-dessus donne l’histogramme des rapports A/(A+B) d´ finis section 4.2 ; le num´ rateur correspond e e a l’estimation de variance sugg´ r´ e par SAS tandis que le d´ nominateur donne l’estimation sans biais. On observe ` ee e que la grande majorit´ des valeurs sont sup´ rieures a 80%, ce qui justifie pour cet exemple l’utilisation de la e e ` formule simplifi´ e sugg´ r´ e par SAS. e ee
  • 6. 6 Yves Aragon, Anne Ruiz-Gazen: Utilisation des proc´ dures SAS dans l’enseignement des sondages e 6. Conclusion La proc´ dure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’ex´ cution tr` s e e e satisfaisants. Les proc´ dures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1]) e qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avanc´ es significae tives par rapport aux proc´ dures classiques means, reg et logistic. L’acc` s aux techniques de sondage s’en e e trouve facilit´ , que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel sp´ cifique. e e Notons enfin que SAS propose aussi deux proc´ dures pour le traitement des valeurs manquantes : les proc e mi et mianalyze. References 1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27 Paper 258-27 . 2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician, No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2. 3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures and Macro Coding”, SUGI 27 Paper 263-27. 4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS ?”, SUGI 27 Paper 266-27 . 5. S¨ rndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694 a pages. 6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC. 7. Till´ Y. (2001). Th´ orie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages. e e 8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach, Wiley, New-York, 536 pages. 9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the American Statistical Association, Vol. 66, pp. 411-414.