Utilisation des proc´ dures SAS dans l’enseignement des sondages
e
Yves Aragon ¡ Anne Ruiz-Gazen
e-mail: aragon@cict.fr, ruiz@cict.fr

1. Introduction
Depuis la version 8, SAS [6] propose trois proc´ dures pour les questions d’estimation en sondages. Il s’agit des
e
proc surveyselect pour la s´ lection d’´ chantillons, surveymeans pour l’estimation de moyennes, totaux
e
e
et ratios et surveyreg pour l’estimation des coefficients d’une r´ gression. Les proc´ dure SAS sont relativement
e
e
faciles d’utilisation. Elles permettent de compl´ ter des exercices de travaux dirig´ s et, si on dispose d’une popue
e
lation exhaustive, d’exp´ rimenter des propri´ t´ s th´ oriques par simulation. La proc surveyselect offre de
e
ee e
nombreuses possibilit´ s de tirages al´ atoires tandis que surveymeans et surveyreg tiennent compte de plans
e
e
de sondages complexes dans les estimations. Nous pr´ sentons ces diff´ rentes proc´ dures et illustrons leur usage sur
e
e
e
la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons
de donn´ es issues du recensement de 1999. Nous nous int´ ressons a l’estimation du nombre total de logements
e
e
`
vacants. L’ensemble des communes est partitionn´ en 32 Bassins de vie quotidienne (BVQ). La variable nombre
e
de logements est consid´ r´ e comme une information auxiliaire. Les communes sont r´ parties en 4 strates d’apr` s
ee
e
e
la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ dagogique, nous echantillonnons
e
´
suivant diff´ rentes m´ thodes. Ce choix de donn´ es est inspir´ de l’exemple des municipalit´ s de Su` de de [5].
e
e
e
e
e
e
2. Tirage d’´ chantillons
e
La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ chantillons, notamment des tirages
e
avec probabilit´ s proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synth´ tique et
e
`
e
compl` te des possibilit´ s).
e
e
2.1. Exemple de plan a un degr´
e
`
Les donn´ es sont dans la table COMpop et les strates sont d´ finies par la variable stratloge. Consid´ rons la
e
e
e
s´ lection d’´ chantillons d´ crite par la syntaxe suivante :
e
e
e
proc surveyselect data=COMpop method=srs
n=(5 10 21 34)
seed=57926 out=logestsi rep=1000;
strata stratloge;
run;
Le plan de sondage est un plan stratifi´ simple. La m´ thode de tirage est donn´ e par srs (simple random
e
e
e
sampling) et les tailles d’´ chantillon dans chaque strate sont donn´ es par n. La graine du g´ n´ rateur de nombres
e
e
e e
al´ atoires a et´ fix´ e (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pour
e
´e e
´
faire des comparaisons empiriques de m´ thodes (voir la section 5).
e
SAS fournit en sortie les echantillons et les probabilit´ s d’inclusion du premier ordre, les poids (SamplingWeight),
´
e
inverses des probabilit´ s d’inclusion, utilis´ s pour l’´ tape d’estimation et, pour certains plans, les probabilit´ s
e
e
e
e
d’inclusion du second ordre (option JTPROBS).
Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ de Toulouse 1, 21 all´ e de Brienne, 31000
e
e
Toulouse, France et Laboratoire de Statistique et Probabilit´ s, UMR CNRS C5583, Universit´ Paul Sabatier, Toulouse.
e
e
2

Yves Aragon, Anne Ruiz-Gazen

2.2. Exemple de plan a un degr´ avec remise et probabilit´ s proportionnelles a la taille
e
e
`
`
On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com´
munes.
proc surveyselect data=COMpop method=pps_wr n=70
seed=98556 out=logepps rep=1000 outhits ;
size loge;
run;
Dans un plan avec remise, SAS cr´ e une variable (NumberHits) indiquant le nombre d’apparitions de chaque
e
observation. Par l’option outhits, chaque unit´ figure dans le fichier de sortie autant de fois qu’elle a et´ tir´ e.
e
´e e
Il est pr´ f´ rable d’utiliser cette option en vue des etapes d’estimation suivantes.
ee
´
2.3. Exemple de plan a deux degr´ s
e
`

Æ

¿¾ BVQ. On veut tirer un echantillon de communes
´
On dispose de la table BVQpop des identifiants des Á
pr´ sentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degr´ s.
e
`
e
¯ Degr´ 1. On tire un echantillon × Á de ÒÁ ´
e
´

µ BVQ suivant un plan SI, taux de sondage :

Á

ÒÁ ÆÁ .

proc surveyselect data= BVQpop sampsize= 6 seed= 25123
stats out=bvqsel rep=500;
run;
La table en sortie contient notamment les variables replicate, num´ ro d’´ chantillon, et BVQ_N, identifiant des
e
e
BVQ tir´ s dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQ
e
´
´
echantillonn´ s : comsel1 o` les poids du sondage de ce premier degr´ sont renomm´ s w1.
´
e
u
e
e

¯ Degr´ 2. Dans chaque BVQ ¾ × Á , de Æ communes, on tire un echantillon × de Ò
e
´
Ò Æ.
plan SI, taux de sondage :

´ ¿µ communes suivant un

proc surveyselect data= comsel1 sampsize= 3
seed= 55268 out=comsel2 stats;
strata BVQ_N;
by replicate;
run;
On renomme w2 les poids de sondage de ce degr´ .
e
Dans le cas d’un plan a deux degr´ s, il est important que l’utilisateur stocke par une etape data le produit des
`
e
´
poids des deux degr´ s w12 = w1 * w2 en vue de l’´ tape d’estimation.
e
e
3. Estimation de totaux, moyennes et ratios
Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios,
et coefficients de r´ gressions lin´ aires, en tenant compte du plan d’´ chantillonnage. Les poids d’observation sont
e
e
e
pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure
du plan de sondage est donn´ e par les commandes strata et cluster. Une moyenne est consid´ r´ e comme
e
ee
un ratio et elle est estim´ e a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille de
e `
l’´ chantillon.
e
3.1. Exemple d’utilisation de la proc surveymeans
On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de
´
logements vacants (variable logevac) stock´ es dans le fichier resultat par la syntaxe suivante :
e
proc surveyselect data=COMpop method=srs n=70 stats
seed=47279 out=logsi rep=1000;
run;
Utilisation des proc´ dures SAS dans l’enseignement des sondages
e

3

proc surveymeans data=logsi total=554 sum;
var logevac;
by Replicate;
weight Samplingweight;
ods select none;
ods output Statistics = resultat;
run;
ods select all;
C’est l’Output Delivery System (ODS) qui g` re les sorties des proc´ dures surveymeans et surveyreg. La
e
e
commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la
commande ods select none; supprime toute impression dans la fenˆ tre output.
e
3.2. Exemples d’utilisation de la proc surveyreg
Cette proc´ dure r´ alise essentiellement l’estimation des coefficients d’une r´ gression a l’aide de donn´ es obtenues
e
e
e
`
e
par echantillonnage. Mais elle permet egalement des estimations par r´ gression et par ratio de totaux ou de
´
´
e
moyennes.
Consid´ rons l’estimation par r´ gression du nombre total de logements vacants (logevac) a l’aide de l’information
e
e
`
auxiliaire nombre de logements, d’apr` s le mod` le :
e
e
logevac

¬¼ · ¬½loge · Ù Ù

´¼ ¾ µ

Sachant que le nombre total de logements est 197314, l’estimateur du total est :
syntaxe suivante r´ alise cette estimation :
e

¬¼ ¢

· ¬½ ¢ ½ ¿½

. La

proc surveyreg data=logsi total=554;
model logevac = loge / Solution;
by Replicate;
Estimate "logevac" Intercept 554 loge 197314;
ods select none;
ods output Estimates = resultat;
run;
ods select all;
Une estimation par ratio du nombre total de logements vacants correspond au mod` le :
e
logevac

¬½ loge · Ù Ù

´¼

¾

loge

µ

Apr` s avoir calcul´ la variable ratiologe = 1/loge, on estime le total par la syntaxe :
e
e
proc surveyreg data=logsi total=554;
model logevac = loge /Noint Solution;
Weight ratiologe;
by Replicate;
Estimate "logevac" loge 197314;
ods select none;
ods output Estimates = resultat;
run;
ods select all;
Des commandes strata et cluster sont egalement disponibles pour d´ crire la structure du plan. En pr´ sence
´
e
e
de poids de sondages in´ gaux et d’un mod` le sur la variance, l’utilisateur doit calculer pr´ alablement la variable
e
e
e
de la commande Weight. Pour l’estimation par r´ gression, SAS retient essentiellement une approche bas ee sur
e
´
un mod` le et non assist´ e par un mod` le (voir les discussions de [5] et [8] sur cette distinction).
e
e
e
4

Yves Aragon, Anne Ruiz-Gazen

4. Estimation de variances
4.1. Principe
SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de r´ gression. Quand l’estimateur
e
n’est pas lin´ aire, cas d’un ratio par exemple, SAS utilise la technique de lin´ arisation a la facon de [9] (voir aussi
e
e
`
¸
[7] pour un expos´ r´ cent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans
e e
stratifi´ s et a plusieurs degr´ s. Pour un plan a plusieurs degr´ s, l’utilisateur doit fournir le produit des poids des
e
`
e
`
e
diff´ rents degr´ s mais ne peut indiquer la structure du plan que pour le premier degr´ . Illustrons cette limitation
e
e
e
sur un plan SI,SI.
4.2. Exemple d’estimation de variance dans un plan a deux degr´ s
e
`
Dans un plan a plusieurs degr´ s, la variance de l’estimateur du total est la somme des variances correspondant aux
`
e
diff´ rents degr´ s (voir [5] p. 137). Consid´ rons en particulier un plan a deux degr´ s SI,SI. L’estimation sans biais
e
e
e
`
e
de la variance du total s’´ crit :
e
var´

ص

·

avec

ÆÁ¾ ½   Á ËØ¾ ×
Ò
Á

Á

et

ÆÁ
ÒÁ

×Á

¾
Æ ¾ ½   ËÝ ×
Ò

Attention. (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxi` me) degr´ et le
e
e
e
terme surestime la variance du premier degr´ (voir par exemple [5] p. 137).
Sur l’exemple du plan a deux degr´ s de la section 2.3, deux solutions s’offrent a nous pour estimer la variance de
`
e
`
l’estimateur par les valeurs dilat´ es du nombre total de logements.
e
(1) Suivre les suggestions de SAS c’est-` -dire :
a
– pr´ ciser le plan du premier degr´ par la commande cluster bvq_n;,
e
e
– utiliser les poids produits des deux degr´ s (w12 = w1 * w2),
e
– pr´ ciser la correction de population finie (fpc1 = Á
e
¿¾ ¼ ½ ) par l’option rate=fpc1.
On obtient, , estimateur biais´ de la variance comme on l’a indiqu´ ci-dessus.
e
e

Ø

(2) Calculer l’estimateur sans biais var´ µ en calculant aussi
total dans un plan stratifi´ (strata BVQ_n).
e

. Au facteur

Æ Á ÒÁ pr`s,
e

est la variance d’un

5. Comparaisons empiriques
Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer diff´ rents
`
e
plans de sondage et diff´ rentes m´ thodes d’estimation. Pour chaque plan, on a r´ alis´ 1000 tirages et on donne les
e
e
e e
estimations moyennes du total et les coefficients de variation des estimateurs calcul´ s a partir des variances eme `
piriques. Le nombre total de logements vacants fourni par le recensement est 10768.
5.1. Comparaison de plans d’ echantillonnage
´
Nous avons consid´ r´ les plans suivants :
ee
SI : plan simple de taille

Ò

¼ communes,

STSI taille : plan simple stratifi´ avec affectation proportionnelle a la taille en nombre de communes,
e
`
STSI loge : plan simple stratifi´ avec affectation proportionnelle au nombre de logements,
e
pps : plan avec remise et probabilit´ s proportionnelles au nombre de logements,
e
grappe : plan simple de taille

Ò

BVQ et tirage des 4 grappes de communes associ´ es.
e
Utilisation des proc´ dures SAS dans l’enseignement des sondages
e

5

On a fix´ les tailles d’´ chantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car
e
e
`
`
4 BVQ correspondent en moyenne a 70 communes.
`
Plan
SI
STSI taille
STSI loge
pps
grappe

Estimation total
10668
10776
10745
10779
10758

Coefficient de variation
18.84%
13.35%
6.97%
7.45%
31.96%

Tableau 1

Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifi´ permet d’am´ liorer la pr´ cision tandis
`
e
e
e
qu’un plan en grappes conduit g´ n´ ralement a une perte de pr´ cision. Les meilleurs r´ sultats sont obtenus en
e e
`
e
e
prenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifi´ ou par
´
e
echantillonnage avec probabilit´ proportionnelle a la taille.
´
e
`
5.2. Comparaison des estimateurs par valeurs dilat ees, par ratio et par r´ gression pour un plan SI
e
´
Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’int´ rˆ t de prendre en compte la variable
ee
auxiliaire nombre de logements dans l’estimation.
M´ thode d’estimation
e
par valeurs dilat´ es
e
par
ratio
par r´ gression
e

Estimation total
10668
10854
10828

Coefficient de variation
18.84%
11.25%
11.72%

Tableau 2

0

50

100

150

200

5.3. Comparaison des estimations de variance dans le plan a deux degr´ s
e
`

0.7

0.8

0.9

1.0

Fig. 1. Histogramme du rapport “estimation sugg´ r´ e par SAS/estimation sans biais”.
ee

La figure ci-dessus donne l’histogramme des rapports A/(A+B) d´ finis section 4.2 ; le num´ rateur correspond
e
e
a l’estimation de variance sugg´ r´ e par SAS tandis que le d´ nominateur donne l’estimation sans biais. On observe
`
ee
e
que la grande majorit´ des valeurs sont sup´ rieures a 80%, ce qui justifie pour cet exemple l’utilisation de la
e
e
`
formule simplifi´ e sugg´ r´ e par SAS.
e
ee
6

Yves Aragon, Anne Ruiz-Gazen: Utilisation des proc´ dures SAS dans l’enseignement des sondages
e

6. Conclusion
La proc´ dure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’ex´ cution tr` s
e
e
e
satisfaisants. Les proc´ dures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1])
e
qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avanc´ es significae
tives par rapport aux proc´ dures classiques means, reg et logistic. L’acc` s aux techniques de sondage s’en
e
e
trouve facilit´ , que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel sp´ cifique.
e
e
Notons enfin que SAS propose aussi deux proc´ dures pour le traitement des valeurs manquantes : les proc
e
mi et mianalyze.
References
1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27
Paper 258-27 .
2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician,
No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2.
3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures
and Macro Coding”, SUGI 27 Paper 263-27.
4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS
?”, SUGI 27 Paper 266-27 .
5. S¨ rndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694
a
pages.
6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC.
7. Till´ Y. (2001). Th´ orie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages.
e
e
8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach,
Wiley, New-York, 536 pages.
9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the
American Statistical Association, Vol. 66, pp. 411-414.

Aragongazen

  • 1.
    Utilisation des proc´dures SAS dans l’enseignement des sondages e Yves Aragon ¡ Anne Ruiz-Gazen e-mail: aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois proc´ dures pour les questions d’estimation en sondages. Il s’agit des e proc surveyselect pour la s´ lection d’´ chantillons, surveymeans pour l’estimation de moyennes, totaux e e et ratios et surveyreg pour l’estimation des coefficients d’une r´ gression. Les proc´ dure SAS sont relativement e e faciles d’utilisation. Elles permettent de compl´ ter des exercices de travaux dirig´ s et, si on dispose d’une popue e lation exhaustive, d’exp´ rimenter des propri´ t´ s th´ oriques par simulation. La proc surveyselect offre de e ee e nombreuses possibilit´ s de tirages al´ atoires tandis que surveymeans et surveyreg tiennent compte de plans e e de sondages complexes dans les estimations. Nous pr´ sentons ces diff´ rentes proc´ dures et illustrons leur usage sur e e e la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons de donn´ es issues du recensement de 1999. Nous nous int´ ressons a l’estimation du nombre total de logements e e ` vacants. L’ensemble des communes est partitionn´ en 32 Bassins de vie quotidienne (BVQ). La variable nombre e de logements est consid´ r´ e comme une information auxiliaire. Les communes sont r´ parties en 4 strates d’apr` s ee e e la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ dagogique, nous echantillonnons e ´ suivant diff´ rentes m´ thodes. Ce choix de donn´ es est inspir´ de l’exemple des municipalit´ s de Su` de de [5]. e e e e e e 2. Tirage d’´ chantillons e La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ chantillons, notamment des tirages e avec probabilit´ s proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synth´ tique et e ` e compl` te des possibilit´ s). e e 2.1. Exemple de plan a un degr´ e ` Les donn´ es sont dans la table COMpop et les strates sont d´ finies par la variable stratloge. Consid´ rons la e e e s´ lection d’´ chantillons d´ crite par la syntaxe suivante : e e e proc surveyselect data=COMpop method=srs n=(5 10 21 34) seed=57926 out=logestsi rep=1000; strata stratloge; run; Le plan de sondage est un plan stratifi´ simple. La m´ thode de tirage est donn´ e par srs (simple random e e e sampling) et les tailles d’´ chantillon dans chaque strate sont donn´ es par n. La graine du g´ n´ rateur de nombres e e e e al´ atoires a et´ fix´ e (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pour e ´e e ´ faire des comparaisons empiriques de m´ thodes (voir la section 5). e SAS fournit en sortie les echantillons et les probabilit´ s d’inclusion du premier ordre, les poids (SamplingWeight), ´ e inverses des probabilit´ s d’inclusion, utilis´ s pour l’´ tape d’estimation et, pour certains plans, les probabilit´ s e e e e d’inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ de Toulouse 1, 21 all´ e de Brienne, 31000 e e Toulouse, France et Laboratoire de Statistique et Probabilit´ s, UMR CNRS C5583, Universit´ Paul Sabatier, Toulouse. e e
  • 2.
    2 Yves Aragon, AnneRuiz-Gazen 2.2. Exemple de plan a un degr´ avec remise et probabilit´ s proportionnelles a la taille e e ` ` On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com´ munes. proc surveyselect data=COMpop method=pps_wr n=70 seed=98556 out=logepps rep=1000 outhits ; size loge; run; Dans un plan avec remise, SAS cr´ e une variable (NumberHits) indiquant le nombre d’apparitions de chaque e observation. Par l’option outhits, chaque unit´ figure dans le fichier de sortie autant de fois qu’elle a et´ tir´ e. e ´e e Il est pr´ f´ rable d’utiliser cette option en vue des etapes d’estimation suivantes. ee ´ 2.3. Exemple de plan a deux degr´ s e ` Æ ¿¾ BVQ. On veut tirer un echantillon de communes ´ On dispose de la table BVQpop des identifiants des Á pr´ sentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degr´ s. e ` e ¯ Degr´ 1. On tire un echantillon × Á de ÒÁ ´ e ´ µ BVQ suivant un plan SI, taux de sondage : Á ÒÁ ÆÁ . proc surveyselect data= BVQpop sampsize= 6 seed= 25123 stats out=bvqsel rep=500; run; La table en sortie contient notamment les variables replicate, num´ ro d’´ chantillon, et BVQ_N, identifiant des e e BVQ tir´ s dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQ e ´ ´ echantillonn´ s : comsel1 o` les poids du sondage de ce premier degr´ sont renomm´ s w1. ´ e u e e ¯ Degr´ 2. Dans chaque BVQ ¾ × Á , de Æ communes, on tire un echantillon × de Ò e ´ Ò Æ. plan SI, taux de sondage : ´ ¿µ communes suivant un proc surveyselect data= comsel1 sampsize= 3 seed= 55268 out=comsel2 stats; strata BVQ_N; by replicate; run; On renomme w2 les poids de sondage de ce degr´ . e Dans le cas d’un plan a deux degr´ s, il est important que l’utilisateur stocke par une etape data le produit des ` e ´ poids des deux degr´ s w12 = w1 * w2 en vue de l’´ tape d’estimation. e e 3. Estimation de totaux, moyennes et ratios Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios, et coefficients de r´ gressions lin´ aires, en tenant compte du plan d’´ chantillonnage. Les poids d’observation sont e e e pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure du plan de sondage est donn´ e par les commandes strata et cluster. Une moyenne est consid´ r´ e comme e ee un ratio et elle est estim´ e a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille de e ` l’´ chantillon. e 3.1. Exemple d’utilisation de la proc surveymeans On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de ´ logements vacants (variable logevac) stock´ es dans le fichier resultat par la syntaxe suivante : e proc surveyselect data=COMpop method=srs n=70 stats seed=47279 out=logsi rep=1000; run;
  • 3.
    Utilisation des proc´dures SAS dans l’enseignement des sondages e 3 proc surveymeans data=logsi total=554 sum; var logevac; by Replicate; weight Samplingweight; ods select none; ods output Statistics = resultat; run; ods select all; C’est l’Output Delivery System (ODS) qui g` re les sorties des proc´ dures surveymeans et surveyreg. La e e commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la commande ods select none; supprime toute impression dans la fenˆ tre output. e 3.2. Exemples d’utilisation de la proc surveyreg Cette proc´ dure r´ alise essentiellement l’estimation des coefficients d’une r´ gression a l’aide de donn´ es obtenues e e e ` e par echantillonnage. Mais elle permet egalement des estimations par r´ gression et par ratio de totaux ou de ´ ´ e moyennes. Consid´ rons l’estimation par r´ gression du nombre total de logements vacants (logevac) a l’aide de l’information e e ` auxiliaire nombre de logements, d’apr` s le mod` le : e e logevac ¬¼ · ¬½loge · Ù Ù ´¼ ¾ µ Sachant que le nombre total de logements est 197314, l’estimateur du total est : syntaxe suivante r´ alise cette estimation : e ¬¼ ¢ · ¬½ ¢ ½ ¿½ . La proc surveyreg data=logsi total=554; model logevac = loge / Solution; by Replicate; Estimate "logevac" Intercept 554 loge 197314; ods select none; ods output Estimates = resultat; run; ods select all; Une estimation par ratio du nombre total de logements vacants correspond au mod` le : e logevac ¬½ loge · Ù Ù ´¼ ¾ loge µ Apr` s avoir calcul´ la variable ratiologe = 1/loge, on estime le total par la syntaxe : e e proc surveyreg data=logsi total=554; model logevac = loge /Noint Solution; Weight ratiologe; by Replicate; Estimate "logevac" loge 197314; ods select none; ods output Estimates = resultat; run; ods select all; Des commandes strata et cluster sont egalement disponibles pour d´ crire la structure du plan. En pr´ sence ´ e e de poids de sondages in´ gaux et d’un mod` le sur la variance, l’utilisateur doit calculer pr´ alablement la variable e e e de la commande Weight. Pour l’estimation par r´ gression, SAS retient essentiellement une approche bas ee sur e ´ un mod` le et non assist´ e par un mod` le (voir les discussions de [5] et [8] sur cette distinction). e e e
  • 4.
    4 Yves Aragon, AnneRuiz-Gazen 4. Estimation de variances 4.1. Principe SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de r´ gression. Quand l’estimateur e n’est pas lin´ aire, cas d’un ratio par exemple, SAS utilise la technique de lin´ arisation a la facon de [9] (voir aussi e e ` ¸ [7] pour un expos´ r´ cent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans e e stratifi´ s et a plusieurs degr´ s. Pour un plan a plusieurs degr´ s, l’utilisateur doit fournir le produit des poids des e ` e ` e diff´ rents degr´ s mais ne peut indiquer la structure du plan que pour le premier degr´ . Illustrons cette limitation e e e sur un plan SI,SI. 4.2. Exemple d’estimation de variance dans un plan a deux degr´ s e ` Dans un plan a plusieurs degr´ s, la variance de l’estimateur du total est la somme des variances correspondant aux ` e diff´ rents degr´ s (voir [5] p. 137). Consid´ rons en particulier un plan a deux degr´ s SI,SI. L’estimation sans biais e e e ` e de la variance du total s’´ crit : e var´ ص · avec ÆÁ¾ ½   Á ËØ¾ × Ò Á Á et ÆÁ ÒÁ ×Á ¾ Æ ¾ ½   ËÝ × Ò Attention. (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxi` me) degr´ et le e e e terme surestime la variance du premier degr´ (voir par exemple [5] p. 137). Sur l’exemple du plan a deux degr´ s de la section 2.3, deux solutions s’offrent a nous pour estimer la variance de ` e ` l’estimateur par les valeurs dilat´ es du nombre total de logements. e (1) Suivre les suggestions de SAS c’est-` -dire : a – pr´ ciser le plan du premier degr´ par la commande cluster bvq_n;, e e – utiliser les poids produits des deux degr´ s (w12 = w1 * w2), e – pr´ ciser la correction de population finie (fpc1 = Á e ¿¾ ¼ ½ ) par l’option rate=fpc1. On obtient, , estimateur biais´ de la variance comme on l’a indiqu´ ci-dessus. e e Ø (2) Calculer l’estimateur sans biais var´ µ en calculant aussi total dans un plan stratifi´ (strata BVQ_n). e . Au facteur Æ Á ÒÁ pr`s, e est la variance d’un 5. Comparaisons empiriques Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer diff´ rents ` e plans de sondage et diff´ rentes m´ thodes d’estimation. Pour chaque plan, on a r´ alis´ 1000 tirages et on donne les e e e e estimations moyennes du total et les coefficients de variation des estimateurs calcul´ s a partir des variances eme ` piriques. Le nombre total de logements vacants fourni par le recensement est 10768. 5.1. Comparaison de plans d’ echantillonnage ´ Nous avons consid´ r´ les plans suivants : ee SI : plan simple de taille Ò ¼ communes, STSI taille : plan simple stratifi´ avec affectation proportionnelle a la taille en nombre de communes, e ` STSI loge : plan simple stratifi´ avec affectation proportionnelle au nombre de logements, e pps : plan avec remise et probabilit´ s proportionnelles au nombre de logements, e grappe : plan simple de taille Ò BVQ et tirage des 4 grappes de communes associ´ es. e
  • 5.
    Utilisation des proc´dures SAS dans l’enseignement des sondages e 5 On a fix´ les tailles d’´ chantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car e e ` ` 4 BVQ correspondent en moyenne a 70 communes. ` Plan SI STSI taille STSI loge pps grappe Estimation total 10668 10776 10745 10779 10758 Coefficient de variation 18.84% 13.35% 6.97% 7.45% 31.96% Tableau 1 Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifi´ permet d’am´ liorer la pr´ cision tandis ` e e e qu’un plan en grappes conduit g´ n´ ralement a une perte de pr´ cision. Les meilleurs r´ sultats sont obtenus en e e ` e e prenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifi´ ou par ´ e echantillonnage avec probabilit´ proportionnelle a la taille. ´ e ` 5.2. Comparaison des estimateurs par valeurs dilat ees, par ratio et par r´ gression pour un plan SI e ´ Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’int´ rˆ t de prendre en compte la variable ee auxiliaire nombre de logements dans l’estimation. M´ thode d’estimation e par valeurs dilat´ es e par ratio par r´ gression e Estimation total 10668 10854 10828 Coefficient de variation 18.84% 11.25% 11.72% Tableau 2 0 50 100 150 200 5.3. Comparaison des estimations de variance dans le plan a deux degr´ s e ` 0.7 0.8 0.9 1.0 Fig. 1. Histogramme du rapport “estimation sugg´ r´ e par SAS/estimation sans biais”. ee La figure ci-dessus donne l’histogramme des rapports A/(A+B) d´ finis section 4.2 ; le num´ rateur correspond e e a l’estimation de variance sugg´ r´ e par SAS tandis que le d´ nominateur donne l’estimation sans biais. On observe ` ee e que la grande majorit´ des valeurs sont sup´ rieures a 80%, ce qui justifie pour cet exemple l’utilisation de la e e ` formule simplifi´ e sugg´ r´ e par SAS. e ee
  • 6.
    6 Yves Aragon, AnneRuiz-Gazen: Utilisation des proc´ dures SAS dans l’enseignement des sondages e 6. Conclusion La proc´ dure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’ex´ cution tr` s e e e satisfaisants. Les proc´ dures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1]) e qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avanc´ es significae tives par rapport aux proc´ dures classiques means, reg et logistic. L’acc` s aux techniques de sondage s’en e e trouve facilit´ , que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel sp´ cifique. e e Notons enfin que SAS propose aussi deux proc´ dures pour le traitement des valeurs manquantes : les proc e mi et mianalyze. References 1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27 Paper 258-27 . 2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician, No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2. 3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures and Macro Coding”, SUGI 27 Paper 263-27. 4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS ?”, SUGI 27 Paper 266-27 . 5. S¨ rndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694 a pages. 6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC. 7. Till´ Y. (2001). Th´ orie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages. e e 8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach, Wiley, New-York, 536 pages. 9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the American Statistical Association, Vol. 66, pp. 411-414.