Aragongazen

415 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
415
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Aragongazen

  1. 1. Utilisation des proc´ dures SAS dans l’enseignement des sondages e Yves Aragon ¡ Anne Ruiz-Gazen e-mail: aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois proc´ dures pour les questions d’estimation en sondages. Il s’agit des e proc surveyselect pour la s´ lection d’´ chantillons, surveymeans pour l’estimation de moyennes, totaux e e et ratios et surveyreg pour l’estimation des coefficients d’une r´ gression. Les proc´ dure SAS sont relativement e e faciles d’utilisation. Elles permettent de compl´ ter des exercices de travaux dirig´ s et, si on dispose d’une popue e lation exhaustive, d’exp´ rimenter des propri´ t´ s th´ oriques par simulation. La proc surveyselect offre de e ee e nombreuses possibilit´ s de tirages al´ atoires tandis que surveymeans et surveyreg tiennent compte de plans e e de sondages complexes dans les estimations. Nous pr´ sentons ces diff´ rentes proc´ dures et illustrons leur usage sur e e e la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons de donn´ es issues du recensement de 1999. Nous nous int´ ressons a l’estimation du nombre total de logements e e ` vacants. L’ensemble des communes est partitionn´ en 32 Bassins de vie quotidienne (BVQ). La variable nombre e de logements est consid´ r´ e comme une information auxiliaire. Les communes sont r´ parties en 4 strates d’apr` s ee e e la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ dagogique, nous echantillonnons e ´ suivant diff´ rentes m´ thodes. Ce choix de donn´ es est inspir´ de l’exemple des municipalit´ s de Su` de de [5]. e e e e e e 2. Tirage d’´ chantillons e La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ chantillons, notamment des tirages e avec probabilit´ s proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synth´ tique et e ` e compl` te des possibilit´ s). e e 2.1. Exemple de plan a un degr´ e ` Les donn´ es sont dans la table COMpop et les strates sont d´ finies par la variable stratloge. Consid´ rons la e e e s´ lection d’´ chantillons d´ crite par la syntaxe suivante : e e e proc surveyselect data=COMpop method=srs n=(5 10 21 34) seed=57926 out=logestsi rep=1000; strata stratloge; run; Le plan de sondage est un plan stratifi´ simple. La m´ thode de tirage est donn´ e par srs (simple random e e e sampling) et les tailles d’´ chantillon dans chaque strate sont donn´ es par n. La graine du g´ n´ rateur de nombres e e e e al´ atoires a et´ fix´ e (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pour e ´e e ´ faire des comparaisons empiriques de m´ thodes (voir la section 5). e SAS fournit en sortie les echantillons et les probabilit´ s d’inclusion du premier ordre, les poids (SamplingWeight), ´ e inverses des probabilit´ s d’inclusion, utilis´ s pour l’´ tape d’estimation et, pour certains plans, les probabilit´ s e e e e d’inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ de Toulouse 1, 21 all´ e de Brienne, 31000 e e Toulouse, France et Laboratoire de Statistique et Probabilit´ s, UMR CNRS C5583, Universit´ Paul Sabatier, Toulouse. e e
  2. 2. 2 Yves Aragon, Anne Ruiz-Gazen 2.2. Exemple de plan a un degr´ avec remise et probabilit´ s proportionnelles a la taille e e ` ` On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com´ munes. proc surveyselect data=COMpop method=pps_wr n=70 seed=98556 out=logepps rep=1000 outhits ; size loge; run; Dans un plan avec remise, SAS cr´ e une variable (NumberHits) indiquant le nombre d’apparitions de chaque e observation. Par l’option outhits, chaque unit´ figure dans le fichier de sortie autant de fois qu’elle a et´ tir´ e. e ´e e Il est pr´ f´ rable d’utiliser cette option en vue des etapes d’estimation suivantes. ee ´ 2.3. Exemple de plan a deux degr´ s e ` Æ ¿¾ BVQ. On veut tirer un echantillon de communes ´ On dispose de la table BVQpop des identifiants des Á pr´ sentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degr´ s. e ` e ¯ Degr´ 1. On tire un echantillon × Á de ÒÁ ´ e ´ µ BVQ suivant un plan SI, taux de sondage : Á ÒÁ ÆÁ . proc surveyselect data= BVQpop sampsize= 6 seed= 25123 stats out=bvqsel rep=500; run; La table en sortie contient notamment les variables replicate, num´ ro d’´ chantillon, et BVQ_N, identifiant des e e BVQ tir´ s dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQ e ´ ´ echantillonn´ s : comsel1 o` les poids du sondage de ce premier degr´ sont renomm´ s w1. ´ e u e e ¯ Degr´ 2. Dans chaque BVQ ¾ × Á , de Æ communes, on tire un echantillon × de Ò e ´ Ò Æ. plan SI, taux de sondage : ´ ¿µ communes suivant un proc surveyselect data= comsel1 sampsize= 3 seed= 55268 out=comsel2 stats; strata BVQ_N; by replicate; run; On renomme w2 les poids de sondage de ce degr´ . e Dans le cas d’un plan a deux degr´ s, il est important que l’utilisateur stocke par une etape data le produit des ` e ´ poids des deux degr´ s w12 = w1 * w2 en vue de l’´ tape d’estimation. e e 3. Estimation de totaux, moyennes et ratios Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios, et coefficients de r´ gressions lin´ aires, en tenant compte du plan d’´ chantillonnage. Les poids d’observation sont e e e pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure du plan de sondage est donn´ e par les commandes strata et cluster. Une moyenne est consid´ r´ e comme e ee un ratio et elle est estim´ e a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille de e ` l’´ chantillon. e 3.1. Exemple d’utilisation de la proc surveymeans On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de ´ logements vacants (variable logevac) stock´ es dans le fichier resultat par la syntaxe suivante : e proc surveyselect data=COMpop method=srs n=70 stats seed=47279 out=logsi rep=1000; run;
  3. 3. Utilisation des proc´ dures SAS dans l’enseignement des sondages e 3 proc surveymeans data=logsi total=554 sum; var logevac; by Replicate; weight Samplingweight; ods select none; ods output Statistics = resultat; run; ods select all; C’est l’Output Delivery System (ODS) qui g` re les sorties des proc´ dures surveymeans et surveyreg. La e e commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la commande ods select none; supprime toute impression dans la fenˆ tre output. e 3.2. Exemples d’utilisation de la proc surveyreg Cette proc´ dure r´ alise essentiellement l’estimation des coefficients d’une r´ gression a l’aide de donn´ es obtenues e e e ` e par echantillonnage. Mais elle permet egalement des estimations par r´ gression et par ratio de totaux ou de ´ ´ e moyennes. Consid´ rons l’estimation par r´ gression du nombre total de logements vacants (logevac) a l’aide de l’information e e ` auxiliaire nombre de logements, d’apr` s le mod` le : e e logevac ¬¼ · ¬½loge · Ù Ù ´¼ ¾ µ Sachant que le nombre total de logements est 197314, l’estimateur du total est : syntaxe suivante r´ alise cette estimation : e ¬¼ ¢ · ¬½ ¢ ½ ¿½ . La proc surveyreg data=logsi total=554; model logevac = loge / Solution; by Replicate; Estimate "logevac" Intercept 554 loge 197314; ods select none; ods output Estimates = resultat; run; ods select all; Une estimation par ratio du nombre total de logements vacants correspond au mod` le : e logevac ¬½ loge · Ù Ù ´¼ ¾ loge µ Apr` s avoir calcul´ la variable ratiologe = 1/loge, on estime le total par la syntaxe : e e proc surveyreg data=logsi total=554; model logevac = loge /Noint Solution; Weight ratiologe; by Replicate; Estimate "logevac" loge 197314; ods select none; ods output Estimates = resultat; run; ods select all; Des commandes strata et cluster sont egalement disponibles pour d´ crire la structure du plan. En pr´ sence ´ e e de poids de sondages in´ gaux et d’un mod` le sur la variance, l’utilisateur doit calculer pr´ alablement la variable e e e de la commande Weight. Pour l’estimation par r´ gression, SAS retient essentiellement une approche bas ee sur e ´ un mod` le et non assist´ e par un mod` le (voir les discussions de [5] et [8] sur cette distinction). e e e
  4. 4. 4 Yves Aragon, Anne Ruiz-Gazen 4. Estimation de variances 4.1. Principe SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de r´ gression. Quand l’estimateur e n’est pas lin´ aire, cas d’un ratio par exemple, SAS utilise la technique de lin´ arisation a la facon de [9] (voir aussi e e ` ¸ [7] pour un expos´ r´ cent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans e e stratifi´ s et a plusieurs degr´ s. Pour un plan a plusieurs degr´ s, l’utilisateur doit fournir le produit des poids des e ` e ` e diff´ rents degr´ s mais ne peut indiquer la structure du plan que pour le premier degr´ . Illustrons cette limitation e e e sur un plan SI,SI. 4.2. Exemple d’estimation de variance dans un plan a deux degr´ s e ` Dans un plan a plusieurs degr´ s, la variance de l’estimateur du total est la somme des variances correspondant aux ` e diff´ rents degr´ s (voir [5] p. 137). Consid´ rons en particulier un plan a deux degr´ s SI,SI. L’estimation sans biais e e e ` e de la variance du total s’´ crit : e var´ ص · avec ÆÁ¾ ½   Á Ëؾ × Ò Á Á et ÆÁ ÒÁ ×Á ¾ Æ ¾ ½   ËÝ × Ò Attention. (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxi` me) degr´ et le e e e terme surestime la variance du premier degr´ (voir par exemple [5] p. 137). Sur l’exemple du plan a deux degr´ s de la section 2.3, deux solutions s’offrent a nous pour estimer la variance de ` e ` l’estimateur par les valeurs dilat´ es du nombre total de logements. e (1) Suivre les suggestions de SAS c’est-` -dire : a – pr´ ciser le plan du premier degr´ par la commande cluster bvq_n;, e e – utiliser les poids produits des deux degr´ s (w12 = w1 * w2), e – pr´ ciser la correction de population finie (fpc1 = Á e ¿¾ ¼ ½ ) par l’option rate=fpc1. On obtient, , estimateur biais´ de la variance comme on l’a indiqu´ ci-dessus. e e Ø (2) Calculer l’estimateur sans biais var´ µ en calculant aussi total dans un plan stratifi´ (strata BVQ_n). e . Au facteur Æ Á ÒÁ pr`s, e est la variance d’un 5. Comparaisons empiriques Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer diff´ rents ` e plans de sondage et diff´ rentes m´ thodes d’estimation. Pour chaque plan, on a r´ alis´ 1000 tirages et on donne les e e e e estimations moyennes du total et les coefficients de variation des estimateurs calcul´ s a partir des variances eme ` piriques. Le nombre total de logements vacants fourni par le recensement est 10768. 5.1. Comparaison de plans d’ echantillonnage ´ Nous avons consid´ r´ les plans suivants : ee SI : plan simple de taille Ò ¼ communes, STSI taille : plan simple stratifi´ avec affectation proportionnelle a la taille en nombre de communes, e ` STSI loge : plan simple stratifi´ avec affectation proportionnelle au nombre de logements, e pps : plan avec remise et probabilit´ s proportionnelles au nombre de logements, e grappe : plan simple de taille Ò BVQ et tirage des 4 grappes de communes associ´ es. e
  5. 5. Utilisation des proc´ dures SAS dans l’enseignement des sondages e 5 On a fix´ les tailles d’´ chantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car e e ` ` 4 BVQ correspondent en moyenne a 70 communes. ` Plan SI STSI taille STSI loge pps grappe Estimation total 10668 10776 10745 10779 10758 Coefficient de variation 18.84% 13.35% 6.97% 7.45% 31.96% Tableau 1 Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifi´ permet d’am´ liorer la pr´ cision tandis ` e e e qu’un plan en grappes conduit g´ n´ ralement a une perte de pr´ cision. Les meilleurs r´ sultats sont obtenus en e e ` e e prenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifi´ ou par ´ e echantillonnage avec probabilit´ proportionnelle a la taille. ´ e ` 5.2. Comparaison des estimateurs par valeurs dilat ees, par ratio et par r´ gression pour un plan SI e ´ Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’int´ rˆ t de prendre en compte la variable ee auxiliaire nombre de logements dans l’estimation. M´ thode d’estimation e par valeurs dilat´ es e par ratio par r´ gression e Estimation total 10668 10854 10828 Coefficient de variation 18.84% 11.25% 11.72% Tableau 2 0 50 100 150 200 5.3. Comparaison des estimations de variance dans le plan a deux degr´ s e ` 0.7 0.8 0.9 1.0 Fig. 1. Histogramme du rapport “estimation sugg´ r´ e par SAS/estimation sans biais”. ee La figure ci-dessus donne l’histogramme des rapports A/(A+B) d´ finis section 4.2 ; le num´ rateur correspond e e a l’estimation de variance sugg´ r´ e par SAS tandis que le d´ nominateur donne l’estimation sans biais. On observe ` ee e que la grande majorit´ des valeurs sont sup´ rieures a 80%, ce qui justifie pour cet exemple l’utilisation de la e e ` formule simplifi´ e sugg´ r´ e par SAS. e ee
  6. 6. 6 Yves Aragon, Anne Ruiz-Gazen: Utilisation des proc´ dures SAS dans l’enseignement des sondages e 6. Conclusion La proc´ dure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’ex´ cution tr` s e e e satisfaisants. Les proc´ dures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1]) e qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avanc´ es significae tives par rapport aux proc´ dures classiques means, reg et logistic. L’acc` s aux techniques de sondage s’en e e trouve facilit´ , que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel sp´ cifique. e e Notons enfin que SAS propose aussi deux proc´ dures pour le traitement des valeurs manquantes : les proc e mi et mianalyze. References 1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27 Paper 258-27 . 2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician, No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2. 3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures and Macro Coding”, SUGI 27 Paper 263-27. 4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS ?”, SUGI 27 Paper 266-27 . 5. S¨ rndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694 a pages. 6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC. 7. Till´ Y. (2001). Th´ orie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages. e e 8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach, Wiley, New-York, 536 pages. 9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the American Statistical Association, Vol. 66, pp. 411-414.

×