SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
Calage sur bornes minimales et choix
des bornes de calage.
Neuvième colloque francophone sur les Sondages
Emmanuel Gros – Antoine Rebecq
14 octobre 2016
INSEE - DMCSI - Division Sondages
Sommaire
1. Introduction
2. Calage sur bornes minimales
3. Choix des bornes de calage
2
Introduction
Notations
▶ Soit U une population finie de taille N. On s’intéresse à diverses
variables Y1,…,Yp dont on souhaite estimer les totaux sur U :
TYj
=
∑
i∈U
yj,i
▶ s : échantillon de taille n tiré dans U, selon un plan de sondage
p(s) conduisant à des probabilités d’inclusion πi. L’estimateur
d’Horvitz-Thompson s’écrit :
ˆTYπ =
∑
i∈s
yi
πi
4
L’estimateur par calage
▶ Soit X = (X1, ..., XJ)′
un vecteur de J variables auxiliaires dont on
connaît les totaux sur la population. On préfère souvent
l’estimateur par calage (Deville et Särndal (1992)) :
ˆTYc =
∑
i∈s
wiyi
où les wi minimisent la « distance » aux
1
πi
tout en vérifiant les J
équations de calage :
∑
i∈s
wixi = TX
5
Calage sur marges – formalisation du problème
▶ On définit une fonction G telle que G(
wi
di
) mesure la « distance »
entre wi et di :
• G(1) = 0
• G est positive et convexe : G(
wi
di
) est d’autant plus élevée que le
rapport
wi
di
est éloigné de 1
▶ Les poids calés wi sont alors solutions du problème
d’optimisation suivant :



min
wi
∑
i∈s
diG(
wi
di
)
s.c.
∑
i∈s wixi = TX
6
Calage sur marges – résolution
▶ Solution :
wi = diF(x′
i
ˆλ)
où est appelée fonction de calage (F = (G′
)−1
).
▶ Le facteur de calage gi =
wi
di
= F(x′
i
ˆλ) dépend (entre autres) du
choix de la distance G.
7
Méthodes de calage
▶ Méthode linéaire : F(u) = 1 + u
▶ Méthode exponentielle ou raking ratio : F(u) = exp(u) > 0
L et U sont deux constantes telles que L < 1 < U.
▶ Méthode logit : il s’agit d’une méthode exponentielle bornée :
F(u) =
L(U − 1) + U(1 − L) exp(Au)
(U − 1) + (1 − L) exp(Au)
et alors L < F(u) < U
8
Choix de la méthode de calage
▶ Pas de critère théorique permettant de déterminer la « bonne »
méthode de calage.
▶ En pratique, on privilégie en général les méthodes bornées :
• permettent d’éviter les poids négatifs ou inférieurs à 1 ;
• évitent l’apparition d’unités influentes (notamment estimations
sur domaines)
• Pas de garantie de convergence : pour des L et U choisis trop
proches de 1, le calage n’est plus possible.
9
Calage sur bornes minimales
Calage sur bornes minimales
▶ Objectif : déterminer les bornes L∗
et U∗
conduisant au calage le
plus « serré » possible, i.e. minimisant l’étendue U∗
− L∗
.
▶ Solution : résolution numérique via un programme
d’optimisation.
11
Problèmatique
▶ Les poids calés doivent vérifier les contraintes de calage :
X′
sg = TX
(où g est le vecteur des facteurs de calage et
Xs = (dixj,i)1≤i≤n,1≤j≤J)
▶ Les bornes L∗
et U∗
correspondent au vecteur g∗
qui minimise
l’étendue des rapports de poids tout en respectant les
contraintes de calage X′
sg∗
= TX.
12
Formalisation du problème
▶ Cela correspond au programme d’optimisation suivant :



min
g∈Rn
(
max
i∈[[1,n]]
gi − min
j∈[[1,n]]
gj
)
s. c. X′
sg = TX
▶ Ce programme est un programme linéaire, qui peut donc être
résolu numériquement via l’algorithme du simplexe.
▶ Ce programme est de taille n(n − 1) × (n + 1), donc en O(n3
) ⇒
problèmes de mémoire et de temps de calcul.
13
Reformulation du problème en O(n2
)
▶ On peut montrer que le programme précédent est équivalent au
programme suivant :



min
g∈Rn,a∈R
max
i∈[[1,n]]
|gi − a|
s. c. X′
sg = TX
▶ Ce programme est encore un programme linéaire, qui peut donc
également être résolu numériquement via l’algorithme du
simplexe...
▶ ...mais de dimension 2n × (n + 2), i.e. en O(n2
) ⇒ Beaucoup plus
efficace.
▶ implémenté dans la fonction calibration du package R Icarus
14
Exemple de choix des bornes de calage
15
Choix des bornes de calage
Problématique
▶ Pratique à l’Insee : on préconise en général l’utilisation de
méthodes de calage bornées, avec des bornes :
• suffisamment serrées pour éviter les déformations de poids
extrêmes...
• ... mais sans être trop proches des bornes L∗
et U∗
pour éviter les
accumulations trop importantes de rapports de poids à ces
bornes.
▶ Mais il n’y a aucune justification théorique à cette pratique :
• asymptotiquement, toutes les méthodes sont équivalentes ;
• à distance finie, on ne dispose pas de formules permettant
d’évaluer l’impact du choix des bornes sur les estimateurs.
▶ Étude par simulations pour essayer de quantifier cet impact.
17
Cadre de l’étude (1)
On s’appuie sur les données issues d’Esane 2013 dans le commerce
hors exhaustif (~ les unités de plus de 20 salariés ou plus de 38 M€ de CA) : les liasses
fiscales des entreprises fournissent de très nombreuses variables
disponibles sur l’ensemble des unités du champ → variables
auxiliaires pour le calage & calcul de biais et d’EQM.
⇒ Procédure retenue :
▶ on tire K=40 000 échantillons de 1 000 unités par SAS stratifié
par APE⊗[tranches de taille] avec allocation proportionnelle ;
▶ on cale chaque échantillon selon trois scénarios de calage –
raking ratio, logit [0,5-2] et logit minimal – sur les marges
suivantes :
• structures par secteur, tranches d’effectif, ZEAT ;
• totaux de chiffre d’affaires, valeur ajoutée, actif total et passif
total.
18
Cadre de l’étude (2)
▶ Pour une variable d’intérêt Y donnée, on calcule les estimateurs
calés pour chaque échantillon de chaque scénario de calage :
• ˆTk
Y,wRR =
∑
i∈sk
wRR
i yi, k = 1, ..., K
• ˆTk
Y,wlogit [0,5−2] =
∑
i∈sk
w
logit [0,5−2]
i yi, k = 1, ..., K
• ˆTk
Y,wlogit min =
∑
i∈sk
wlogit min
i yi, k = 1, ..., K
▶ On évalue enfin la qualité des estimateurs à l’aide de leurs biais
relatifs et racines carrée des EQM relatives Monte-Carlo :
• Biais relatif absolu (en %) :
RB(ˆTY,w) =
100
K
K∑
k=1
|ˆTk
Y,w − TY|
TY
• Racine carrée de l’EQM relative (en %) :
RRMSE(ˆTY,w) = 100
√
K−1 ×
∑K
k=1(ˆTk
Y,w − TY)2
TY 19
Distribution des rapports de poids – Raking ratio
Boxplot des quantiles de rapports de poids ­ Raking ratio
Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max
0
2.5
5.0
7.5
10.0
RapportdepoidsRR
Quantiles de la distribution
20
Distribution des rapports de poids – Logit [0,5-2]
Boxplot des quantiles de rapports de poids ­ Logit [0,5­2]
Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max
0.5
1.0
1.5
2.0
Rapportdepoidslogit[0,5­2]
Quantiles de la distribution
21
Distribution des rapports de poids – Logit bornes minimales
Boxplot des quantiles de rapports de poids ­ Logit bornes minimales
Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max
0
0.5
1.0
1.5
2.0
2.5
Rapportdepoidslogitbornesminimales
Quantiles de la distribution
22
RRMSE des estimateurs par division (1)
Calages bornés
0
10
20
30
40
50
60
70
80
90
100
Raking ratio
0 10 20 30 40 50 60 70 80 90
RRMSE des estimateurs par division
methode Logit [0.5­2] Logit bornes minimales RR 23
RRMSE des estimateurs par division (2)
Calages bornés
0
10
20
30
40
50
60
70
80
90
100
Raking ratio
0 10 20 30 40 50 60 70 80 90
RRMSE des estimateurs par division
methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%
Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 24
RRMSE des estimateurs par division (3)
Calages bornés
0
10
20
30
40
Raking ratio
0 10 20 30
RRMSE des estimateurs par division
methode Logit [0.5­2] Logit bornes minimales RR 25
RRMSE des estimateurs par division (4)
Calages bornés
0
10
20
30
40
Raking ratio
0 10 20 30
RRMSE des estimateurs par division
methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%
Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 26
Conclusions
▶ Le choix de bornes de calage « serrées » semble conduire à des
estimateurs moins efficaces, en particulier lorsqu’on observe de
fortes accumulations de rapports de poids aux bornes.
▶ on observe des résultats similaires avec d’autres scénarios de
simulations :
• échantillons tirés selon le PdS de l’ESA, avec génération de non
réponse puis calage direct → on observe de plus dans ce cas des
problèmes importants en termes de biais ;
• échantillons tirés selon le PdS de l’ESA, avec génération de non
réponse puis correction de la non-réponse par GRH et calage
post-CNR → résultats similaires à ceux présentés ici.
▶ Ces résultats semblent valider la pratique à l’Insee en termes de
choix des bornes de calage.
▶ Résultats à analyser plus en détails, et à compléter via d’autres
simulations (sur données d’enquêtes ménages par exemple).
27
Merci de votre attention !
28
RRMSE des estimateurs par tranches d’effectif (1)
Calages bornés
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
Raking ratio
0 10 20 30 40 50 60 70 80 90 100 110 120 130
RRMSE des estimateurs par tranche de taille
methode Logit [0.5­2] Logit bornes minimales RR 29
RRMSE des estimateurs par tranches d’effectif (2)
Calages bornés
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
Raking ratio
0 10 20 30 40 50 60 70 80 90 100 110 120 130
RRMSE des estimateurs par tranche de taille
methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%
Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 30
RRMSE des estimateurs par tranches d’effectif (3)
Calages bornés
0
10
20
30
40
Raking ratio
0 10 20 30
RRMSE des estimateurs par tranche de taille
methode Logit [0.5­2] Logit bornes minimales RR 31
RRMSE des estimateurs par tranches d’effectif (4)
Calages bornés
0
10
20
30
40
Raking ratio
0 10 20 30
RRMSE des estimateurs par tranche de taille
methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%
Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 32
Méthodes de calage : G(r) versus r
33
Méthodes de calage : F(u) versus u
34

Contenu connexe

Tendances

Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Arthur Charpentier
 
47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnes47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnesTRIKI BILEL
 
Commande optimale
Commande optimaleCommande optimale
Commande optimaleAdouane
 
La complexité des algorithmes récursives Géométrie algorithmique
La complexité des algorithmes récursivesGéométrie algorithmiqueLa complexité des algorithmes récursivesGéométrie algorithmique
La complexité des algorithmes récursives Géométrie algorithmiqueHajer Trabelsi
 
Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Arthur Charpentier
 
Les algorithmes recurrents
Les algorithmes recurrentsLes algorithmes recurrents
Les algorithmes recurrentsmohamed_SAYARI
 
Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Frédéric Morain-Nicolier
 
Programmation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexeProgrammation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexeJiijishady
 

Tendances (20)

Slides 2040-6-a2013
Slides 2040-6-a2013Slides 2040-6-a2013
Slides 2040-6-a2013
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
 
47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnes47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnes
 
4e ds2-2012-2013
4e ds2-2012-20134e ds2-2012-2013
4e ds2-2012-2013
 
Slides 2040-2-0
Slides 2040-2-0Slides 2040-2-0
Slides 2040-2-0
 
Commande optimale
Commande optimaleCommande optimale
Commande optimale
 
Slides 2040-6
Slides 2040-6Slides 2040-6
Slides 2040-6
 
Slides act2040-a2013-2
Slides act2040-a2013-2Slides act2040-a2013-2
Slides act2040-a2013-2
 
09 lignes d'influence
09 lignes d'influence09 lignes d'influence
09 lignes d'influence
 
Slide 2040-1-a2013
Slide 2040-1-a2013Slide 2040-1-a2013
Slide 2040-1-a2013
 
Puissance Et Taille D'échantillon
Puissance Et Taille D'échantillonPuissance Et Taille D'échantillon
Puissance Et Taille D'échantillon
 
Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
La complexité des algorithmes récursives Géométrie algorithmique
La complexité des algorithmes récursivesGéométrie algorithmiqueLa complexité des algorithmes récursivesGéométrie algorithmique
La complexité des algorithmes récursives Géométrie algorithmique
 
Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4
 
CM4 - Transformée en z
CM4 - Transformée en zCM4 - Transformée en z
CM4 - Transformée en z
 
Les algorithmes recurrents
Les algorithmes recurrentsLes algorithmes recurrents
Les algorithmes recurrents
 
Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)
 
Programmation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexeProgrammation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexe
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Slides ensae 7
Slides ensae 7Slides ensae 7
Slides ensae 7
 

Similaire à Calage sur bornes minimales

MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE DE...
MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE  DE...MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE  DE...
MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE DE...Abou Bakeur Ghehioueche
 
Cours electronique conversion de donnees
Cours electronique conversion de donneesCours electronique conversion de donnees
Cours electronique conversion de donneesRachid Richard
 
CM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériqueCM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériquePierre Maréchal
 
[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...
[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...
[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...Yassine Selmi
 
Acfas2018 Compensations multi-époques
Acfas2018 Compensations multi-époquesAcfas2018 Compensations multi-époques
Acfas2018 Compensations multi-époquesThomasTouz
 
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéaux
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéauxELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéaux
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéauxJerome LE NY
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2
[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2
[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2PHAM Van Thuan
 
cours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdfcours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdfdavidZorom
 
Conception d'un convoyeur à bande
Conception d'un convoyeur à bandeConception d'un convoyeur à bande
Conception d'un convoyeur à bandemedrouam
 
Nano Comp Ps Clay
Nano Comp Ps ClayNano Comp Ps Clay
Nano Comp Ps Clayvchapuis
 
Modélisation du signal et photométrie : application à l'astrophotographie
Modélisation du signal et photométrie : application à l'astrophotographieModélisation du signal et photométrie : application à l'astrophotographie
Modélisation du signal et photométrie : application à l'astrophotographieLaurent Devineau
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Slides de la soutenance
Slides de la soutenanceSlides de la soutenance
Slides de la soutenancecbellisario
 
Présentation extia optimisation_cfd
Présentation extia optimisation_cfdPrésentation extia optimisation_cfd
Présentation extia optimisation_cfdSteven DAIX
 
Slides capteurs partie 1
Slides capteurs partie 1Slides capteurs partie 1
Slides capteurs partie 1zinoha
 

Similaire à Calage sur bornes minimales (20)

MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE DE...
MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE  DE...MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE  DE...
MODÉLISATION DU CLUTTER DE MER À HAUTE RÉSOLUTION EN UTILISANT UN MÉLANGE DE...
 
Mon intervention lors du Ciro10
Mon intervention lors du Ciro10Mon intervention lors du Ciro10
Mon intervention lors du Ciro10
 
LISSAGE EXPONENTIEL.pdf
LISSAGE EXPONENTIEL.pdfLISSAGE EXPONENTIEL.pdf
LISSAGE EXPONENTIEL.pdf
 
Cours electronique conversion de donnees
Cours electronique conversion de donneesCours electronique conversion de donnees
Cours electronique conversion de donnees
 
CM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériqueCM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique Numérique
 
[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...
[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...
[Présentation PFE] Conception et implémentation d'un estimateur conjoint de l...
 
Acfas2018 Compensations multi-époques
Acfas2018 Compensations multi-époquesAcfas2018 Compensations multi-époques
Acfas2018 Compensations multi-époques
 
Pfa2
Pfa2 Pfa2
Pfa2
 
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéaux
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéauxELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéaux
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéaux
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2
[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2
[Soutenance du PFE] Étude du flambement des poteaux selon l'EC2
 
cours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdfcours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdf
 
Conception d'un convoyeur à bande
Conception d'un convoyeur à bandeConception d'un convoyeur à bande
Conception d'un convoyeur à bande
 
Nano Comp Ps Clay
Nano Comp Ps ClayNano Comp Ps Clay
Nano Comp Ps Clay
 
Modélisation du signal et photométrie : application à l'astrophotographie
Modélisation du signal et photométrie : application à l'astrophotographieModélisation du signal et photométrie : application à l'astrophotographie
Modélisation du signal et photométrie : application à l'astrophotographie
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Slides de la soutenance
Slides de la soutenanceSlides de la soutenance
Slides de la soutenance
 
Présentation extia optimisation_cfd
Présentation extia optimisation_cfdPrésentation extia optimisation_cfd
Présentation extia optimisation_cfd
 
Slides capteurs partie 1
Slides capteurs partie 1Slides capteurs partie 1
Slides capteurs partie 1
 

Plus de Antoine Rebecq

Network sampling and applications to big data and machine learning
Network sampling and applications to big data and machine learningNetwork sampling and applications to big data and machine learning
Network sampling and applications to big data and machine learningAntoine Rebecq
 
Bring survey sampling techniques into big data
Bring survey sampling techniques into big dataBring survey sampling techniques into big data
Bring survey sampling techniques into big dataAntoine Rebecq
 
Sampling graphs efficiently - MAD Stat (TSE)
Sampling graphs efficiently - MAD Stat (TSE)Sampling graphs efficiently - MAD Stat (TSE)
Sampling graphs efficiently - MAD Stat (TSE)Antoine Rebecq
 
Tirage spatialement équilibré - INSEE
Tirage spatialement équilibré - INSEETirage spatialement équilibré - INSEE
Tirage spatialement équilibré - INSEEAntoine Rebecq
 
Optimisation d'une allocation mixte
Optimisation d'une allocation mixteOptimisation d'une allocation mixte
Optimisation d'une allocation mixteAntoine Rebecq
 
Sampling methods for graphs
Sampling methods for graphsSampling methods for graphs
Sampling methods for graphsAntoine Rebecq
 
Sampling the Twitter graph
Sampling the Twitter graphSampling the Twitter graph
Sampling the Twitter graphAntoine Rebecq
 

Plus de Antoine Rebecq (7)

Network sampling and applications to big data and machine learning
Network sampling and applications to big data and machine learningNetwork sampling and applications to big data and machine learning
Network sampling and applications to big data and machine learning
 
Bring survey sampling techniques into big data
Bring survey sampling techniques into big dataBring survey sampling techniques into big data
Bring survey sampling techniques into big data
 
Sampling graphs efficiently - MAD Stat (TSE)
Sampling graphs efficiently - MAD Stat (TSE)Sampling graphs efficiently - MAD Stat (TSE)
Sampling graphs efficiently - MAD Stat (TSE)
 
Tirage spatialement équilibré - INSEE
Tirage spatialement équilibré - INSEETirage spatialement équilibré - INSEE
Tirage spatialement équilibré - INSEE
 
Optimisation d'une allocation mixte
Optimisation d'une allocation mixteOptimisation d'une allocation mixte
Optimisation d'une allocation mixte
 
Sampling methods for graphs
Sampling methods for graphsSampling methods for graphs
Sampling methods for graphs
 
Sampling the Twitter graph
Sampling the Twitter graphSampling the Twitter graph
Sampling the Twitter graph
 

Calage sur bornes minimales

  • 1. Calage sur bornes minimales et choix des bornes de calage. Neuvième colloque francophone sur les Sondages Emmanuel Gros – Antoine Rebecq 14 octobre 2016 INSEE - DMCSI - Division Sondages
  • 2. Sommaire 1. Introduction 2. Calage sur bornes minimales 3. Choix des bornes de calage 2
  • 4. Notations ▶ Soit U une population finie de taille N. On s’intéresse à diverses variables Y1,…,Yp dont on souhaite estimer les totaux sur U : TYj = ∑ i∈U yj,i ▶ s : échantillon de taille n tiré dans U, selon un plan de sondage p(s) conduisant à des probabilités d’inclusion πi. L’estimateur d’Horvitz-Thompson s’écrit : ˆTYπ = ∑ i∈s yi πi 4
  • 5. L’estimateur par calage ▶ Soit X = (X1, ..., XJ)′ un vecteur de J variables auxiliaires dont on connaît les totaux sur la population. On préfère souvent l’estimateur par calage (Deville et Särndal (1992)) : ˆTYc = ∑ i∈s wiyi où les wi minimisent la « distance » aux 1 πi tout en vérifiant les J équations de calage : ∑ i∈s wixi = TX 5
  • 6. Calage sur marges – formalisation du problème ▶ On définit une fonction G telle que G( wi di ) mesure la « distance » entre wi et di : • G(1) = 0 • G est positive et convexe : G( wi di ) est d’autant plus élevée que le rapport wi di est éloigné de 1 ▶ Les poids calés wi sont alors solutions du problème d’optimisation suivant :    min wi ∑ i∈s diG( wi di ) s.c. ∑ i∈s wixi = TX 6
  • 7. Calage sur marges – résolution ▶ Solution : wi = diF(x′ i ˆλ) où est appelée fonction de calage (F = (G′ )−1 ). ▶ Le facteur de calage gi = wi di = F(x′ i ˆλ) dépend (entre autres) du choix de la distance G. 7
  • 8. Méthodes de calage ▶ Méthode linéaire : F(u) = 1 + u ▶ Méthode exponentielle ou raking ratio : F(u) = exp(u) > 0 L et U sont deux constantes telles que L < 1 < U. ▶ Méthode logit : il s’agit d’une méthode exponentielle bornée : F(u) = L(U − 1) + U(1 − L) exp(Au) (U − 1) + (1 − L) exp(Au) et alors L < F(u) < U 8
  • 9. Choix de la méthode de calage ▶ Pas de critère théorique permettant de déterminer la « bonne » méthode de calage. ▶ En pratique, on privilégie en général les méthodes bornées : • permettent d’éviter les poids négatifs ou inférieurs à 1 ; • évitent l’apparition d’unités influentes (notamment estimations sur domaines) • Pas de garantie de convergence : pour des L et U choisis trop proches de 1, le calage n’est plus possible. 9
  • 10. Calage sur bornes minimales
  • 11. Calage sur bornes minimales ▶ Objectif : déterminer les bornes L∗ et U∗ conduisant au calage le plus « serré » possible, i.e. minimisant l’étendue U∗ − L∗ . ▶ Solution : résolution numérique via un programme d’optimisation. 11
  • 12. Problèmatique ▶ Les poids calés doivent vérifier les contraintes de calage : X′ sg = TX (où g est le vecteur des facteurs de calage et Xs = (dixj,i)1≤i≤n,1≤j≤J) ▶ Les bornes L∗ et U∗ correspondent au vecteur g∗ qui minimise l’étendue des rapports de poids tout en respectant les contraintes de calage X′ sg∗ = TX. 12
  • 13. Formalisation du problème ▶ Cela correspond au programme d’optimisation suivant :    min g∈Rn ( max i∈[[1,n]] gi − min j∈[[1,n]] gj ) s. c. X′ sg = TX ▶ Ce programme est un programme linéaire, qui peut donc être résolu numériquement via l’algorithme du simplexe. ▶ Ce programme est de taille n(n − 1) × (n + 1), donc en O(n3 ) ⇒ problèmes de mémoire et de temps de calcul. 13
  • 14. Reformulation du problème en O(n2 ) ▶ On peut montrer que le programme précédent est équivalent au programme suivant :    min g∈Rn,a∈R max i∈[[1,n]] |gi − a| s. c. X′ sg = TX ▶ Ce programme est encore un programme linéaire, qui peut donc également être résolu numériquement via l’algorithme du simplexe... ▶ ...mais de dimension 2n × (n + 2), i.e. en O(n2 ) ⇒ Beaucoup plus efficace. ▶ implémenté dans la fonction calibration du package R Icarus 14
  • 15. Exemple de choix des bornes de calage 15
  • 16. Choix des bornes de calage
  • 17. Problématique ▶ Pratique à l’Insee : on préconise en général l’utilisation de méthodes de calage bornées, avec des bornes : • suffisamment serrées pour éviter les déformations de poids extrêmes... • ... mais sans être trop proches des bornes L∗ et U∗ pour éviter les accumulations trop importantes de rapports de poids à ces bornes. ▶ Mais il n’y a aucune justification théorique à cette pratique : • asymptotiquement, toutes les méthodes sont équivalentes ; • à distance finie, on ne dispose pas de formules permettant d’évaluer l’impact du choix des bornes sur les estimateurs. ▶ Étude par simulations pour essayer de quantifier cet impact. 17
  • 18. Cadre de l’étude (1) On s’appuie sur les données issues d’Esane 2013 dans le commerce hors exhaustif (~ les unités de plus de 20 salariés ou plus de 38 M€ de CA) : les liasses fiscales des entreprises fournissent de très nombreuses variables disponibles sur l’ensemble des unités du champ → variables auxiliaires pour le calage & calcul de biais et d’EQM. ⇒ Procédure retenue : ▶ on tire K=40 000 échantillons de 1 000 unités par SAS stratifié par APE⊗[tranches de taille] avec allocation proportionnelle ; ▶ on cale chaque échantillon selon trois scénarios de calage – raking ratio, logit [0,5-2] et logit minimal – sur les marges suivantes : • structures par secteur, tranches d’effectif, ZEAT ; • totaux de chiffre d’affaires, valeur ajoutée, actif total et passif total. 18
  • 19. Cadre de l’étude (2) ▶ Pour une variable d’intérêt Y donnée, on calcule les estimateurs calés pour chaque échantillon de chaque scénario de calage : • ˆTk Y,wRR = ∑ i∈sk wRR i yi, k = 1, ..., K • ˆTk Y,wlogit [0,5−2] = ∑ i∈sk w logit [0,5−2] i yi, k = 1, ..., K • ˆTk Y,wlogit min = ∑ i∈sk wlogit min i yi, k = 1, ..., K ▶ On évalue enfin la qualité des estimateurs à l’aide de leurs biais relatifs et racines carrée des EQM relatives Monte-Carlo : • Biais relatif absolu (en %) : RB(ˆTY,w) = 100 K K∑ k=1 |ˆTk Y,w − TY| TY • Racine carrée de l’EQM relative (en %) : RRMSE(ˆTY,w) = 100 √ K−1 × ∑K k=1(ˆTk Y,w − TY)2 TY 19
  • 20. Distribution des rapports de poids – Raking ratio Boxplot des quantiles de rapports de poids ­ Raking ratio Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max 0 2.5 5.0 7.5 10.0 RapportdepoidsRR Quantiles de la distribution 20
  • 21. Distribution des rapports de poids – Logit [0,5-2] Boxplot des quantiles de rapports de poids ­ Logit [0,5­2] Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max 0.5 1.0 1.5 2.0 Rapportdepoidslogit[0,5­2] Quantiles de la distribution 21
  • 22. Distribution des rapports de poids – Logit bornes minimales Boxplot des quantiles de rapports de poids ­ Logit bornes minimales Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max 0 0.5 1.0 1.5 2.0 2.5 Rapportdepoidslogitbornesminimales Quantiles de la distribution 22
  • 23. RRMSE des estimateurs par division (1) Calages bornés 0 10 20 30 40 50 60 70 80 90 100 Raking ratio 0 10 20 30 40 50 60 70 80 90 RRMSE des estimateurs par division methode Logit [0.5­2] Logit bornes minimales RR 23
  • 24. RRMSE des estimateurs par division (2) Calages bornés 0 10 20 30 40 50 60 70 80 90 100 Raking ratio 0 10 20 30 40 50 60 70 80 90 RRMSE des estimateurs par division methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50% Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 24
  • 25. RRMSE des estimateurs par division (3) Calages bornés 0 10 20 30 40 Raking ratio 0 10 20 30 RRMSE des estimateurs par division methode Logit [0.5­2] Logit bornes minimales RR 25
  • 26. RRMSE des estimateurs par division (4) Calages bornés 0 10 20 30 40 Raking ratio 0 10 20 30 RRMSE des estimateurs par division methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50% Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 26
  • 27. Conclusions ▶ Le choix de bornes de calage « serrées » semble conduire à des estimateurs moins efficaces, en particulier lorsqu’on observe de fortes accumulations de rapports de poids aux bornes. ▶ on observe des résultats similaires avec d’autres scénarios de simulations : • échantillons tirés selon le PdS de l’ESA, avec génération de non réponse puis calage direct → on observe de plus dans ce cas des problèmes importants en termes de biais ; • échantillons tirés selon le PdS de l’ESA, avec génération de non réponse puis correction de la non-réponse par GRH et calage post-CNR → résultats similaires à ceux présentés ici. ▶ Ces résultats semblent valider la pratique à l’Insee en termes de choix des bornes de calage. ▶ Résultats à analyser plus en détails, et à compléter via d’autres simulations (sur données d’enquêtes ménages par exemple). 27
  • 28. Merci de votre attention ! 28
  • 29. RRMSE des estimateurs par tranches d’effectif (1) Calages bornés 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 Raking ratio 0 10 20 30 40 50 60 70 80 90 100 110 120 130 RRMSE des estimateurs par tranche de taille methode Logit [0.5­2] Logit bornes minimales RR 29
  • 30. RRMSE des estimateurs par tranches d’effectif (2) Calages bornés 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 Raking ratio 0 10 20 30 40 50 60 70 80 90 100 110 120 130 RRMSE des estimateurs par tranche de taille methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50% Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 30
  • 31. RRMSE des estimateurs par tranches d’effectif (3) Calages bornés 0 10 20 30 40 Raking ratio 0 10 20 30 RRMSE des estimateurs par tranche de taille methode Logit [0.5­2] Logit bornes minimales RR 31
  • 32. RRMSE des estimateurs par tranches d’effectif (4) Calages bornés 0 10 20 30 40 Raking ratio 0 10 20 30 RRMSE des estimateurs par tranche de taille methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50% Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 32
  • 33. Méthodes de calage : G(r) versus r 33
  • 34. Méthodes de calage : F(u) versus u 34