Propensity score matching

Propensity score :
théorie et applications
Vincent GIGLIOBIANCO
(Soutenance Mémoire Master MR085)

Propensity score :
théorie et applications
Qu’est-ce que le Propensity score ?
Éléments de théorie
Analyse de sensitivité
Présentation des quelques études
Étude réalisée
Méthodologie
Comparaison de modèles
Résultats
Effet du programme Adults
Analyse de sensitivité : application
Conclusion

Principe : créer des groupes d’individus comparables
Méthode :
- Avec la variable T = 1 si un individu est traité vs T= 0 si un individu n’est
pas traité.
- Réaliser le score / modèle basé sur la probabilité p(T=1|X=x) grâce aux
caractéristiques X des individus.
- Comparer l’effet sur Y entre le groupe de traitement et un groupe de
contrôle construit grâce à une correspondance suivant la probabilité
p(T=1|X=x)
Qu’est-ce que le Propensity score ?
• Paul R. Rosembaum et Donald B. Rubin en 1983
• Modèle à effet causal
• Santé, Sciences Sociales, (Marketing)
• But : mesure de l’effet d’un traitement pour des données observées
sur une variable d’intérêt Y

Strong Ignorability Assumption
SUTVA « stable unit treatment value assumption »
La variable d’intérêt Y doit être indépendante entre deux individus différents,
quels que soient les individus, ceci quel que soit le traitement T et comment il
est affecté aux individus
Définition du Balancing score : fonction de X qui vérifie
x ⊥ T | b(x), pour tout x
Pour un ensemble d’individus de caractéristiques X vérifiant l’expression b(x), x est indépendant de
T
(Y(0), Y(1)) ⊥ T | X = x, pour tout x et avec 0 < p(T=1|X=x) < 1
Interprétation
L’ affectation d’un traitement T à un individu doit être indépendante de la
variable d’intérêt Y, mais aussi de tout autre facteur inobservable.
Éléments de Théorie
Propensity score : e(x) = p (T = 1 | X = x)
C’est un score vérifiant
x ⊥ T | e(x), pour tout x (c’est aussi un théorème, valable quel que soit la distribution de X)

Théorème
Si l’hypothèse de « forte ignorabilité de l’affectation du traitement » est vérifiée et si
b(x) est un Balancing score alors :
E(𝑌1|b(x), T = 1) – E(𝑌0|b(x), T = 0) = E(𝑌1 – 𝑌0 | b(x))
Corollaire 1: matching basé sur le Balancing score
Si l’affectation du traitement est fortement ignorable
Si b(x) est tirée au sort aléatoirement et qu’un individu dans le groupe de traitement T =
1 et un autre individu dans le groupe de contrôle T = 0, sont tirés au sort avec cette
valeur b(x)
=> La différence obtenue pour la variable d’intérêt grâce à ce couple d’individus
matchés est égale à l’effet du traitement moyen pour b(x)
Conséquence : si Y0 obtenu par matching par Propensity score à partir de Y1, on peut
estimer l’effet du traitement moyen E(Y1 - Y0) par E(Y1) – E(Y0)
Autre conséquence : mêmes distributions suivant X pour T = 1 vs T = 0
matché et suivant le Propensity score e(x)

Corollaire 2 : stratification grâce aux Balancing scores
En pratique, cela revient à diviser la population en k strates suivant les
différentes valeurs de Propensity score obtenus. L’estimation de l’effet du
traitement s’estime alors par les estimations de l’effet moyen du traitement dans
chaque strate k, pondérées par les effectifs des individus présents dans les
strates.
Corollaire 3 : modèle basé sur la covariance grâce au Balancing score b(x)
Variante 1:
On peut si on considère b(x) comme étant le Propensity score e(x), utiliser
la probabilité p(T = 1 | X = x) comme régresseur de la variable d’intérêt Y
Variante 2:
Y = 𝛼 𝑡 + 𝛽𝑡 p( T = 1 | X = x) (t = 0,1)
Y = 𝛼𝑡+ 𝛽𝑡X (t = 0,1)
On peut également considérer directement b(x) comme étant les covariables X
qui décrivent les individus

Autres méthodes
Inverse Propensity Weighting
Utilisation du Propensity score comme moyen de pondération quand les
méthodes issues des corollaires 1 et 2 sont inefficaces.
Doubly Robust Estimation
Combinaison des résultats obtenus avec la méthode IPW et la variante 2 du
corollaire 3.

Etape 1 : matching grâce au propensity score
En se basant sur les des individus du groupe de
traitement, on choisit les individus du groupe de contrôle avec ayant les
probabilités les plus proches des
Différentes algorithmes
Stratified matching
Nearest Neighbor Matching
N :N matching
Radius matching
Kernel matching
Mahalanobis Metric matching
Caliper Matching
Etape 2 : obtention de Yi(0) sachant Yi(1)
Cette quantité représente la mesure de l’effet du traitement sur Y
𝑝𝑖 = p( T = 1 | X = 𝑥𝑖),
τ = E(𝒀𝒊(1)) – E(𝒀𝒊(0))
𝑝𝑖

Interprétation :
logit{p( T = 1 | X = x, U = u)} = λ(X) + γu, avec u compris dans [0 ; 1] et λ(・ ) qui est une fonction de X inconnue
et γ qui est un paramètre inconnu
- Si γ = 0 et 0 < λ(x) < 1 pour tout x, l’hypothèse de « forte ignorabilité » reste vérifiée puisqu’ une variable
potentiellement inobservée u n’a aucun effet sur le traitement T conditionnellement à X.
- Si γ ≠0, u est une variable inobservée qui a un effet sur (Y (0), Y (1)) et aussi sur le traitement T
donc hypothèse de « forte ignorabilité » altérée.
Un individu j possède:
 La probabilité 𝑝𝑗 = p( T = 1 | X = 𝑥𝑗 ) telle que
log { 𝑝𝑗 / (1 - 𝑝𝑗 )} = λ(𝑥𝑗 ) + γ𝑢𝑗 , avec 𝑢𝑗 compris dans [0 ; 1]
 L’odds - ratio de recevoir le traitement est : 𝑝𝑗 / (1 - 𝑝𝑗 )
log(𝑝𝑗 /(1 – 𝑝𝑗 ) - log(𝑝 𝑘/(1 – 𝑝 𝑘) ) = γ*(𝑢 𝑘 – 𝑢𝑗 )
(𝑝𝑗 /(1 – 𝑝𝑗 ) / (𝑝 𝑘/(1 – 𝑝 𝑘) ) = exp [ γ*(𝑢 𝑘 – 𝑢𝑗 )] = Г(𝑢 𝑘 – 𝑢 𝑗 )
Si deux individus k et j diffèrent seulement
suivant
1
Г
≤
𝑝 𝑗 / (1 – 𝑝 𝑗 )
𝑝 𝑘 / (1 – 𝑝 𝑘)
≤ Г
Le terme Г = exp(γ) possède alors une interprétation en tant que odds-ratio entre
les individus j et k et vérifie :
𝑢 𝑘 et 𝑢𝑗
Objectif : effet causal significatif du traitement ?
et existence de l’effet du traitement si présence d’une variable inobservée U
?

Si Y qualitative : test de Mac Nemar
Principe : exprimer le test de Mac Nemar en fonction de Г
La statistique de test appartient à [1/(1+ Г); Г /(1+ Г)]
On appelle la borne inférieure p-
On appelle la borne supérieure p+
Alors, la p-value appartient à
(*) [ (
𝑛
𝑘
𝑛
𝑎=𝑘 ) 𝑝− 𝑎
+ 1 − 𝑝− 𝑛−𝑎
; (
𝑛
𝑘
𝑛
𝑎=𝑘 ) 𝑝+ 𝑎
+ 1 − 𝑝+ 𝑛−𝑎
]
Pour chaque valeur de Г, on regarde si la valeur 0.05 est comprise
dans l’intervalle (*)
Si Y continue : test du Signed rank de Wilcoxon
Conclusion : l’analyse de sensitivité permet d’examiner si une variable inobservée pourrait
avoir une influence sur la variable d’intérêt Y et sur la variable d’affectation du traitement T
étant donné des caractéristiques X. Si la variable inobservée a une influence alors
l'hypothèse d'ignorabilité forte peut être remise en cause.
L’analyse de sensitivité permet donc d’évaluer la robustesse de la significativité de l’effet
du traitement par rapport à la présence d’un biais dû à une variable inobservée
D’après la littérature, Г >3 signifie insensibilité à la présence d’une variable inobservée.

Quelques études : problématique + techniques appliquées
Santé : exemple d’application d’un Propensity score stratifié
Traitement chirurgical versus un traitement médical sur les chances de
survie et
l’amélioration de l’état de santé
Marketing
 Étude Google :
problématique avec biais de sélection + Doubly Robust Estimation
 Téléphonie mobile :
amélioration d’un modèle grâce au Propensity score

Etude WIA
Un programme aux États - Unis a fait l’objet d’une étude.
Un indicateur existant :
« taux d’entrée dans un emploi des adultes » parmi ceux qui ne travaillent pas, pour un
trimestre donné
Étude envisagée:
Étude de l’effet du programme Adults sur des personnes n’ayant pas travaillé
durant cinq trimestres qui précèdent l’entrée dans le programme.
Données à disposition:
 les données sur les individus ayant participé soit au programme Adults, entre Juillet
2003 et Juin 2005.
 Les salaires des individus qui concernent la période allant du 2ème trimestre 2002 au
3ème trimestre 2007.
 Les allocations chômage perçues par les individus entre janvier 2000 et août 2008.

Méthodologie utilisée
Réalisation des groupes de traitement et de contrôle avec les variables descriptives des individus
Création de variable d’intérêt Y « avoir trouvé / retrouvé un emploi Oui/Non »
Constat de valeurs manquantes : pour les variables DISABLE, VET, HISPANIC et YEARSED
Imputation du groupe de traitement avec la procédure MI / instruction FCS
Tirage aléatoire d’un groupe de contrôle de même effectif que le groupe de traitement
Obtention du Propensity score par régression logistique
Application du Propensity score au groupe de contrôle exhaustif
Matching : obtention du groupe de contrôle matché avec l’algorithme Nearest Neighboor
caliper matching without replacement avec caliper = 0.2*s où s désigne l’écart-type des logit
des Propensity score du groupe de traitement
Sorties de l’analyse de la qualité des Propensity score, des AUC, taux de mals classés et %
d’emploi / retour à l’emploi dans les groupes de traitement et le groupe de contrôle matché avec
IC 95%.

Comparaison des modèles
Comparaison d’un modèle simple versus un modèle amélioré:
le modèle simple n’utilise que les variables descriptives « simples »
Modèle amélioré :
 regroupement de modalités des variables AGE et YEARSED avec %COLLAPSE
 Nouvelles variables :
 le nombre de trimestres travaillés précédant les cinq trimestres avant l’entrée
dans le programme Adults.
 Les revenus précédant les cinq trimestres avant l’entrée dans le programme
Adults.
 Le type de secteur professionnel occupé lors du dernier emploi occupé (variable
existante appelée INDUSTRY)
 Le nombre de trimestres écoulés depuis le dernier emploi précédant le trimestre
20033.
 Le montant des allocations chômage perçues pendant le suivi du programme
Adults.

Résultats
Premier résultat: nombre d’observations peu élevée pour l’échéance d’entrée 20033.
Résultats interprétables que pour le couple (20033, 20034) :
• modèle amélioré meilleur
• effet de +1,14%
• distributions des Propensity score et des variables explicatives très proches entre le
groupe de traitement vs le groupe de contrôle matché
Autres échéances d’entrée : tailles des échantillons pour les régressions
logistique, plus grandes > 1000 observations
Le modèle amélioré est meilleur que le modèle simple
Exemple : échéance d’entrée 20042
Modèle
simple
Modèle
amélioré
Trimestre
de sortie
Trimestre
de retour à
l'emploi AUC
Taux de
mals
classés
% groupe de
traitement
% groupe de
contrôle
matché AUC
Taux de
mals
classés
% groupe de
traitement
% groupe de
contrôle
matché
20042 20043 0,764 30,59 20,78 22,37 0,792 27,42 20,78 21,93
20043 20044 0,77 28,99 19,28 20,18 0,805 26,05 19,28 19,03
20044 20051 0,827 24,8 13,49 16,72 0,836 24,75 13,50 17,56
20051 20052 0,785 27,28 10,55 25,64 0,812 24,95 10,56 25,21
20052 20053 0,785 27,89 14,28 29,26 0,785 26,79 14,27 28,39

Résultats
Distributions des Propensity score et des variables explicatives très proches entre le
groupe de
traitement vs le groupe de contrôle matché, surtout pour les nouvelles variables :
NB_TRIM_TRAVAILLE, INDUSTRY, REVENU, NB_TRIM_ECOULE et ALLOC_CHOM
Couple (20044, 20051) et vérifié pour tous les autres couples
78.69% 78.12%
1.95% 2.18%
5.86% 5.97%
2.35% 2.64%3.73% 3.68%
7,41% 7.41%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Groupe de traitement Groupe de contrôle
matché
Distribution variable Nombre de trimestres travaillés :
groupe de traitement vs groupe de contrôle matché
Aucun trim
Cinq trim
Deux trim
Quatre trim
Trois trim
Un trim
78.69% 78.12%
21.31% 21.88%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
matché
Distribution variable Nombre de trimestres écoulés :
groupe de traitement vs groupe de contrôle matché
Aucun trim
> 5 trim

1.32% 1.44%
2.70% 3.33%
78.86% 79.49%
1.26% 0.75%
12.06% 11.37%
3.79% 3.62%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
matché
Distribution variable Industry : groupe de traitement vs
groupe de contrôle matché
Construction
Manufacturing
Missing
Other
Services
Trade
Résultats
78.69% 78.12%
21.31% 21.88%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
matché
Distribution variable Revenu : groupe de traitement vs
groupe de contrôle matché
revenu nul
Revenu > 0
99.83% 99.77%
0.17% 0.23%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Groupe de
traitement
Groupe de contrôle
matché
Distribution variable Allocation chômage : groupe
de traitement vs groupe de contrôle matché
aucune alloc
Alloc > 0

2.63%
6.85%
-25%
-20%
-15%
-10%
-5%
0%
5%
10%
15%
20%
20041 20042 20043 20044 20051 20052 20053
Comparaison de l’effet pour entrée 20034 et
échéances de sortie 20034, 20041, 20042, 20043,
20044, 20051 et 20052
Borne inf IC 95%
Différence %
groupe traitement
- % groupe
contrôle
Borne sup IC 95%
Effets légèrement > 0 pour les échéances (20034, 20034), (20034, 20041) et
(20041, 20041)
Effets deviennent nuls si les personnes suivant le programme pendant 2 ou 3
ou 4 trimestres
Effet < 0 si on reste au moins 4 trimestres dans le programme pour (20041,
20044)
Certains effets sont très < 0
7.40%
-25%
-20%
-15%
-10%
-5%
0%
5%
10%
15%
20%
20042 20043 20044 20051 20052 20053
échéances de sortie 20041, 20042, 20043, 20044,
20051 et 20052
Borne inf IC 95%
Différence %
groupe
traitement - %
groupe contrôle

-2.92%
-18%
-16%
-14%
-12%
-10%
-8%
-6%
-4%
-2%
0%
2%
4%
20051 20052 20053
échéances de sortie 20044, 20044, 20051 et 20052
Borne inf IC 95%
Différence %
groupe traitement
- % groupe
contrôle
Borne sup IC
95%
-1.15%
0.26%
-20%
-15%
-10%
-5%
0%
5%
10%
20043 20044 20051 20052 20053
échéances de sortie 20042, 20043, 20044, 20051 et
20052
Borne inf IC 95%
Différence %
groupe traitement
- % groupe
contrôle
Borne sup IC 95%
-0.12%
-3.13%
-20%
-15%
-10%
-5%
0%
5%
10%
20044 20051 20052 20053
échéances de sortie 20043, 20044, 20051 et 20052
Borne inf IC 95%
Différence %
groupe traitement
- % groupe
contrôle
Borne sup IC
95%
Effets deviennent < 0 dès le 2ème
trimestre de suivi du programme
pour (20043, 20044) et (20044,
20051)
Certains effets sont très < 0

Couple (20041, 20041) :
• effet légèrement > 0 avec +7,4 %
• 635 couples matchés, soit 635 individus dans le groupe de traitement
versus 635 individus dans le groupe de contrôle matché
• Parmi les 199 couples appariés dont une des deux personnes du couple a
trouvé emploi, il y a 123 couples appariés (soit 61.81 %) dont une personne
appartient au groupe de traitement et a trouvé un emploi
Le Mac Nemar test indique aussi un effet > 0 (package Rbounds et
Quickcalcs)
OR = 1.618 (Quickcalcs)
Couple (20041, 20051) :
• effet très < 0 avec - 15 %
• 1475 couples matchés, soit 1475 individus dans le groupe de traitement
versus 1475 individus dans le groupe de contrôle matché
• Parmi les 462 (116 + 346) couples appariés dont une des deux
personnes du couple a trouvé emploi, il y a 116 couples appariés (soit
25,108%) dont une personne appartient au groupe de traitement et a trouvé
un emploi
Le Mac Nemar test indique un effet très < 0 (package Rbounds et
Quickcalcs)
OR = 0.335 (Quickcalcs)

Par contre pour les couples (20041,20042) et (20041, 20043),
effet nul (p-value élevées avec Rbounds)
Parmi les 226 (110+ 116) couples appariés dont une des deux
personnes du couple a trouvé emploi, il y a 110 couples
appariés (soit 48.67 %) dont une personne appartient au groupe
de traitement et a trouvé un emploi
Parmi les 226 (112 + 114) couples appariés dont une des deux
personnes du couple a trouvé emploi, il y a 112 couples
appariés (soit 49.56 %) dont une personne appartient au groupe
de traitement et a trouvé un emploi
Autant de chances de trouver un emploi dans le groupe de
traitement et dans le groupe de contrôle matché
Le test de Mac Nemar n’indique pas un effet du programme
Adults

20041-20041
Γ Lowerbound Upper bound
1.0 0.00053 0.00053
1.1 0.00004 0.00459
1.2 0.00000 0.02299
1.3 0.00000 0.07535
1.4 0.00000 0.17827
1.5 0.00000 0.32832
20041-20051
Γ Lowerbound Upper bound
1.0 1 1
1.2 1 1
1.4 1 1
1.6 1 1
1.8 1 1
2.0 0.99995 1
2.2 0.99842 1
2.4 0.98244 1
2.8 0.73803 1
3.0 0.49642 1
3.2 0.27199 1
3.4 0.12253 1
3.6 0.04640 1
3.8 0.01514 1
4.0 0.00436 1
4.2 0.00113 1
4.4 0.00027 1
4.6 0.00006 1
4.8 0.00001 1
5.0 0.00000 1
Test de Mac Nemar
20041-20041 McNemar's chi-squared = 11.1005, df = 1, p-value = 0.000863
20041-20051 McNemar's chi-squared = 114.5022, df = 1, p-value < 2.2e-16
-Léger effet causal positif pour
(20041, 20041) : Г = 1.2
- Effet nul pour (20041, 20042) et
(20041, 20043)
- Effet causal très négatif pour
(20041, 20051) : Г appartient à
[3.6; 5]
Analyse de sensitivité : package Rbounds

Conclusion
Personnes avec longue inactivité professionnelle
Mesure de l’effet du programme Adults sur le retour à l’emploi:
régression logistique + algorithme Nearest Neighboor Caliper
matching without replacement
Constats - étude :
• effet > 0 du programme si entrée pour 20034 et 20041
• La durée de suivi du programme ne doit pas excéder 2 trimestres
• Programme pas efficace si on reste longtemps et si trimestre
d’entrée
proche de 20052
• Analyse de sensitivité : utile en cas d’effet significatif d’un
traitement sur Y. Met en évidence un effet « causal » très < 0 du
programme Adults
Si choix d’autres techniques plus « data-mining »: quelle méthode
d’analyse sensitivité ?
Ou bien utiliser une méthode sans analyse de sensitivité nécessaire

Propensity score matching

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (10)

Similaire à Propensity score matching

Similaire à Propensity score matching (17)

Propensity score matching