3. Introduction
Le modèle de Cox (1972) en temps continu, connu aussi sous
le nom de modèle semi-paramétrique à risques
proportionnels, est un modèle d’analyse de survie du type
régression.
Il permet de quantifier et de tester les effets propres de
caractéristiques individuelles telles que sexe, niveau de
formation, classe sociale, nationalité, expérience passée, etc.,
sur le risque de transition.
4. L’idée de base est d’écrire le risque comme le produit de
deux éléments, le premier est un risque de base alors que le
second est fonction des seules variables explicatives.
Introduction
6. Définition
Soient 𝑋1, … , 𝑋 𝑛 les durées de survie et 𝐶1, … , 𝐶 𝑛les durées de
censures des n individus considérés sont supposées
indépendants.
On observe la suite des n couples des variables 𝑇𝑖, 𝛿𝑖 telles
que :
𝑇𝑖 = 𝑋𝑖⋀𝐶𝑖 et 𝛿𝑖 = 𝐼 𝑋 𝑖≤𝐶𝑖
Du plus, sur chaque individu i, on observe une variable
aléatoire (ou vecteur aléatoire)𝑍 dont dépend de 𝑋𝑖sont
généralement appelées covariables.
7. La fonction de hasard se met sous la forme :
ℎ 𝑡, 𝑧 = ℎ0 𝑡 𝑒𝑥𝑝 𝛽 𝑡
𝑍
Où :
ℎ0 𝑡 : le risque de base.
𝛽 𝑡
= 𝛽1, … , 𝛽𝑝 : Paramètre liés aux covariables.
8. La fonction de vraisemblance
partielle de Cox
La fonction de vraisemblance partielle de Cox est défini par :
𝐿 𝑐𝑜𝑥 =
𝑒 𝛽 𝑡 𝑍 𝑖
𝑒 𝛽 𝑡 𝑍 𝑖
𝑗∈𝑅 𝑖
𝛿 𝑖𝑛
𝑖=1
Où 𝑅𝑖 : l’ensemble des individus à risques à la date𝑇𝑖.
9. Estimation des paramètres
Estimation 𝛽
On peut estimer 𝛽 par la méthode de maximum de
vraisemblance :
𝐿(𝛽) = 𝑙𝑜𝑔𝐿 𝑐𝑜𝑥 = 𝑧𝑖 𝛽 − 𝑙𝑜𝑔 𝑧 𝑘 𝛽
𝑘∈𝑅 𝑖
𝑑
𝑖=1
Où
𝑑 = 𝛿𝑖
𝑛
𝑖=1 : le nombre de décés.
𝜕𝑙𝑜𝑔𝐿 𝑐𝑜𝑥
𝜕𝛽𝑗
= 0
0 ≤ 𝑗 ≤ 𝑝
𝑚𝑎𝑡𝑟𝑖𝑐𝑒 𝑑𝑒𝑠 𝑑é𝑟𝑖𝑣é𝑒𝑠 𝑠𝑒𝑐𝑜𝑛𝑑𝑒 𝑒𝑠𝑡 𝑑é𝑓𝑖𝑛𝑖𝑒 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒
(1)
10. Estimation de la fonction de survie
Pour un modèle à risque proportionnel, la fonction de survie S(t,z) d’un
individu avec profil se déduit de la fonction de survie de S0(t),
correspondant au profil virtuel de référence, par la relation :
Le modèle de Cox donne l’estimation des coefficients. Pour obtenir une
estimation de la probabilité de survie S(t,z), il nous faut encore une
estimation de la fonction S0(t) de référence.
En l’absence d’hypothèses sur la forme de la distribution, on estime
S0(t) de façon non paramétrique.
𝑆 𝑡, 𝑧 = 𝑆0 𝑡 exp (𝑧′ 𝛽)
11. Lorsque les paramètres 𝛽 sont estimés, trois tests,
asymptotiquement équivalents, permettent de déterminer si les
coefficients 𝛽 estimés sont significativement différents de 0
(test de l’hypothèse nulle des 𝛽).
Test d’homogénéités
12. Cas d’une seule variable
L’hypothèse de test : 𝐻0: 𝛽 = 0 Contre 𝐻1: 𝛽 ≠ 0
On pose : 𝑈 𝛽 =
𝜕𝑙𝑜𝑔𝐿 (𝛽)
𝜕𝛽
= 0
• Score 𝑆𝐶 =
𝑈 𝛽 2
𝑣𝑎𝑟 𝑈 𝛽
↝ 𝜒2 1𝑑𝑑𝑙
• Wald 𝑊 =
𝛽2
𝑣𝑎𝑟 𝛽
↝ 𝜒2
1𝑑𝑑𝑙
• Rapport de vraisemblance
𝑉 = 2 𝐿 𝛽 − 𝐿 0 ↝ 𝜒2
1𝑑𝑑𝑙
13. La décision
Si p-value 𝑃 𝜒1
2
> 𝑆𝑇 obtenue est inférieure à 5% on rejette
𝐻0 et on en déduit que le coefficient est significativement
différent de 0 et donc que la variable est nécessaire dans le
modèle.
14. Généralisation
• Score
𝑆𝐶 =
𝜕𝑙𝑜𝑔𝐿
𝜕𝛽 𝛽=0
𝐽 𝑛
−1 0
𝜕𝑙𝑜𝑔𝐿
𝜕𝛽
′
→ 𝜒2 𝑝 𝑑𝑑𝑙
𝐽 𝑛
−1 𝛽 =
𝜕2 𝑙𝑜𝑔𝐿
𝜕𝛽 𝑖 𝜕𝛽 𝑗 0≤𝑖≤𝑝
0≤𝑗≤𝑝
: La matrice d’information de Fisher.
• Wald 𝑊 = 𝛽 𝑡 𝐽 𝑛
−1 𝛽 𝛽 𝜒2 𝑝𝑑𝑑𝑙
• Rapport de vraisemblance
𝑉 = 2 𝐿 𝛽 − 𝐿 0 𝜒2 𝑝𝑑𝑑𝑙
𝐻0: 𝛽1 = 𝛽2, … , 𝛽𝑝 = 0 Contre
𝐻1: qu’un au moins des coefficients est non nul.
15. Les résidus
Dans les modèles de survie, le modèle général de résidus pour
un individu i,𝑀𝑖 𝑡 s’écrit :
𝑀𝑖 𝑡 = 𝑁𝑖 𝑡 − 𝐸𝑖 𝑡
Où 𝑁𝑖 𝑡 est le nombre d’événements observés dans l’intervalle
[0, t [pour un individu i et 𝐸𝑖 𝑡 est le nombre d’événement
attendu (selon le modèle) dans l’intervalle [0, t [pour le même
individu i. Ou en terme plus simple, le résidu est égal aux
différences entre les données observées et les données
modélisées.
16. Résidus de Schönefeld standardisés
On peut vérifier l’hypothèse de proportionnalité à l’aide des
résidus de Schönefeld. Cependant, en 1994, Grambsch et
Therneau ont proposé de donner un poids aux différents
résidus, ce qui a donné naissance aux résidus de Schoenfeld
standardisés. Ils sont plus puissants et plus utilisés pour
vérifier l’hypothèse de proportionnalité sur laquelle le modèle
de Cox repose.
17. Le vecteur des résidus de Schoenfeld est obtenu comme
moyenne pondérée de chaque explicative et calculé pour
chacun des temps d’évènement. Soit 𝑧𝑖 = (𝑧𝑖1, … , 𝑧𝑖𝑝 ) le
vecteur des valeurs des explicatives afférentes à l’individu i
au temps 𝑡𝑖, alors Chaque résidu 𝑟𝑖𝑗 est défini comme :
𝑟𝑖𝑗 = 𝑧𝑖𝑗 − 𝑧𝑗 (𝑡𝑖, 𝛽)
Où 𝑧𝑗 𝑡𝑖, 𝛽 la moyenne pondérée des valeurs de covariable 𝑗
pour l’ensemble des cas exposés au risque en 𝑡𝑖.
𝑧𝑗 𝑡𝑖, 𝛽 =
𝑧𝑗 𝑒𝑥𝑝 𝛽 𝑧𝑗𝑗∈𝑅 𝑡 𝑖
𝑒𝑥𝑝 𝛽 𝑧𝑗𝑗∈𝑅 𝑡 𝑖
18. Avec cette définition, la somme des résidus est nulle par
construction pour chaque covariable j.
L’examen de ces résidus s’avère en particulier utile pour juger de la
pertinence de l’hypothèse de proportionnalité, dans ce cas
d’évaluation les résidus standardisés de Schönefeld sont le plus
souvent appliqués.
Les résidus se sont standardisés par la formule suivante :
𝑟𝑗
∗
= [𝑉 𝑟𝑗 ]−1
𝑟𝑗
Où : 𝑟𝑗 = (𝑟1𝑗 , 𝑟2𝑗 , … , 𝑟𝑝𝑗 )
Et 𝑉 : est la matrice variance-covariance de 𝑟𝑗 .
19.
20. 1.Présentation des données
Des données démographiques, personnelle, et clinique sont extraites
d’un examen physiologique de 200 participants dans une étude sur la
maladie cardio-vasculaire (CVD : cardio-vascular disease).
Ces participants sont âgés de 50-79 ans et n’ont pas la maladie CVD
au début de l’étude, ils sont suivis pendant 10 ans. On a un sous-
ensemble de données de 68 participants.
Le phénomène que l’on se propose d’analyser est le développement
de la maladie CVD, ou plus précisément comment la fonction de
risque de cette maladie est influencée par des caractéristiques
individuelles.
21. T représente la variable d’intérêt qui définit la durée (ans) de
l’examen initial au premier diagnostic de la maladie ou un décès
dû au CVD.
Les covariables sont:
AGE : l’âge de 50-79 ans
SEX =
1 pour homme
0 pour femme
SMOKE =
1 fumeur
0 non fumeur
BMI : un indice égal au poids en KG divisé par l’hauteur en M2
.
LACR : le logarithme du rapport entre l’albumine urinaire et la
créatine.
CENS =
1 si censure
0 sinon
22. On s’intéresse à comparer le risque de CVD entre 3 groupes
d’âge : 50-59, 60-69, et 70-79. Pour cela on a créé deux
variables :
AGEA =
1 si 50 < 𝐴𝐺𝐸 < 69
0 sinon
AGEB =
1 si 60 < 𝐴𝐺𝐸 < 69
0 sinon
Ainsi pour le groupe 70-79, AGEA=0 et AGEB=0.
23. 2. Estimation d’un premier modèle
Nous commençons par illustrer l’estimation d’un premier modèle dans
lequel nous cherchons à expliquer le risque de la maladie CVD en fonction
des facteurs : AGEA, AGEB, SEX, SMOKE, LACR, BMI.
L'ajustement d'un modèle de régression à hasards proportionnels sur des
données (i.e. l'estimation des paramètres ) se fait au moyen de la fonction
coxph du package survival . Sous le logiciel R, on procède comme
suit :
> library(survival) # chargement du package
> CVD<-read.table("CVD.txt",h=T) # Importation des données dans R
# Modèle de régression de Cox :
> CVD.coxph<-coxph(Surv(T,CENS==1)~AGEA+AGEB+SEX+SMOKE+BMI+LACR)
> summary(CVD.coxph) # Récapitulatif des résultats du modèle
24. Sous "coef" on y lit le coefficient estimé de chaque facteur explicatif.
Celui-ci mesure l’effet du facteur sur le logarithme du risque.
En observant les signes des coefficients, on constate que les hommes
fumeurs avec un BMI et un ratio d’albumine-créatine élevés ont le plus
haut risque de CVD.
3. Interprétation des coefficients estimés
25. coef exp(coef) se(coef) z Pr(>|z|)
AGEA -0.62325 0.53620 0.44553 -1.399 0.16184
AGEB -0.09157 0.91249 0.46756 -0.196 0.84472
SEX 0.97611 2.65412 0.40895 2.387 0.01699 *
SMOKE 1.05871 2.88265 0.39522 2.679 0.00739 **
BMI 0.05319 1.05463 0.02959 1.797 0.07226 .
LACR 0.45597 1.57770 0.09590 4.754 1.99e-06 ***
Les coefficients des deux variables d’âge (AGEA et AGEB) sont négatifs ce
qui nous indique que les individus des groups les plus jeunes ont un niveau
bas du hasard risque de CVD.
On peut interpréter ces deux coefficient autrement, par exemple,
le coefficient d’AGEA vaut -0.62325, ce qui signifie que pour les individus
qui sont âgés entre 50-69 ans le logarithme de risque diminuent de -0.62325
et de -0.09157 pour les individus qui sont âgés entre 60-69 ans en lisant le
coefficient d’AGEB.
Il est souvent plus aisé d’interpréter l’exponentiel du coefficient donné
sous "exp(coef)".
Pour les variables continues, cet exponentiel représente l’augmentation du
risque sur chaque unité augmentée de la variable
• Pour le facteur SMOKE, exp(coef) vaut 2.88 et nous indique que le
risque de CVD pour un individu fumeur (SMOKE=1) est 2.88 fois de
celui d’un individu non fumeur (SMOKE=0).
• Pour le genre (SEX), l’exponentiel du coefficient est environ de 2.65
ceci signifie que, pour les mêmes valeurs des autres facteurs les
hommes âgés entre 50-79 ans ont 2.65 fois le risque de développer la
CVD pendant 10 ans.
• L’exponentiel du coefficient du facteur LACR vaut 1.577 et nous
montre que, pour toutes choses égales par ailleurs, le risque est
multiplié par 1.577 à chaque fois que LACR augmente d’une unité.
• La colonne se(coef) (Standard Error) donne l’erreur standard du
coefficient qui mesure la variabilité de l’estimateur utilisé.
• Les deux colonnes et concernent la statistique du ratio critique
utilisé pour tester la significativité individuelle de chaque coefficient.
Elles donnent respectivement la valeur de la statistique et la p-value
associée.
26. 4.Evaluation du modèle
La pertinence statistique d’un modèle se fonde en règle générale sur la
significativité statistique individuelle des coefficients, sur l’ajustement global,
et sur l’analyse des résidus.
coef se(coef) z Pr(>|z|)
AGEA -0.62325 0.44553 -1.399 0.16184
AGEB -0.09157 0.46756 -0.196 0.84472
SEX 0.97611 0.40895 2.387 0.01699
SMOKE 1.05871 0.39522 2.679 0.00739
BMI 0.05319 0.02959 1.797 0.07226
LACR 0.45597 0.09590 4.754 1.99e-06
Par exemple le coefficient de
SEX est 0.97611 et son erreur
standard 0.40895
Le ratio critique vaut
0.97611/0.40895=2.387
dont le carré est 5.67 soit la
valeur indiquée pour la
statistique de Wald.
4.1 Significativité individuelle des coefficients
Pour un coefficient individuel, la statistique de Wald est simplement le
carré du ratio critique.
27. On résume pour chaque facteur de régression les valeurs du ratio et la statistique
de Wald calculée selon la règle précédente dans le tableau suivant :
Covariable Ratio Wald Degré de
signification
Décision
AGEA -1.399 1,957 0.16184 Effet non significatif
AGEB -0.196 0,038 0.84472 Effet non significatif
SEX 2.387 5,698 0.01699 Effet significatif
SMOKE 2.679 7,177 0.00739 Effet significatif
BMI 1.797 3,229 0.07226 Effet non significatif
LACR 4.754 22,6 1.99e-06 Effet significatif
On compare la valeur de Wald pour un coefficient à un chi-deux à 1 degré
de liberté. D’après les résultats précédents on conclut que les effets des
covariables SEX, SMOKE et LACR sont significatifs,
𝑝𝑜𝑢𝑟 𝑖 = 1, 𝑝: 𝑯 𝟎: 𝛽𝑖 = 0 𝑣𝑠 𝑯 𝟏: 𝛽𝑖 ≠ 0
28. 4.2 Evaluation globale
Lorsque les paramètres β sont estimés, trois tests, asymptotiquement
équivalents, permettent de déterminer si les coefficients β estimés sont
significativement différents de 0.
Il s’agit du test de Wald (maximum de vraisemblance), le test du rapport
de vraisemblance et test du score [Therneau et Grambsch 2000]
29. Les statistiques du Khi-deux
Les indications sur l’ajustement global du modèle sont données dans le
tableau fourni par la fonction de régression. On y trouve :
- la statistique du khi-deux du rapport de vraisemblance.
- la statistique du khi-deux du test de Wald.
-La statistique du khi-deux du test du Score.
Ces statistiques permettent d’évaluer si globalement l’ensemble des
facteurs explicatifs considérés améliore significativement l’ajustement du
modèle naïf qui ne tient compte d’aucun facteur.
30. En d’autres termes, pour un modèle avec 𝑝 coefficients, ils permettent de
tester l’hypothèse :
𝑯 𝟎: 𝛽1 = 𝛽2. . , 𝛽𝑝 = 0 contre 𝑯 𝟏: qu’un au moins des coefficients est non nul.
Sous l’hypothèse 𝐻0 (modèle naïf), les trois statistiques sont distribuées
asymptotiquement selon une loi du khi-deux à 𝑝 degrés de liberté. On
considère donc l’amélioration par rapport au modèle naïf comme significative
lorsque la valeur de ces statistiques est suffisamment grande, soit lorsque leur
degré de signification est inferieur, en règle générale, à 5%.
Le degré de signification est ici défini comme la probabilité que le khi-deux
prenne une valeur supérieure à la valeur observée de la statistique.
31. Dans notre cas la valeur du Score est 30.9 supérieure à 𝜒6
2
= 12.59, ce que
confirme le degré de signification :
𝑠𝑖𝑔 𝑆𝑐𝑜𝑟𝑒 = 𝑃 𝜒6
2
> 𝑆𝑐𝑜𝑟𝑒 𝑜𝑏𝑠 = 30.9 = 2.652 . 10−0.5
On remarque que les valeurs des statistiques de Wald et rapport de
vraisemblance sont aussi supérieures 𝜒6
2
, et ceci confirmées par les
probabilités presque nulles.
Rsquare= 0.335 (max possible= 0.974 )
Likelihood ratio test= 27.74 on 6 df, p=0.000105
Wald test = 26.27 on 6 df, p=0.0001979
Score (logrank) test = 30.9 on 6 df, p=2.652e-05
Le modèle naïf doit donc être rejeté au profit du modèle ajusté. Cela ne
signifie pas que le modèle ajusté est satisfaisant, mais nous dit simplement
que le modèle ajusté fait mieux que le modèle naïf.
Pseudo R² : Il s’interprète plus ou moins comme la proportion de
réduction du défaut d’ajustement ou "dispersion résiduelle" du modèle naïf.
Dans cet exemple, on a R2=0.335 . La part "expliquée" de la "dispersion"
totale est de l’ordre de (33.5%).
32. Examen graphique des résidus partiels
5. Analyse des résidus :
Test de l'hypothèse de proportionnalité
Le modèle semi paramétrique de Cox est très général puisqu’il ne suppose
aucune hypothèse sur la distribution des durées. Il suppose cependant la
proportionnalité des risques. Il convient donc de vérifier que cette hypothèse
est raisonnable. Une première approche consiste à vérifier la proportionnalité
graphiquement. Une seconde repose sur des tests statistiques. Les tests
graphiques examinent les effets, c’est-à-dire les covariables introduites dans
le modèle, individuellement.
L’analyse graphique des résidus partiels de Schönefeld constitue une
alternative mieux à même de mettre en évidence les situations de non-
proportionnalité des risques. L’idée est qu’en cas de proportionnalité des
risques, l’écart entre le profil d’un cas i et le profil moyen des cas exposés
en ti devrait être aléatoire et indépendant de ti. On ne devrait donc pas
observer d’effets systématiques dans l’évolution des résidus partiels avec la
durée.
33. Pour ce fait on examine le diagramme de dispersion des résidus partiels selon la
durée t, augmenté de la droite de régression des résidus sur t.
On génère les graphiques des résidus pour les variables significatives du modèle
du Cox estimé SEX, SMOKE et LACR :
# Test de l'hypothèse de proportionnalité
# étude des résidus standardisés de Schoenfelds
> zph.CVD <- cox.zph(CVD.coxph)
> plot(zph.CVD[3]) # Graphique pour SEX
> abline(h=0, lty=3)
> plot(zph.CVD[4]) # Graphique pour SMOKE
> abline(h=0, lty=3)
> plot(zph.CVD[6]) # Graphique pour LACR
> abline(h=0, lty=3)
34. Représentation graphique des résidus standardisés de Schönefeld
Ces graphiques décrivent l’évolution des
résidus en fonction du temps (ans).
La droite de régression indique la tendance.
S’agissant du genre (SEX), Comme SEX
prend une valeur plus élevée pour les
hommes, cet effet s’interprète comme un
effet homme. La pente positive, indique que
les résidus sont positifs pour les hommes
(SEX= 1) et négatifs pour les hommes.
35. Test statistique sur les résidus:
Il consiste à tester si la pente de la droite de régression des résidus
partiels sur la durée est statistiquement significative.
On a obtenu les résultats suivants :
> zph.CVD
rho chisq p
AGEA -0.1813 0.9775 0.323
AGEB -0.0764 0.2053 0.650
SEX 0.0341 0.0453 0.831
SMOKE -0.1733 0.9576 0.328
BMI 0.1636 1.0137 0.314
LACR 0.1566 0.6438 0.422
GLOBAL NA 4.9163 0.555
Les p-values sont assez grand pour toutes les variables ce qui nous
amène à admettre l’hypothèse de proportionnalité des risques.
36. # Courbe de survie globale
> plot(survfit(CVD.coxph),xlab=c("Temps(ans)"),ylab=c("Probabilité
de survie"))
0 2 4 6 8
0.00.20.40.60.81.0
Temps (ans)
Probabilitédesurvie
Estimation de la fonction de survie: Représentation
graphique
# Courbe de Hasard cumulé
>plot(survfit(CVD.coxph),fun="cumhaz",xlab=c("Temps(ans)"),ylab=c("hasa
rd cumulé"))
0 2 4 6 8
0.00.10.20.30.40.50.6
Temps (ans)
hasardcumulé
38. On simule dans le cas d’une censure à risques compétitifs un n
échantillon 𝑥𝑖, 𝑧𝑖 = 𝑧𝑖
1
, 𝑧𝑖
2
, 𝑐𝑖
𝑖 = 1 … 𝑛, Où 𝑥𝑖 est la durée de vie de chaque individu i, 𝑐𝑖est
l’instant de censure d’individu i et les 𝑧𝑖 sont des covariables associes
a chaque individu.
On utilise :
- La loi exponentielle pour simuler la durée de survie
- La loi de Weibull pour simuler le temps de censeure
- La loi de binomial pour le covariable 1
- La loi Bernoulli pour simuler le covariable 2
39. Programme de simulation
sim_cox<-function(n,rate,shape){
library(survival) # chargement du package
x<-rexp(n,rate) #simulation la durée de survie par loi
exponentielle
de paramètre rate
c<-rweibull(n,shape,1) #simulation du temps de censure par loi
de Weibull
T<-ifelse(c<=x,c,x)
delta<-ifelse(x>c,0,1) #indicateur de censure
z1<-rbinom(n,10,0.25) #covariable1 suit une loi binomial
z2<-rbinom(n,1,0.5) #covariable2 suit une loi Bernoulli
table<-data.frame(x,c,T,delta,z1,z2)
print(table)
#Modèle de régression de Cox
sim.coxph<-coxph(Surv(T,delta==1)~z1+z2)
print(summary(sim.coxph)) #Récapitulatif des résultats du modèle
par(mfrow = c(2,3),mar = c(5,4,1,2)+.1,oma = c(0,0,2,0))
# Courbe de survie globale
plot(survfit(sim.coxph),xlab=c("Temps (ans)"),ylab=c("Probabilité
de survie"))
# Courbe de Hasard cumulé
plot(survfit(sim.coxph),fun="cumhaz",xlab=c("Temps
(ans)"),ylab=c("hasard cumulé"))
#Analyse des résidus(les résidus de Schoenfeld)
plot(cox.zph(sim.coxph))
plot(table$T, resid(sim.coxph))
print(cox.zph(sim.coxph))
}
sim_cox(1000,1,1)