SlideShare une entreprise Scribd logo
1  sur  39
Modèle de Cox
Application et Simulation
Présenté par:
Mlle KACI Soumia
Mlle KHELLOUF Nawel
ANNEE 2010-2011
Proposé par:
Mme O.SADKI
Plan
•Introduction
•Modèle de COX
•Application
•Simulation
Introduction
Le modèle de Cox (1972) en temps continu, connu aussi sous
le nom de modèle semi-paramétrique à risques
proportionnels, est un modèle d’analyse de survie du type
régression.
Il permet de quantifier et de tester les effets propres de
caractéristiques individuelles telles que sexe, niveau de
formation, classe sociale, nationalité, expérience passée, etc.,
sur le risque de transition.
L’idée de base est d’écrire le risque comme le produit de
deux éléments, le premier est un risque de base alors que le
second est fonction des seules variables explicatives.
Introduction
Modèle de Cox
Définition
Soient 𝑋1, … , 𝑋 𝑛 les durées de survie et 𝐶1, … , 𝐶 𝑛les durées de
censures des n individus considérés sont supposées
indépendants.
On observe la suite des n couples des variables 𝑇𝑖, 𝛿𝑖 telles
que :
𝑇𝑖 = 𝑋𝑖⋀𝐶𝑖 et 𝛿𝑖 = 𝐼 𝑋 𝑖≤𝐶𝑖
Du plus, sur chaque individu i, on observe une variable
aléatoire (ou vecteur aléatoire)𝑍 dont dépend de 𝑋𝑖sont
généralement appelées covariables.
La fonction de hasard se met sous la forme :
ℎ 𝑡, 𝑧 = ℎ0 𝑡 𝑒𝑥𝑝 𝛽 𝑡
𝑍
Où :
ℎ0 𝑡 : le risque de base.
𝛽 𝑡
= 𝛽1, … , 𝛽𝑝 : Paramètre liés aux covariables.
La fonction de vraisemblance
partielle de Cox
La fonction de vraisemblance partielle de Cox est défini par :
𝐿 𝑐𝑜𝑥 =
𝑒 𝛽 𝑡 𝑍 𝑖
𝑒 𝛽 𝑡 𝑍 𝑖
𝑗∈𝑅 𝑖
𝛿 𝑖𝑛
𝑖=1
Où 𝑅𝑖 : l’ensemble des individus à risques à la date𝑇𝑖.
Estimation des paramètres
Estimation 𝛽
On peut estimer 𝛽 par la méthode de maximum de
vraisemblance :
𝐿(𝛽) = 𝑙𝑜𝑔𝐿 𝑐𝑜𝑥 = 𝑧𝑖 𝛽 − 𝑙𝑜𝑔 𝑧 𝑘 𝛽
𝑘∈𝑅 𝑖
𝑑
𝑖=1
Où
𝑑 = 𝛿𝑖
𝑛
𝑖=1 : le nombre de décés.
𝜕𝑙𝑜𝑔𝐿 𝑐𝑜𝑥
𝜕𝛽𝑗
= 0
0 ≤ 𝑗 ≤ 𝑝
𝑚𝑎𝑡𝑟𝑖𝑐𝑒 𝑑𝑒𝑠 𝑑é𝑟𝑖𝑣é𝑒𝑠 𝑠𝑒𝑐𝑜𝑛𝑑𝑒 𝑒𝑠𝑡 𝑑é𝑓𝑖𝑛𝑖𝑒 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒
(1)
Estimation de la fonction de survie
Pour un modèle à risque proportionnel, la fonction de survie S(t,z) d’un
individu avec profil se déduit de la fonction de survie de S0(t),
correspondant au profil virtuel de référence, par la relation :
Le modèle de Cox donne l’estimation des coefficients. Pour obtenir une
estimation de la probabilité de survie S(t,z), il nous faut encore une
estimation de la fonction S0(t) de référence.
En l’absence d’hypothèses sur la forme de la distribution, on estime
S0(t) de façon non paramétrique.
𝑆 𝑡, 𝑧 = 𝑆0 𝑡 exp ⁡(𝑧′ 𝛽)
Lorsque les paramètres 𝛽 sont estimés, trois tests,
asymptotiquement équivalents, permettent de déterminer si les
coefficients 𝛽 estimés sont significativement différents de 0
(test de l’hypothèse nulle des 𝛽).
Test d’homogénéités
Cas d’une seule variable
L’hypothèse de test : 𝐻0: 𝛽 = 0 Contre 𝐻1: 𝛽 ≠ 0
On pose : 𝑈 𝛽 =
𝜕𝑙𝑜𝑔𝐿 (𝛽)
𝜕𝛽
= 0
• Score 𝑆𝐶 =
𝑈 𝛽 2
𝑣𝑎𝑟 𝑈 𝛽
↝ 𝜒2 1𝑑𝑑𝑙
• Wald 𝑊 =
𝛽2
𝑣𝑎𝑟 𝛽
↝ 𝜒2
1𝑑𝑑𝑙
• Rapport de vraisemblance
𝑉 = 2 𝐿 𝛽 − 𝐿 0 ↝ 𝜒2
1𝑑𝑑𝑙
La décision
Si p-value 𝑃 𝜒1
2
> 𝑆𝑇 obtenue est inférieure à 5% on rejette
𝐻0 et on en déduit que le coefficient est significativement
différent de 0 et donc que la variable est nécessaire dans le
modèle.
Généralisation
• Score
𝑆𝐶 =
𝜕𝑙𝑜𝑔𝐿
𝜕𝛽 𝛽=0
𝐽 𝑛
−1 0
𝜕𝑙𝑜𝑔𝐿
𝜕𝛽
′
→ 𝜒2 𝑝 𝑑𝑑𝑙
𝐽 𝑛
−1 𝛽 =
𝜕2 𝑙𝑜𝑔𝐿
𝜕𝛽 𝑖 𝜕𝛽 𝑗 0≤𝑖≤𝑝
0≤𝑗≤𝑝
: La matrice d’information de Fisher.
• Wald 𝑊 = 𝛽 𝑡 𝐽 𝑛
−1 𝛽 𝛽 𝜒2 𝑝𝑑𝑑𝑙
• Rapport de vraisemblance
𝑉 = 2 𝐿 𝛽 − 𝐿 0 𝜒2 𝑝𝑑𝑑𝑙
𝐻0: 𝛽1 = 𝛽2, … , 𝛽𝑝 = 0 Contre
𝐻1: qu’un au moins des coefficients est non nul.
Les résidus
Dans les modèles de survie, le modèle général de résidus pour
un individu i,𝑀𝑖 𝑡 s’écrit :
𝑀𝑖 𝑡 = 𝑁𝑖 𝑡 − 𝐸𝑖 𝑡
Où 𝑁𝑖 𝑡 est le nombre d’événements observés dans l’intervalle
[0, t [pour un individu i et 𝐸𝑖 𝑡 est le nombre d’événement
attendu (selon le modèle) dans l’intervalle [0, t [pour le même
individu i. Ou en terme plus simple, le résidu est égal aux
différences entre les données observées et les données
modélisées.
Résidus de Schönefeld standardisés
On peut vérifier l’hypothèse de proportionnalité à l’aide des
résidus de Schönefeld. Cependant, en 1994, Grambsch et
Therneau ont proposé de donner un poids aux différents
résidus, ce qui a donné naissance aux résidus de Schoenfeld
standardisés. Ils sont plus puissants et plus utilisés pour
vérifier l’hypothèse de proportionnalité sur laquelle le modèle
de Cox repose.
Le vecteur des résidus de Schoenfeld est obtenu comme
moyenne pondérée de chaque explicative et calculé pour
chacun des temps d’évènement. Soit 𝑧𝑖 = (𝑧𝑖1, … , 𝑧𝑖𝑝 ) le
vecteur des valeurs des explicatives afférentes à l’individu i
au temps 𝑡𝑖, alors Chaque résidu 𝑟𝑖𝑗 est défini comme :
𝑟𝑖𝑗 = 𝑧𝑖𝑗 − 𝑧𝑗 (𝑡𝑖, 𝛽)
Où 𝑧𝑗 𝑡𝑖, 𝛽 la moyenne pondérée des valeurs de covariable 𝑗
pour l’ensemble des cas exposés au risque en 𝑡𝑖.
𝑧𝑗 𝑡𝑖, 𝛽 =
𝑧𝑗 𝑒𝑥𝑝 𝛽 𝑧𝑗𝑗∈𝑅 𝑡 𝑖
𝑒𝑥𝑝 𝛽 𝑧𝑗𝑗∈𝑅 𝑡 𝑖
Avec cette définition, la somme des résidus est nulle par
construction pour chaque covariable j.
L’examen de ces résidus s’avère en particulier utile pour juger de la
pertinence de l’hypothèse de proportionnalité, dans ce cas
d’évaluation les résidus standardisés de Schönefeld sont le plus
souvent appliqués.
Les résidus se sont standardisés par la formule suivante :
𝑟𝑗
∗
= [𝑉 𝑟𝑗 ]−1
𝑟𝑗
Où : 𝑟𝑗 = (𝑟1𝑗 , 𝑟2𝑗 , … , 𝑟𝑝𝑗 )
Et 𝑉 : est la matrice variance-covariance de 𝑟𝑗 .
1.Présentation des données
Des données démographiques, personnelle, et clinique sont extraites
d’un examen physiologique de 200 participants dans une étude sur la
maladie cardio-vasculaire (CVD : cardio-vascular disease).
Ces participants sont âgés de 50-79 ans et n’ont pas la maladie CVD
au début de l’étude, ils sont suivis pendant 10 ans. On a un sous-
ensemble de données de 68 participants.
Le phénomène que l’on se propose d’analyser est le développement
de la maladie CVD, ou plus précisément comment la fonction de
risque de cette maladie est influencée par des caractéristiques
individuelles.
T représente la variable d’intérêt qui définit la durée (ans) de
l’examen initial au premier diagnostic de la maladie ou un décès
dû au CVD.
Les covariables sont:
AGE : l’âge de 50-79 ans
SEX =
1 pour homme
0 pour femme
SMOKE =
1 fumeur
0 non fumeur
BMI : un indice égal au poids en KG divisé par l’hauteur en M2
.
LACR : le logarithme du rapport entre l’albumine urinaire et la
créatine.
CENS =
1 si censure
0 sinon
On s’intéresse à comparer le risque de CVD entre 3 groupes
d’âge : 50-59, 60-69, et 70-79. Pour cela on a créé deux
variables :
AGEA =
1 si 50 < 𝐴𝐺𝐸 < 69
0 sinon
AGEB =
1 si 60 < 𝐴𝐺𝐸 < 69
0 sinon
Ainsi pour le groupe 70-79, AGEA=0 et AGEB=0.
2. Estimation d’un premier modèle
Nous commençons par illustrer l’estimation d’un premier modèle dans
lequel nous cherchons à expliquer le risque de la maladie CVD en fonction
des facteurs : AGEA, AGEB, SEX, SMOKE, LACR, BMI.
L'ajustement d'un modèle de régression à hasards proportionnels sur des
données (i.e. l'estimation des paramètres ) se fait au moyen de la fonction
coxph du package survival . Sous le logiciel R, on procède comme
suit :
> library(survival) # chargement du package
> CVD<-read.table("CVD.txt",h=T) # Importation des données dans R
# Modèle de régression de Cox :
> CVD.coxph<-coxph(Surv(T,CENS==1)~AGEA+AGEB+SEX+SMOKE+BMI+LACR)
> summary(CVD.coxph) # Récapitulatif des résultats du modèle
Sous "coef" on y lit le coefficient estimé de chaque facteur explicatif.
Celui-ci mesure l’effet du facteur sur le logarithme du risque.
En observant les signes des coefficients, on constate que les hommes
fumeurs avec un BMI et un ratio d’albumine-créatine élevés ont le plus
haut risque de CVD.
3. Interprétation des coefficients estimés
coef exp(coef) se(coef) z Pr(>|z|)
AGEA -0.62325 0.53620 0.44553 -1.399 0.16184
AGEB -0.09157 0.91249 0.46756 -0.196 0.84472
SEX 0.97611 2.65412 0.40895 2.387 0.01699 *
SMOKE 1.05871 2.88265 0.39522 2.679 0.00739 **
BMI 0.05319 1.05463 0.02959 1.797 0.07226 .
LACR 0.45597 1.57770 0.09590 4.754 1.99e-06 ***
Les coefficients des deux variables d’âge (AGEA et AGEB) sont négatifs ce
qui nous indique que les individus des groups les plus jeunes ont un niveau
bas du hasard risque de CVD.
On peut interpréter ces deux coefficient autrement, par exemple,
le coefficient d’AGEA vaut -0.62325, ce qui signifie que pour les individus
qui sont âgés entre 50-69 ans le logarithme de risque diminuent de -0.62325
et de -0.09157 pour les individus qui sont âgés entre 60-69 ans en lisant le
coefficient d’AGEB.
Il est souvent plus aisé d’interpréter l’exponentiel du coefficient donné
sous "exp(coef)".
Pour les variables continues, cet exponentiel représente l’augmentation du
risque sur chaque unité augmentée de la variable
• Pour le facteur SMOKE, exp(coef) vaut 2.88 et nous indique que le
risque de CVD pour un individu fumeur (SMOKE=1) est 2.88 fois de
celui d’un individu non fumeur (SMOKE=0).
• Pour le genre (SEX), l’exponentiel du coefficient est environ de 2.65
ceci signifie que, pour les mêmes valeurs des autres facteurs les
hommes âgés entre 50-79 ans ont 2.65 fois le risque de développer la
CVD pendant 10 ans.
• L’exponentiel du coefficient du facteur LACR vaut 1.577 et nous
montre que, pour toutes choses égales par ailleurs, le risque est
multiplié par 1.577 à chaque fois que LACR augmente d’une unité.
• La colonne se(coef) (Standard Error) donne l’erreur standard du
coefficient qui mesure la variabilité de l’estimateur utilisé.
• Les deux colonnes et concernent la statistique du ratio critique
utilisé pour tester la significativité individuelle de chaque coefficient.
Elles donnent respectivement la valeur de la statistique et la p-value
associée.
4.Evaluation du modèle
La pertinence statistique d’un modèle se fonde en règle générale sur la
significativité statistique individuelle des coefficients, sur l’ajustement global,
et sur l’analyse des résidus.
coef se(coef) z Pr(>|z|)
AGEA -0.62325 0.44553 -1.399 0.16184
AGEB -0.09157 0.46756 -0.196 0.84472
SEX 0.97611 0.40895 2.387 0.01699
SMOKE 1.05871 0.39522 2.679 0.00739
BMI 0.05319 0.02959 1.797 0.07226
LACR 0.45597 0.09590 4.754 1.99e-06
Par exemple le coefficient de
SEX est 0.97611 et son erreur
standard 0.40895
Le ratio critique vaut
0.97611/0.40895=2.387
dont le carré est 5.67 soit la
valeur indiquée pour la
statistique de Wald.
4.1 Significativité individuelle des coefficients
Pour un coefficient individuel, la statistique de Wald est simplement le
carré du ratio critique.
On résume pour chaque facteur de régression les valeurs du ratio et la statistique
de Wald calculée selon la règle précédente dans le tableau suivant :
Covariable Ratio Wald Degré de
signification
Décision
AGEA -1.399 1,957 0.16184 Effet non significatif
AGEB -0.196 0,038 0.84472 Effet non significatif
SEX 2.387 5,698 0.01699 Effet significatif
SMOKE 2.679 7,177 0.00739 Effet significatif
BMI 1.797 3,229 0.07226 Effet non significatif
LACR 4.754 22,6 1.99e-06 Effet significatif
On compare la valeur de Wald pour un coefficient à un chi-deux à 1 degré
de liberté. D’après les résultats précédents on conclut que les effets des
covariables SEX, SMOKE et LACR sont significatifs,
𝑝𝑜𝑢𝑟 𝑖 = 1, 𝑝: 𝑯 𝟎: 𝛽𝑖 = 0 𝑣𝑠 𝑯 𝟏: 𝛽𝑖 ≠ 0
4.2 Evaluation globale
Lorsque les paramètres β sont estimés, trois tests, asymptotiquement
équivalents, permettent de déterminer si les coefficients β estimés sont
significativement différents de 0.
Il s’agit du test de Wald (maximum de vraisemblance), le test du rapport
de vraisemblance et test du score [Therneau et Grambsch 2000]
Les statistiques du Khi-deux
Les indications sur l’ajustement global du modèle sont données dans le
tableau fourni par la fonction de régression. On y trouve :
- la statistique du khi-deux du rapport de vraisemblance.
- la statistique du khi-deux du test de Wald.
-La statistique du khi-deux du test du Score.
Ces statistiques permettent d’évaluer si globalement l’ensemble des
facteurs explicatifs considérés améliore significativement l’ajustement du
modèle naïf qui ne tient compte d’aucun facteur.
En d’autres termes, pour un modèle avec 𝑝 coefficients, ils permettent de
tester l’hypothèse :
𝑯 𝟎: 𝛽1 = 𝛽2. . , 𝛽𝑝 = 0 contre 𝑯 𝟏: qu’un au moins des coefficients est non nul.
Sous l’hypothèse 𝐻0 (modèle naïf), les trois statistiques sont distribuées
asymptotiquement selon une loi du khi-deux à 𝑝 degrés de liberté. On
considère donc l’amélioration par rapport au modèle naïf comme significative
lorsque la valeur de ces statistiques est suffisamment grande, soit lorsque leur
degré de signification est inferieur, en règle générale, à 5%.
Le degré de signification est ici défini comme la probabilité que le khi-deux
prenne une valeur supérieure à la valeur observée de la statistique.
Dans notre cas la valeur du Score est 30.9 supérieure à 𝜒6
2
= 12.59, ce que
confirme le degré de signification :
𝑠𝑖𝑔 𝑆𝑐𝑜𝑟𝑒 = 𝑃 𝜒6
2
> 𝑆𝑐𝑜𝑟𝑒 𝑜𝑏𝑠 = 30.9 = 2.652 . 10−0.5
On remarque que les valeurs des statistiques de Wald et rapport de
vraisemblance sont aussi supérieures 𝜒6
2
, et ceci confirmées par les
probabilités presque nulles.
Rsquare= 0.335 (max possible= 0.974 )
Likelihood ratio test= 27.74 on 6 df, p=0.000105
Wald test = 26.27 on 6 df, p=0.0001979
Score (logrank) test = 30.9 on 6 df, p=2.652e-05
Le modèle naïf doit donc être rejeté au profit du modèle ajusté. Cela ne
signifie pas que le modèle ajusté est satisfaisant, mais nous dit simplement
que le modèle ajusté fait mieux que le modèle naïf.
Pseudo R² : Il s’interprète plus ou moins comme la proportion de
réduction du défaut d’ajustement ou "dispersion résiduelle" du modèle naïf.
Dans cet exemple, on a R2=0.335 . La part "expliquée" de la "dispersion"
totale est de l’ordre de (33.5%).
Examen graphique des résidus partiels
5. Analyse des résidus :
Test de l'hypothèse de proportionnalité
Le modèle semi paramétrique de Cox est très général puisqu’il ne suppose
aucune hypothèse sur la distribution des durées. Il suppose cependant la
proportionnalité des risques. Il convient donc de vérifier que cette hypothèse
est raisonnable. Une première approche consiste à vérifier la proportionnalité
graphiquement. Une seconde repose sur des tests statistiques. Les tests
graphiques examinent les effets, c’est-à-dire les covariables introduites dans
le modèle, individuellement.
L’analyse graphique des résidus partiels de Schönefeld constitue une
alternative mieux à même de mettre en évidence les situations de non-
proportionnalité des risques. L’idée est qu’en cas de proportionnalité des
risques, l’écart entre le profil d’un cas i et le profil moyen des cas exposés
en ti devrait être aléatoire et indépendant de ti. On ne devrait donc pas
observer d’effets systématiques dans l’évolution des résidus partiels avec la
durée.
Pour ce fait on examine le diagramme de dispersion des résidus partiels selon la
durée t, augmenté de la droite de régression des résidus sur t.
On génère les graphiques des résidus pour les variables significatives du modèle
du Cox estimé SEX, SMOKE et LACR :
# Test de l'hypothèse de proportionnalité
# étude des résidus standardisés de Schoenfelds
> zph.CVD <- cox.zph(CVD.coxph)
> plot(zph.CVD[3]) # Graphique pour SEX
> abline(h=0, lty=3)
> plot(zph.CVD[4]) # Graphique pour SMOKE
> abline(h=0, lty=3)
> plot(zph.CVD[6]) # Graphique pour LACR
> abline(h=0, lty=3)
Représentation graphique des résidus standardisés de Schönefeld
Ces graphiques décrivent l’évolution des
résidus en fonction du temps (ans).
La droite de régression indique la tendance.
S’agissant du genre (SEX), Comme SEX
prend une valeur plus élevée pour les
hommes, cet effet s’interprète comme un
effet homme. La pente positive, indique que
les résidus sont positifs pour les hommes
(SEX= 1) et négatifs pour les hommes.
Test statistique sur les résidus:
Il consiste à tester si la pente de la droite de régression des résidus
partiels sur la durée est statistiquement significative.
On a obtenu les résultats suivants :
> zph.CVD
rho chisq p
AGEA -0.1813 0.9775 0.323
AGEB -0.0764 0.2053 0.650
SEX 0.0341 0.0453 0.831
SMOKE -0.1733 0.9576 0.328
BMI 0.1636 1.0137 0.314
LACR 0.1566 0.6438 0.422
GLOBAL NA 4.9163 0.555
Les p-values sont assez grand pour toutes les variables ce qui nous
amène à admettre l’hypothèse de proportionnalité des risques.
# Courbe de survie globale
> plot(survfit(CVD.coxph),xlab=c("Temps(ans)"),ylab=c("Probabilité
de survie"))
0 2 4 6 8
0.00.20.40.60.81.0
Temps (ans)
Probabilitédesurvie
Estimation de la fonction de survie: Représentation
graphique
# Courbe de Hasard cumulé
>plot(survfit(CVD.coxph),fun="cumhaz",xlab=c("Temps(ans)"),ylab=c("hasa
rd cumulé"))
0 2 4 6 8
0.00.10.20.30.40.50.6
Temps (ans)
hasardcumulé
Simulation
On simule dans le cas d’une censure à risques compétitifs un n
échantillon 𝑥𝑖, 𝑧𝑖 = 𝑧𝑖
1
, 𝑧𝑖
2
, 𝑐𝑖
𝑖 = 1 … 𝑛, Où 𝑥𝑖 est la durée de vie de chaque individu i, 𝑐𝑖est
l’instant de censure d’individu i et les 𝑧𝑖 sont des covariables associes
a chaque individu.
On utilise :
- La loi exponentielle pour simuler la durée de survie
- La loi de Weibull pour simuler le temps de censeure
- La loi de binomial pour le covariable 1
- La loi Bernoulli pour simuler le covariable 2
Programme de simulation
sim_cox<-function(n,rate,shape){
library(survival) # chargement du package
x<-rexp(n,rate) #simulation la durée de survie par loi
exponentielle
de paramètre rate
c<-rweibull(n,shape,1) #simulation du temps de censure par loi
de Weibull
T<-ifelse(c<=x,c,x)
delta<-ifelse(x>c,0,1) #indicateur de censure
z1<-rbinom(n,10,0.25) #covariable1 suit une loi binomial
z2<-rbinom(n,1,0.5) #covariable2 suit une loi Bernoulli
table<-data.frame(x,c,T,delta,z1,z2)
print(table)
#Modèle de régression de Cox
sim.coxph<-coxph(Surv(T,delta==1)~z1+z2)
print(summary(sim.coxph)) #Récapitulatif des résultats du modèle
par(mfrow = c(2,3),mar = c(5,4,1,2)+.1,oma = c(0,0,2,0))
# Courbe de survie globale
plot(survfit(sim.coxph),xlab=c("Temps (ans)"),ylab=c("Probabilité
de survie"))
# Courbe de Hasard cumulé
plot(survfit(sim.coxph),fun="cumhaz",xlab=c("Temps
(ans)"),ylab=c("hasard cumulé"))
#Analyse des résidus(les résidus de Schoenfeld)
plot(cox.zph(sim.coxph))
plot(table$T, resid(sim.coxph))
print(cox.zph(sim.coxph))
}
sim_cox(1000,1,1)

Contenu connexe

Tendances

Empreinte digitale
Empreinte digitaleEmpreinte digitale
Empreinte digitaleHejer Nouira
 
Programme national de lutte contre les infections respiratoires aigues
Programme national de lutte contre les infections respiratoires aiguesProgramme national de lutte contre les infections respiratoires aigues
Programme national de lutte contre les infections respiratoires aiguesMehdi Razzok
 
épidémiologie 2013
épidémiologie 2013épidémiologie 2013
épidémiologie 2013Mehdi Razzok
 
Les plantes médicinales: Caroubier
Les plantes médicinales: Caroubier Les plantes médicinales: Caroubier
Les plantes médicinales: Caroubier Viral00Z
 
Méthodes de recherche mixtes
Méthodes de recherche mixtesMéthodes de recherche mixtes
Méthodes de recherche mixtesComSanté
 
Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008Mohamed Kortbi
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
Biométrie d'Empreinte Digitale
Biométrie d'Empreinte DigitaleBiométrie d'Empreinte Digitale
Biométrie d'Empreinte DigitaleIntissar Dguechi
 
Les maladies professionnelles
Les maladies professionnellesLes maladies professionnelles
Les maladies professionnellesAbdeldjalil Gadra
 
Identification des empreintes digitales
Identification des empreintes digitalesIdentification des empreintes digitales
Identification des empreintes digitalesSarah
 
Préparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologiquePréparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologiqueAli Ali
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
Programme national de lutte contre la Rage
Programme national de lutte contre la RageProgramme national de lutte contre la Rage
Programme national de lutte contre la RageMehdi Razzok
 
Chp2 - Cahier des Charges
Chp2 - Cahier des ChargesChp2 - Cahier des Charges
Chp2 - Cahier des ChargesLilia Sfaxi
 
Epidemiologie frequence
Epidemiologie frequenceEpidemiologie frequence
Epidemiologie frequenceFoued Delleli
 
Organisation des prestations de soins
Organisation des prestations de soinsOrganisation des prestations de soins
Organisation des prestations de soinsJamal Ti
 

Tendances (20)

Empreinte digitale
Empreinte digitaleEmpreinte digitale
Empreinte digitale
 
Prévention contre le VIH et d'autres IST
Prévention contre le VIH et d'autres ISTPrévention contre le VIH et d'autres IST
Prévention contre le VIH et d'autres IST
 
Programme national de lutte contre les infections respiratoires aigues
Programme national de lutte contre les infections respiratoires aiguesProgramme national de lutte contre les infections respiratoires aigues
Programme national de lutte contre les infections respiratoires aigues
 
épidémiologie 2013
épidémiologie 2013épidémiologie 2013
épidémiologie 2013
 
Les plantes médicinales: Caroubier
Les plantes médicinales: Caroubier Les plantes médicinales: Caroubier
Les plantes médicinales: Caroubier
 
Méthodes de recherche mixtes
Méthodes de recherche mixtesMéthodes de recherche mixtes
Méthodes de recherche mixtes
 
Les virus
Les  virusLes  virus
Les virus
 
Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008Incertitude mesure cafmet_2008
Incertitude mesure cafmet_2008
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Le role de siaap
Le role de siaapLe role de siaap
Le role de siaap
 
Biométrie d'Empreinte Digitale
Biométrie d'Empreinte DigitaleBiométrie d'Empreinte Digitale
Biométrie d'Empreinte Digitale
 
Les maladies professionnelles
Les maladies professionnellesLes maladies professionnelles
Les maladies professionnelles
 
Identification des empreintes digitales
Identification des empreintes digitalesIdentification des empreintes digitales
Identification des empreintes digitales
 
Préparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologiquePréparation des échantilons pour l'analyse microbiologique
Préparation des échantilons pour l'analyse microbiologique
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Programme national de lutte contre la Rage
Programme national de lutte contre la RageProgramme national de lutte contre la Rage
Programme national de lutte contre la Rage
 
Chp2 - Cahier des Charges
Chp2 - Cahier des ChargesChp2 - Cahier des Charges
Chp2 - Cahier des Charges
 
Epidemiologie frequence
Epidemiologie frequenceEpidemiologie frequence
Epidemiologie frequence
 
Les systèmes de sante dans le monde [mode de compatibilité]
Les systèmes de sante dans le monde [mode de compatibilité]Les systèmes de sante dans le monde [mode de compatibilité]
Les systèmes de sante dans le monde [mode de compatibilité]
 
Organisation des prestations de soins
Organisation des prestations de soinsOrganisation des prestations de soins
Organisation des prestations de soins
 

Similaire à Cox

Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité Adad Med Chérif
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimationmarouane hdidou
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Into_GA.ppt
Into_GA.pptInto_GA.ppt
Into_GA.pptbetadir
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Exos genetique des pop
Exos genetique des popExos genetique des pop
Exos genetique des popchrafIssaoui
 
Cours de probabilites
Cours de probabilitesCours de probabilites
Cours de probabilitesomarBenhaggou
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Cours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoiresCours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoiresTAKMACHTE
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
expo-algo-gc3a9nc3a9tiques-ouessai.pptx
expo-algo-gc3a9nc3a9tiques-ouessai.pptxexpo-algo-gc3a9nc3a9tiques-ouessai.pptx
expo-algo-gc3a9nc3a9tiques-ouessai.pptxAnesKebbab
 

Similaire à Cox (20)

Stat6 Chideux
Stat6   ChideuxStat6   Chideux
Stat6 Chideux
 
Cours masterlyon
Cours masterlyonCours masterlyon
Cours masterlyon
 
Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimation
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Td5correction
Td5correctionTd5correction
Td5correction
 
Regression simple
Regression simpleRegression simple
Regression simple
 
Into_GA.ppt
Into_GA.pptInto_GA.ppt
Into_GA.ppt
 
Stat1 Les Indices
Stat1  Les IndicesStat1  Les Indices
Stat1 Les Indices
 
Loic sarton (2)
Loic sarton (2)Loic sarton (2)
Loic sarton (2)
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Exos genetique des pop
Exos genetique des popExos genetique des pop
Exos genetique des pop
 
Cours de probabilites
Cours de probabilitesCours de probabilites
Cours de probabilites
 
Cours de probabilites
Cours de probabilitesCours de probabilites
Cours de probabilites
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Cours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoiresCours n1 introduction_probabilits_et_variables_alatoires
Cours n1 introduction_probabilits_et_variables_alatoires
 
Stat3 Intervalle De Confiance
Stat3  Intervalle De ConfianceStat3  Intervalle De Confiance
Stat3 Intervalle De Confiance
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
expo-algo-gc3a9nc3a9tiques-ouessai.pptx
expo-algo-gc3a9nc3a9tiques-ouessai.pptxexpo-algo-gc3a9nc3a9tiques-ouessai.pptx
expo-algo-gc3a9nc3a9tiques-ouessai.pptx
 

Dernier

Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
BONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIE
BONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIEBONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIE
BONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIEgharebikram98
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
le present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxle present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxmmatar2
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxAsmaa105193
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 

Dernier (20)

Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
BONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIE
BONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIEBONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIE
BONNES PRATIQUES DE FABRICATION RESUME SIMPLIFIE
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
le present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxle present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptx
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. Marocpptx
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 

Cox

  • 1. Modèle de Cox Application et Simulation Présenté par: Mlle KACI Soumia Mlle KHELLOUF Nawel ANNEE 2010-2011 Proposé par: Mme O.SADKI
  • 3. Introduction Le modèle de Cox (1972) en temps continu, connu aussi sous le nom de modèle semi-paramétrique à risques proportionnels, est un modèle d’analyse de survie du type régression. Il permet de quantifier et de tester les effets propres de caractéristiques individuelles telles que sexe, niveau de formation, classe sociale, nationalité, expérience passée, etc., sur le risque de transition.
  • 4. L’idée de base est d’écrire le risque comme le produit de deux éléments, le premier est un risque de base alors que le second est fonction des seules variables explicatives. Introduction
  • 6. Définition Soient 𝑋1, … , 𝑋 𝑛 les durées de survie et 𝐶1, … , 𝐶 𝑛les durées de censures des n individus considérés sont supposées indépendants. On observe la suite des n couples des variables 𝑇𝑖, 𝛿𝑖 telles que : 𝑇𝑖 = 𝑋𝑖⋀𝐶𝑖 et 𝛿𝑖 = 𝐼 𝑋 𝑖≤𝐶𝑖 Du plus, sur chaque individu i, on observe une variable aléatoire (ou vecteur aléatoire)𝑍 dont dépend de 𝑋𝑖sont généralement appelées covariables.
  • 7. La fonction de hasard se met sous la forme : ℎ 𝑡, 𝑧 = ℎ0 𝑡 𝑒𝑥𝑝 𝛽 𝑡 𝑍 Où : ℎ0 𝑡 : le risque de base. 𝛽 𝑡 = 𝛽1, … , 𝛽𝑝 : Paramètre liés aux covariables.
  • 8. La fonction de vraisemblance partielle de Cox La fonction de vraisemblance partielle de Cox est défini par : 𝐿 𝑐𝑜𝑥 = 𝑒 𝛽 𝑡 𝑍 𝑖 𝑒 𝛽 𝑡 𝑍 𝑖 𝑗∈𝑅 𝑖 𝛿 𝑖𝑛 𝑖=1 Où 𝑅𝑖 : l’ensemble des individus à risques à la date𝑇𝑖.
  • 9. Estimation des paramètres Estimation 𝛽 On peut estimer 𝛽 par la méthode de maximum de vraisemblance : 𝐿(𝛽) = 𝑙𝑜𝑔𝐿 𝑐𝑜𝑥 = 𝑧𝑖 𝛽 − 𝑙𝑜𝑔 𝑧 𝑘 𝛽 𝑘∈𝑅 𝑖 𝑑 𝑖=1 Où 𝑑 = 𝛿𝑖 𝑛 𝑖=1 : le nombre de décés. 𝜕𝑙𝑜𝑔𝐿 𝑐𝑜𝑥 𝜕𝛽𝑗 = 0 0 ≤ 𝑗 ≤ 𝑝 𝑚𝑎𝑡𝑟𝑖𝑐𝑒 𝑑𝑒𝑠 𝑑é𝑟𝑖𝑣é𝑒𝑠 𝑠𝑒𝑐𝑜𝑛𝑑𝑒 𝑒𝑠𝑡 𝑑é𝑓𝑖𝑛𝑖𝑒 𝑛é𝑔𝑎𝑡𝑖𝑣𝑒 (1)
  • 10. Estimation de la fonction de survie Pour un modèle à risque proportionnel, la fonction de survie S(t,z) d’un individu avec profil se déduit de la fonction de survie de S0(t), correspondant au profil virtuel de référence, par la relation : Le modèle de Cox donne l’estimation des coefficients. Pour obtenir une estimation de la probabilité de survie S(t,z), il nous faut encore une estimation de la fonction S0(t) de référence. En l’absence d’hypothèses sur la forme de la distribution, on estime S0(t) de façon non paramétrique. 𝑆 𝑡, 𝑧 = 𝑆0 𝑡 exp ⁡(𝑧′ 𝛽)
  • 11. Lorsque les paramètres 𝛽 sont estimés, trois tests, asymptotiquement équivalents, permettent de déterminer si les coefficients 𝛽 estimés sont significativement différents de 0 (test de l’hypothèse nulle des 𝛽). Test d’homogénéités
  • 12. Cas d’une seule variable L’hypothèse de test : 𝐻0: 𝛽 = 0 Contre 𝐻1: 𝛽 ≠ 0 On pose : 𝑈 𝛽 = 𝜕𝑙𝑜𝑔𝐿 (𝛽) 𝜕𝛽 = 0 • Score 𝑆𝐶 = 𝑈 𝛽 2 𝑣𝑎𝑟 𝑈 𝛽 ↝ 𝜒2 1𝑑𝑑𝑙 • Wald 𝑊 = 𝛽2 𝑣𝑎𝑟 𝛽 ↝ 𝜒2 1𝑑𝑑𝑙 • Rapport de vraisemblance 𝑉 = 2 𝐿 𝛽 − 𝐿 0 ↝ 𝜒2 1𝑑𝑑𝑙
  • 13. La décision Si p-value 𝑃 𝜒1 2 > 𝑆𝑇 obtenue est inférieure à 5% on rejette 𝐻0 et on en déduit que le coefficient est significativement différent de 0 et donc que la variable est nécessaire dans le modèle.
  • 14. Généralisation • Score 𝑆𝐶 = 𝜕𝑙𝑜𝑔𝐿 𝜕𝛽 𝛽=0 𝐽 𝑛 −1 0 𝜕𝑙𝑜𝑔𝐿 𝜕𝛽 ′ → 𝜒2 𝑝 𝑑𝑑𝑙 𝐽 𝑛 −1 𝛽 = 𝜕2 𝑙𝑜𝑔𝐿 𝜕𝛽 𝑖 𝜕𝛽 𝑗 0≤𝑖≤𝑝 0≤𝑗≤𝑝 : La matrice d’information de Fisher. • Wald 𝑊 = 𝛽 𝑡 𝐽 𝑛 −1 𝛽 𝛽 𝜒2 𝑝𝑑𝑑𝑙 • Rapport de vraisemblance 𝑉 = 2 𝐿 𝛽 − 𝐿 0 𝜒2 𝑝𝑑𝑑𝑙 𝐻0: 𝛽1 = 𝛽2, … , 𝛽𝑝 = 0 Contre 𝐻1: qu’un au moins des coefficients est non nul.
  • 15. Les résidus Dans les modèles de survie, le modèle général de résidus pour un individu i,𝑀𝑖 𝑡 s’écrit : 𝑀𝑖 𝑡 = 𝑁𝑖 𝑡 − 𝐸𝑖 𝑡 Où 𝑁𝑖 𝑡 est le nombre d’événements observés dans l’intervalle [0, t [pour un individu i et 𝐸𝑖 𝑡 est le nombre d’événement attendu (selon le modèle) dans l’intervalle [0, t [pour le même individu i. Ou en terme plus simple, le résidu est égal aux différences entre les données observées et les données modélisées.
  • 16. Résidus de Schönefeld standardisés On peut vérifier l’hypothèse de proportionnalité à l’aide des résidus de Schönefeld. Cependant, en 1994, Grambsch et Therneau ont proposé de donner un poids aux différents résidus, ce qui a donné naissance aux résidus de Schoenfeld standardisés. Ils sont plus puissants et plus utilisés pour vérifier l’hypothèse de proportionnalité sur laquelle le modèle de Cox repose.
  • 17. Le vecteur des résidus de Schoenfeld est obtenu comme moyenne pondérée de chaque explicative et calculé pour chacun des temps d’évènement. Soit 𝑧𝑖 = (𝑧𝑖1, … , 𝑧𝑖𝑝 ) le vecteur des valeurs des explicatives afférentes à l’individu i au temps 𝑡𝑖, alors Chaque résidu 𝑟𝑖𝑗 est défini comme : 𝑟𝑖𝑗 = 𝑧𝑖𝑗 − 𝑧𝑗 (𝑡𝑖, 𝛽) Où 𝑧𝑗 𝑡𝑖, 𝛽 la moyenne pondérée des valeurs de covariable 𝑗 pour l’ensemble des cas exposés au risque en 𝑡𝑖. 𝑧𝑗 𝑡𝑖, 𝛽 = 𝑧𝑗 𝑒𝑥𝑝 𝛽 𝑧𝑗𝑗∈𝑅 𝑡 𝑖 𝑒𝑥𝑝 𝛽 𝑧𝑗𝑗∈𝑅 𝑡 𝑖
  • 18. Avec cette définition, la somme des résidus est nulle par construction pour chaque covariable j. L’examen de ces résidus s’avère en particulier utile pour juger de la pertinence de l’hypothèse de proportionnalité, dans ce cas d’évaluation les résidus standardisés de Schönefeld sont le plus souvent appliqués. Les résidus se sont standardisés par la formule suivante : 𝑟𝑗 ∗ = [𝑉 𝑟𝑗 ]−1 𝑟𝑗 Où : 𝑟𝑗 = (𝑟1𝑗 , 𝑟2𝑗 , … , 𝑟𝑝𝑗 ) Et 𝑉 : est la matrice variance-covariance de 𝑟𝑗 .
  • 19.
  • 20. 1.Présentation des données Des données démographiques, personnelle, et clinique sont extraites d’un examen physiologique de 200 participants dans une étude sur la maladie cardio-vasculaire (CVD : cardio-vascular disease). Ces participants sont âgés de 50-79 ans et n’ont pas la maladie CVD au début de l’étude, ils sont suivis pendant 10 ans. On a un sous- ensemble de données de 68 participants. Le phénomène que l’on se propose d’analyser est le développement de la maladie CVD, ou plus précisément comment la fonction de risque de cette maladie est influencée par des caractéristiques individuelles.
  • 21. T représente la variable d’intérêt qui définit la durée (ans) de l’examen initial au premier diagnostic de la maladie ou un décès dû au CVD. Les covariables sont: AGE : l’âge de 50-79 ans SEX = 1 pour homme 0 pour femme SMOKE = 1 fumeur 0 non fumeur BMI : un indice égal au poids en KG divisé par l’hauteur en M2 . LACR : le logarithme du rapport entre l’albumine urinaire et la créatine. CENS = 1 si censure 0 sinon
  • 22. On s’intéresse à comparer le risque de CVD entre 3 groupes d’âge : 50-59, 60-69, et 70-79. Pour cela on a créé deux variables : AGEA = 1 si 50 < 𝐴𝐺𝐸 < 69 0 sinon AGEB = 1 si 60 < 𝐴𝐺𝐸 < 69 0 sinon Ainsi pour le groupe 70-79, AGEA=0 et AGEB=0.
  • 23. 2. Estimation d’un premier modèle Nous commençons par illustrer l’estimation d’un premier modèle dans lequel nous cherchons à expliquer le risque de la maladie CVD en fonction des facteurs : AGEA, AGEB, SEX, SMOKE, LACR, BMI. L'ajustement d'un modèle de régression à hasards proportionnels sur des données (i.e. l'estimation des paramètres ) se fait au moyen de la fonction coxph du package survival . Sous le logiciel R, on procède comme suit : > library(survival) # chargement du package > CVD<-read.table("CVD.txt",h=T) # Importation des données dans R # Modèle de régression de Cox : > CVD.coxph<-coxph(Surv(T,CENS==1)~AGEA+AGEB+SEX+SMOKE+BMI+LACR) > summary(CVD.coxph) # Récapitulatif des résultats du modèle
  • 24. Sous "coef" on y lit le coefficient estimé de chaque facteur explicatif. Celui-ci mesure l’effet du facteur sur le logarithme du risque. En observant les signes des coefficients, on constate que les hommes fumeurs avec un BMI et un ratio d’albumine-créatine élevés ont le plus haut risque de CVD. 3. Interprétation des coefficients estimés
  • 25. coef exp(coef) se(coef) z Pr(>|z|) AGEA -0.62325 0.53620 0.44553 -1.399 0.16184 AGEB -0.09157 0.91249 0.46756 -0.196 0.84472 SEX 0.97611 2.65412 0.40895 2.387 0.01699 * SMOKE 1.05871 2.88265 0.39522 2.679 0.00739 ** BMI 0.05319 1.05463 0.02959 1.797 0.07226 . LACR 0.45597 1.57770 0.09590 4.754 1.99e-06 *** Les coefficients des deux variables d’âge (AGEA et AGEB) sont négatifs ce qui nous indique que les individus des groups les plus jeunes ont un niveau bas du hasard risque de CVD. On peut interpréter ces deux coefficient autrement, par exemple, le coefficient d’AGEA vaut -0.62325, ce qui signifie que pour les individus qui sont âgés entre 50-69 ans le logarithme de risque diminuent de -0.62325 et de -0.09157 pour les individus qui sont âgés entre 60-69 ans en lisant le coefficient d’AGEB. Il est souvent plus aisé d’interpréter l’exponentiel du coefficient donné sous "exp(coef)". Pour les variables continues, cet exponentiel représente l’augmentation du risque sur chaque unité augmentée de la variable • Pour le facteur SMOKE, exp(coef) vaut 2.88 et nous indique que le risque de CVD pour un individu fumeur (SMOKE=1) est 2.88 fois de celui d’un individu non fumeur (SMOKE=0). • Pour le genre (SEX), l’exponentiel du coefficient est environ de 2.65 ceci signifie que, pour les mêmes valeurs des autres facteurs les hommes âgés entre 50-79 ans ont 2.65 fois le risque de développer la CVD pendant 10 ans. • L’exponentiel du coefficient du facteur LACR vaut 1.577 et nous montre que, pour toutes choses égales par ailleurs, le risque est multiplié par 1.577 à chaque fois que LACR augmente d’une unité. • La colonne se(coef) (Standard Error) donne l’erreur standard du coefficient qui mesure la variabilité de l’estimateur utilisé. • Les deux colonnes et concernent la statistique du ratio critique utilisé pour tester la significativité individuelle de chaque coefficient. Elles donnent respectivement la valeur de la statistique et la p-value associée.
  • 26. 4.Evaluation du modèle La pertinence statistique d’un modèle se fonde en règle générale sur la significativité statistique individuelle des coefficients, sur l’ajustement global, et sur l’analyse des résidus. coef se(coef) z Pr(>|z|) AGEA -0.62325 0.44553 -1.399 0.16184 AGEB -0.09157 0.46756 -0.196 0.84472 SEX 0.97611 0.40895 2.387 0.01699 SMOKE 1.05871 0.39522 2.679 0.00739 BMI 0.05319 0.02959 1.797 0.07226 LACR 0.45597 0.09590 4.754 1.99e-06 Par exemple le coefficient de SEX est 0.97611 et son erreur standard 0.40895 Le ratio critique vaut 0.97611/0.40895=2.387 dont le carré est 5.67 soit la valeur indiquée pour la statistique de Wald. 4.1 Significativité individuelle des coefficients Pour un coefficient individuel, la statistique de Wald est simplement le carré du ratio critique.
  • 27. On résume pour chaque facteur de régression les valeurs du ratio et la statistique de Wald calculée selon la règle précédente dans le tableau suivant : Covariable Ratio Wald Degré de signification Décision AGEA -1.399 1,957 0.16184 Effet non significatif AGEB -0.196 0,038 0.84472 Effet non significatif SEX 2.387 5,698 0.01699 Effet significatif SMOKE 2.679 7,177 0.00739 Effet significatif BMI 1.797 3,229 0.07226 Effet non significatif LACR 4.754 22,6 1.99e-06 Effet significatif On compare la valeur de Wald pour un coefficient à un chi-deux à 1 degré de liberté. D’après les résultats précédents on conclut que les effets des covariables SEX, SMOKE et LACR sont significatifs, 𝑝𝑜𝑢𝑟 𝑖 = 1, 𝑝: 𝑯 𝟎: 𝛽𝑖 = 0 𝑣𝑠 𝑯 𝟏: 𝛽𝑖 ≠ 0
  • 28. 4.2 Evaluation globale Lorsque les paramètres β sont estimés, trois tests, asymptotiquement équivalents, permettent de déterminer si les coefficients β estimés sont significativement différents de 0. Il s’agit du test de Wald (maximum de vraisemblance), le test du rapport de vraisemblance et test du score [Therneau et Grambsch 2000]
  • 29. Les statistiques du Khi-deux Les indications sur l’ajustement global du modèle sont données dans le tableau fourni par la fonction de régression. On y trouve : - la statistique du khi-deux du rapport de vraisemblance. - la statistique du khi-deux du test de Wald. -La statistique du khi-deux du test du Score. Ces statistiques permettent d’évaluer si globalement l’ensemble des facteurs explicatifs considérés améliore significativement l’ajustement du modèle naïf qui ne tient compte d’aucun facteur.
  • 30. En d’autres termes, pour un modèle avec 𝑝 coefficients, ils permettent de tester l’hypothèse : 𝑯 𝟎: 𝛽1 = 𝛽2. . , 𝛽𝑝 = 0 contre 𝑯 𝟏: qu’un au moins des coefficients est non nul. Sous l’hypothèse 𝐻0 (modèle naïf), les trois statistiques sont distribuées asymptotiquement selon une loi du khi-deux à 𝑝 degrés de liberté. On considère donc l’amélioration par rapport au modèle naïf comme significative lorsque la valeur de ces statistiques est suffisamment grande, soit lorsque leur degré de signification est inferieur, en règle générale, à 5%. Le degré de signification est ici défini comme la probabilité que le khi-deux prenne une valeur supérieure à la valeur observée de la statistique.
  • 31. Dans notre cas la valeur du Score est 30.9 supérieure à 𝜒6 2 = 12.59, ce que confirme le degré de signification : 𝑠𝑖𝑔 𝑆𝑐𝑜𝑟𝑒 = 𝑃 𝜒6 2 > 𝑆𝑐𝑜𝑟𝑒 𝑜𝑏𝑠 = 30.9 = 2.652 . 10−0.5 On remarque que les valeurs des statistiques de Wald et rapport de vraisemblance sont aussi supérieures 𝜒6 2 , et ceci confirmées par les probabilités presque nulles. Rsquare= 0.335 (max possible= 0.974 ) Likelihood ratio test= 27.74 on 6 df, p=0.000105 Wald test = 26.27 on 6 df, p=0.0001979 Score (logrank) test = 30.9 on 6 df, p=2.652e-05 Le modèle naïf doit donc être rejeté au profit du modèle ajusté. Cela ne signifie pas que le modèle ajusté est satisfaisant, mais nous dit simplement que le modèle ajusté fait mieux que le modèle naïf. Pseudo R² : Il s’interprète plus ou moins comme la proportion de réduction du défaut d’ajustement ou "dispersion résiduelle" du modèle naïf. Dans cet exemple, on a R2=0.335 . La part "expliquée" de la "dispersion" totale est de l’ordre de (33.5%).
  • 32. Examen graphique des résidus partiels 5. Analyse des résidus : Test de l'hypothèse de proportionnalité Le modèle semi paramétrique de Cox est très général puisqu’il ne suppose aucune hypothèse sur la distribution des durées. Il suppose cependant la proportionnalité des risques. Il convient donc de vérifier que cette hypothèse est raisonnable. Une première approche consiste à vérifier la proportionnalité graphiquement. Une seconde repose sur des tests statistiques. Les tests graphiques examinent les effets, c’est-à-dire les covariables introduites dans le modèle, individuellement. L’analyse graphique des résidus partiels de Schönefeld constitue une alternative mieux à même de mettre en évidence les situations de non- proportionnalité des risques. L’idée est qu’en cas de proportionnalité des risques, l’écart entre le profil d’un cas i et le profil moyen des cas exposés en ti devrait être aléatoire et indépendant de ti. On ne devrait donc pas observer d’effets systématiques dans l’évolution des résidus partiels avec la durée.
  • 33. Pour ce fait on examine le diagramme de dispersion des résidus partiels selon la durée t, augmenté de la droite de régression des résidus sur t. On génère les graphiques des résidus pour les variables significatives du modèle du Cox estimé SEX, SMOKE et LACR : # Test de l'hypothèse de proportionnalité # étude des résidus standardisés de Schoenfelds > zph.CVD <- cox.zph(CVD.coxph) > plot(zph.CVD[3]) # Graphique pour SEX > abline(h=0, lty=3) > plot(zph.CVD[4]) # Graphique pour SMOKE > abline(h=0, lty=3) > plot(zph.CVD[6]) # Graphique pour LACR > abline(h=0, lty=3)
  • 34. Représentation graphique des résidus standardisés de Schönefeld Ces graphiques décrivent l’évolution des résidus en fonction du temps (ans). La droite de régression indique la tendance. S’agissant du genre (SEX), Comme SEX prend une valeur plus élevée pour les hommes, cet effet s’interprète comme un effet homme. La pente positive, indique que les résidus sont positifs pour les hommes (SEX= 1) et négatifs pour les hommes.
  • 35. Test statistique sur les résidus: Il consiste à tester si la pente de la droite de régression des résidus partiels sur la durée est statistiquement significative. On a obtenu les résultats suivants : > zph.CVD rho chisq p AGEA -0.1813 0.9775 0.323 AGEB -0.0764 0.2053 0.650 SEX 0.0341 0.0453 0.831 SMOKE -0.1733 0.9576 0.328 BMI 0.1636 1.0137 0.314 LACR 0.1566 0.6438 0.422 GLOBAL NA 4.9163 0.555 Les p-values sont assez grand pour toutes les variables ce qui nous amène à admettre l’hypothèse de proportionnalité des risques.
  • 36. # Courbe de survie globale > plot(survfit(CVD.coxph),xlab=c("Temps(ans)"),ylab=c("Probabilité de survie")) 0 2 4 6 8 0.00.20.40.60.81.0 Temps (ans) Probabilitédesurvie Estimation de la fonction de survie: Représentation graphique # Courbe de Hasard cumulé >plot(survfit(CVD.coxph),fun="cumhaz",xlab=c("Temps(ans)"),ylab=c("hasa rd cumulé")) 0 2 4 6 8 0.00.10.20.30.40.50.6 Temps (ans) hasardcumulé
  • 38. On simule dans le cas d’une censure à risques compétitifs un n échantillon 𝑥𝑖, 𝑧𝑖 = 𝑧𝑖 1 , 𝑧𝑖 2 , 𝑐𝑖 𝑖 = 1 … 𝑛, Où 𝑥𝑖 est la durée de vie de chaque individu i, 𝑐𝑖est l’instant de censure d’individu i et les 𝑧𝑖 sont des covariables associes a chaque individu. On utilise : - La loi exponentielle pour simuler la durée de survie - La loi de Weibull pour simuler le temps de censeure - La loi de binomial pour le covariable 1 - La loi Bernoulli pour simuler le covariable 2
  • 39. Programme de simulation sim_cox<-function(n,rate,shape){ library(survival) # chargement du package x<-rexp(n,rate) #simulation la durée de survie par loi exponentielle de paramètre rate c<-rweibull(n,shape,1) #simulation du temps de censure par loi de Weibull T<-ifelse(c<=x,c,x) delta<-ifelse(x>c,0,1) #indicateur de censure z1<-rbinom(n,10,0.25) #covariable1 suit une loi binomial z2<-rbinom(n,1,0.5) #covariable2 suit une loi Bernoulli table<-data.frame(x,c,T,delta,z1,z2) print(table) #Modèle de régression de Cox sim.coxph<-coxph(Surv(T,delta==1)~z1+z2) print(summary(sim.coxph)) #Récapitulatif des résultats du modèle par(mfrow = c(2,3),mar = c(5,4,1,2)+.1,oma = c(0,0,2,0)) # Courbe de survie globale plot(survfit(sim.coxph),xlab=c("Temps (ans)"),ylab=c("Probabilité de survie")) # Courbe de Hasard cumulé plot(survfit(sim.coxph),fun="cumhaz",xlab=c("Temps (ans)"),ylab=c("hasard cumulé")) #Analyse des résidus(les résidus de Schoenfeld) plot(cox.zph(sim.coxph)) plot(table$T, resid(sim.coxph)) print(cox.zph(sim.coxph)) } sim_cox(1000,1,1)