Conception d’un essai - Aspects statistiques

Conception d’un essai
Aspects statistiques
Michel Cucherat

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons
Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France

But à atteindre

 Un effet démontré par un résultat statistiquement significatif
sans inflation du risque alpha

 Cela nécessite de prévoir
– Une absence de multiplicité des comparaisons
– Ou une procédure de contrôle du risque alpha lors de comparaisons
multiples

– Un effectif suffisant pour garantir une puissance satisfaisante à l’essai

Fluctuations aléatoires

Échantillon 1
48%

Échantillon 2
52%
Obtenir pile à pile ou face
(Probabilité = 50%)
Échantillon 3
50%

Échantillon 4
45%

Fluctuations aléatoires

Échantillon 1
9%

Échantillon 2
12%
Même type de patients
(Probabilité d'AVC = 12%)
Échantillon 3
16%

Échantillon 4
26%

 Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même

 les FAE sont susceptibles de fausser les comparaisons

Conséquences des fluctuations

Effet du traitement = 0

Vrai risque = 10% Vrai risque = 10%

Groupe T+ Groupe T-

Risque observé = 6% Risque observé = 12%

Différence observée = -6%

Problématique des comparaisons

 Quand on ignore la réalité,
la différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires,
donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes,
donc d’un effet non nul du traitement

 Comment départager ces 2 possibilités ?

 Solution : test statistique .

But des comparaisons

 Quel est le but des comparaisons ?

Grp T
Conclure à l'existence Décider d'utiliser le
diff -6% d'une différence nouveau traitement

Grp C

La conclusion doit être conforme à la réalité
mais elle se base uniquement sur l’observé

Effets des fluctuations dans une comparaison

 Le hasard peut faire apparaître une différence qui n'existe pas
en réalité

 Inversement, le hasard peut réduire une différence qui existe
réellement

 donc 2 façons de fausser la conclusion

Erreur statistique alpha

 Conclure à l'existence d'une différence qui n'existe pas en
réalité : faux positif

Échantillon 1
7.5%

Différence
Vrai valeur non réelle
12%
Échantillon 2
15%

Erreur statistique bêta

 Ne pas conclure à une différence qui existe pourtant en réalité :
faux négatif

Vrai valeur Échantillon 1
12% 15%

Fausse absence
de différence

Vrai valeur Échantillon 2
19% 15%

Conclusion

Différence Pas de différence

Différence Erreur bêta
Réalité

Pas de différence Erreur alpha

Application à l’essai thérapeutique

 Risque alpha : considérer comme efficace un traitement qui ne
l’est pas
 Risque bêta : ne pas conclure alors que le traitement est
efficace
 Puissance : montrer l’efficacité d’un traitement réellement
efficace

Tests statistiques

 Outils d'aide à la décision

 Principe
– conclure à une différence
– que si le risque de faire une erreur (de première espèce) est faible

 Quantification du risque d'erreur alpha
– à partir des données disponibles

 (Risque de commettre une erreur alpha = risque alpha)

Démarche du test statistique

 Calcul de la probabilité p
– p : probabilité que "la différence observée soit due uniquement au
hasard"
 p représente le risque de faire une conclusion erronée si l'on
décidait de conclure
 p est une quantification du risque alpha
 On ne conclut que si ce risque d'erreur est suffisamment petit

5% ?

 Un risque de 5% est-il acceptable pour décider de l'utilisation
d'un traitement

 Exigence réglementaire de 2 essais significatifs
– alpha de la décision 5%*5%=2.5/1000

CRITÈRE DE JUGEMENT COMPOSITE

Exemples

 Événements coronariens majeurs (« MACE Major Coronary
Events ») : décès, infarctus, nécessité de revascularisation
 Survie sans progression : durée jusqu’au critère composite
décès ou progression de la maladie nécessitant un traitement
(chirurgie)

Intérêts

 regrouper des équivalents du même phénomène clinique.
 mesurer directement le rapport bénéfice/risque
 sensibiliser la recherche d'un effet,

Interprétation 1

Décès

Ev non mortels

Crit. composite

0.4 0.6 0.8 1.0 1.2 1.4 1.6
Risque relatif

Interprétation 2

Décès

Ev non mortels

Crit. composite

0.4 0.6 0.8 1.0 1.2 1.4 1.6
Risque relatif

Interprétation 3

Décès

Ev non mortels

Crit. composite

0.4 0.6 0.8 1.0 1.2 1.4 1.6
Risque relatif

Exemple Benestent

Angioplasty Stent Relative risk
n=410 n=413 (95%)

Death 1 2

Q-wave myocardial
7 5
infarction
Non Q-wave myocardial
6 10
infarction
Coronary artery bypass
6 6
surgery

Repeat PTCA 56 33

0,67
Composite endpoint 79 53
(0,48;0,92)

Analyses intermédiaires

 en cours d’essai, avant que tous les patients prévus aient été
recrutés
 et/ou avant la fin de la période de suivi initialement prévue

 But arrêter prématurément
– pour efficacité
– pour toxicité
– pour futilité

Ajustement du seuil de signification

 Méthode de Bonferroni
– Pour k comparaisons, le seuil ajusté est : saj
– Pour k=3, saj = 5% / 3 = 1.67%
k
– Quand est petit,
k
1 1 k
k
1 1 k
– Donc pour conserver un risque alpha global de 5% :
k 0.05
0.05
k
– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables
testées  méthode conservatrice

Cas 1

Analyse intermédiaire Analyse
1 2 3 finale
p = 0.10 p = 0.011

 3 analyses intermédiaires + 1 analyse finale = 4 comparaisons

s 5% / 4 1.25%
 Arrêt prématuré de l’essai
aj

Cas 2

1 2 3 finale
p = 0.25 p = 0.08 p = 0.04 p = 0.01

 Pas d’arrêt prématuré mais conclusion à l’efficacité

Cas 3

1 2 3 finale
p = 0.42 p = 0.28 p = 0.12 p = 0.04

 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)

Cas 4

1 2 3 finale
P = 0.89 p = 0.48 p = 0.25 p = 0.10

 Résultat non significatif

Autres méthodes

Méthode Analyses intermédiaires Analyse
1 2 3 4 finale
Pocock 0.017 0.017 0.017 0.017 0.017
O’Brien et
0.00005 0.004 0.012 0.025 0.04
Flemming
Lan et
0.015 0.016 0.017 0.018 0.019
Demets 1
Lan et
0.00001 0.002 0.011 0.025 0.041
Demets 2
Peto 0.001 0.001 0.001 0.001 0.05

 Fonctions de dépenses du risque alpha

P ajusté

paj pk
 Problème : différents p donnés par les tests
– exemple : 0.01, 0.02, 0.20

 Problème de l'intervalle de confiance

Méthode séquentielle

 Analyse en continue
 Test triangulaire

CARDS

 interim analysis when 25%, 50%, and 75% of the total
anticipated primary endpoints had accrued.
 The interim analyses used an asymmetric (Peto-Haybittle)
type rule and we prespecified that the board might advise
termination if a significant difference emerged
– in favour of atorvastatin (at p<0·0005 one-sided, p<0·001 twosided
at any analysis) or
– in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided, for the
three interim analyses, respectively).
 At the second interim analysis a significant difference was
reported in favour of atorvastatin at p<0·001 (two-sided)

Puissance

 Aptitude d'une comparaison à mettre en évidence une
différence qui existe réellement
 Pour une situation donnée, dépend du nombre de sujets
 1-β
 β ne se calcule pas comme le p
 Conditionnée par le nombre de sujets
 Calcul du nombre de sujets +++

Conséquences d'une puissance insuffisante

 Forte probabilité d'obtenir un résultat négatif (différence non
significative)
– coût
 Force de conviction faible des petits essais
– partie visible de l'iceberg
 Difficulté d'interprétation d'une différence non significative

 Calcul a priori du nombre de sujets nécessaires
– pour garantir une puissance élevée (80 - 95%)
 Le calcul dépend
– de alpha (5%)
– de la puissance recherchée (90%)
– de la différence à mettre en évidence (vrai effet)
– de la fréquence de l'événement r0 (dans le groupe placebo)
 nécessaire de faire des hypothèses sur r0 et le vrai effet
– car inconnu avant de recueillir les observations

 La démarche est spéculative
– si le vrai effet du traitement est de -7%
– si la fréquence r0 est de 10%
– un nombre de sujets de 578
– donne une puissance de 90%
• l'essai a 90% de chance de mettre en évidence cet effet
 Mais si en réalité
– le vrai effet est plus petit
– ou r0 < 10%
– la probabilité d'obtenir un résultat significatif est < 90%

Influence du nombre de sujets

 La signification statistique et la valeur de p
– dépend du nombre de sujets (observations) n
 p1=7% p0=13%
– n=100 p = 0.56 (NS)
– n=1000 p = 0.01 (p<0.05)
 Visualisation avec les IC

n=100 NS

n=1000 P<0.05

Différence
-6% 0

Taille de l'effet

100%

75%
Puissance

50%

25%

0%
0.4 0.5 0.6 0.7 0.8 0.9 1
Taille de l'effet (risque relatif)

N

100%

75%
Puissance

50%

25%

0%
0 1000 2000 3000 4000 5000
Nombre de sujets par groupe

Risque de base

100%

75%
Puissance

50%

25%

0%
0 0.1 0.2 0.3 0.4 0.5 0.6
Risque de base

Pertinence clinique

 Signification statistique pertinence clinique

 Réduction de mortalité de 25% à 12%, p<0.05
– réduction statistiquement significative
– pertinente cliniquement
 Réduction de mortalité de 2.3% à 2.1%, p<0.05
– réduction statistiquement significative
– peu pertinente cliniquement

Intervalle de confiance

 Différence = -6%
 IC 95% = [-8%;-4%]
 L’intervalle *-8%;-4%] à 95% de chance de contenir la vraie
valeur de la différence
 reflète l'incertitude de l'estimation
 Il n'est pas possible d'exclure que le vrai effet ne soit que de -
4%
– situation la pire
– efficacité plus faible que les -6% de l'estimation ponctuelle

Interprétation des IC

 ensemble des valeurs raisonnablement possibles pour la vraie
moyenne
 il est raisonnable de parier que la vraie valeur est dans
l'intervalle (prob de 95%)
 95% = degré de confiance
 il est peu probable (prob 5%)
– que la vraie valeur soit > à bs
– ou que la vraie valeur soit < à bi

– il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur
de l'IC

Relation entre IC et test

-5% [-10%,-2%] P<0.05

-2% [-9%;+2%] NS

Différence
0

Intervalle de confiance - test statistique

-7.5% -5.0% -2.5% 0.0% 2.5%

5%

Nombre de sujets et largeur de l'IC

-15.0% -10.0% -5.0% 0.0% 5.0%

100

200

300

400

Rôle de la vraie valeur

-20.0% -15.0% -10.0% -5.0% 0.0% 5.0%

-2%

-5%

-10%

Intervalles de confiance

Essai A

Essai B

Essai C

Essai D

Essai E

0.40 0.60 0.80 1.00 1.20 1.40
Risque relatif

Exposé de la problématique

25

25
Groupe 1
Groupe 2
20

20
Y

Y
15

15
10

10
5

5

G1 G2 2 4 6 8 10

Groupe Covariable

Exposé de la problématique 2

25

25
Groupe 1
Groupe 2
20

20
Y

Y
15

15
10

10
5

5

G1 G2 2 4 6 8 10

Groupe Covariable

Ajustement

 L'ajustement consiste à corriger un résultat des effets parasites
induits par des covariables influençant aussi le critère de
jugement
 Réaliser la recherche de l'effet du traitement en ajustant sur un
autre facteur

Intérêts

 Augmenter la précision de l'estimation
 Supprimer l'effet des facteurs de confusion

Augmenter la précision
a b

18
16
14
12
Y
10
8
6
4

y1 y0 1 2 3 4 5 6
Groupe Covariable

Augmenter la précision de l'estimation

Décès / n
RR
G. p
G. traité [IC 95%]
contrôle
5 / 200 10 / 200 0,50
bon pronostic -
2,5% 5,0% [0,17 ; 1,44]
mauvais 6 / 20 12 / 20 0,50
-
pronostic 30% 60% [0,23 ; 1,07]
Analyse non 11 / 220 22 / 220 0,50 p=
ajustée 5% 10% [0,25 ; 1,01] 0,052
0,50 p=
Analyse ajustée - -
[0,27 ; 0,93] 0,027

Supprimer l'effet des facteurs de confusion

Décès / n
RR
G. p
G. traité [IC 95%]
contrôle
mauvais 35 / 141 30 / 61 0,50
-
pronostique 25% 49% [0,34 ; 0,74]
3 / 59 14 / 138 0,50
bon pronostique -
5% 10% [0,15 ; 1,68]
Analyse non 38 / 200 44 / 199 0,86
NS
ajustée 19% 22% [0,58 ; 1,27]
0,50 p<
[0,35 ; 0,73] 0,001

Supprimer l'effet des facteurs de confusion -
stratification

Décès / n
RR
G. p
G. traité [IC 95%]
contrôle
mauvais 37 / 150 74 / 150 0,50
-
pronostique 25% 50% [0,36 ; 0,69]
2 / 50 4 / 50 0,50
bon pronostique -
4% 8% [0,10 ; 2,60]
Analyse non 39 / 200 78 / 199 0,50
0.0004
ajustée 19% 22% [0,36 ; 0,70]
0,50 p<
[0,35 ; 0,73] 0,001

En pratique

 Risque de sur-ajustement en cas de
– ajustement sur les variables déséquilibrées entre les groupes
– choix post hoc
 Ajustement
– Sur des variables pronostiques connues
– défini a priori

ANALYSE DES DONNÉES DE SURVIE

Données de survie

 Objectif : montrer que le traitement recul le moment de
survenue du décès (ou de n'importe quel événement)
 comparaison des temps moyens de survie

 Nécessite de suivre tous les patients jusqu'au décès
– quasiment impossible

 A la fin de l'étude, une proportion variable de sujets sont
toujours vivants

 Durée moyenne de survie
– moyenne des durées de survie de chaque patient de l'échantillon
 Exemple
– n = 4 : 6 mois, 2 ans, 3 ans, 10 ans
– moyenne = 3,9 ans
– analyse impossible avant 10 ans !!!
– Moyenne des données partielles est fausse (sous estime)
• Calcul à 3 ans (3 décès / 4) = 1.83 ans

Calcul de la fréquence des décès

 Durées de suivi variables
 Les patients sont suivis + ou - longtemps
 Calcul de la fréquence des décès à un temps donné
problématique
– sous estime la mortalité

 Solution partielle
– raisonnement en patients années
– sous entend que le nombre de décès est proportionnel au temps
d'observation --> Faux

 En pratique
– suivi des patients sur une certaine période calendaire
– arrêt du suivi à une date de point
– détermination de l'état (VV ou DCD) à la date de point
– 2 types de données
• patients DCD avant la date de point : durée de survie
• patients toujours vivant à la date de point

 Censure du suivi
– patient VV à la date de point
– suivi censuré avant la survenue du décès

Référentiel initial des données

 Temps calendaire

DC
VV
DC
VV
Calendrier
2001 2002 Date de
point
– les durées de suivi des censurés dépendent du recul (inclusion du
patient - date de point)

Temps de survie

 Abscisse = temps de survie après inclusion

DC
VV
DC
VV
Temps
t=0

– pour chaque patient : durée de suivie ou de survie à partir de son t = 0
(inclusion)

 Autre source de censure : les perdus de vue
– patients impossibles à contacter à la date de point
– état à la date de point inconnu
– date de dernières nouvelles (< date de point)
• censure à cette date

Les différents types de censures

3 DC

2 DC

1 DC
temps

Période de suivi

Fin du
suivi

Courbe de survie

 Estimation suivant la méthode de Kaplan Meier
– prise en compte des suivis censurés pour la période de temps où ils sont
informatifs
– le nb de patients pris en compte diminue au cours du temps au fur et à
mesure des censures

Estimateur de Kaplan Meier

0.8
Survie S(t)

0.4
0.0

0 2 4 6 8 10 12

Temps (an)

 Courbe en escalier
– la survie ne change que lorsque survient un décès

S(t) Décès

100% Censure

90%

t

Précision de l'estimation

0.0 0.2 0.4 0.6 0.8 1.0
 Intervalle de
confiance à 95%
S urvie S (t)

0 1 2 3 4 5

Tem ps (an)

Conséquence des censures

 Diminution de la quantité d'information
– une censure est non informative pour la durée de survie
– mais il est partiellement informatif
• (durée de survie au moins égale à x)
– Perte de précision
• la précision diminue au fur et à mesure de l'accumulation des censures

 Biais
– Les différents types de censure
• perdus de vue
• censures à la date de point
– ne vont pas avoir les mêmes conséquences sur l'estimation en terme de
biais

Essai à durée de suivi fixe

Premier patient
1 an de suivi

Dernier patient
Période d'inclusion 1 an de suivi

temps

Essai à date de point

Date de fin

Premier patient

Dernier patient
Période d'inclusion

temps

Cas mixte

Date
de fin

Premier patient

Dernier patient
Période d'inclusion

temps

Essai à durée de suivi fixe (ou mixte)

 Censures sont liées à la

1.0
fin de l'essai
 L'étalement des

0.8
Survie S(t)
censures correspond à

0.6
l'étalement des
inclusions
 elles ne faussent pas la
0.4
partie de la courbe où il
0.2

n’y a pas de censure
0 5 10 15

Temps (mois)

Essai à date de point

 Censures

0 .2 0 .4 0 .6 0 .8 1 .0
représentent
l'étalement des

S urvi e S (t)
inclusions
 Signification de la
durée moyenne de
suivi ?

0 5 10 15

T e m p s (m o i s )

Durée moyenne de suivi

 Courbe de survie représentée jusqu'à 12 mois,
– mais seulement 30% des sujets ont été suivis aussi longtemps
 Valeur de la l'estimation à 1 mois ?

 Il faut :
– la durée de suivi durant laquelle tous les patients ont été suivis
– la durée moyenne ou médiane

– l’estimation de la survie n’est vraiment informative qu’à la médianne de
survie

Censures non aléatoires

 Correspondent à des

1.0
perdus de vue ou à des
sorties d'essais

0.8
Survie S(t)
 Non indépendantes du

0.6
traitement ou de l'état
du patient

0.4
 Biais dans l'estimation
de la courbe 0.2

0 5 10 15

Temps (mois)

Enox 40mg
t0 : n=360
t100 : n=73
360-73 = 287
287/360 = 80%

Lecture verticale des courbes de survie

Essai thérapeutique en cancero, nouvelle
100% chimio comparée à chimio standard

50% 51%
Nouvelle chimio
25%
Chimio standard
0%
3 ans
 Lecture verticale
– comparaison à un temps donné des taux de survie ou du taux de décès
– idem analyse à un temps de suivi donné

Lecture horizontale

100%

50%
Nouvelle chimio

Chimio standard
0%
10 mois 30 mois
 Le temps t50 pour lequel la survie est de 50%
= médiane des temps de survie
– 50% des sujets sont DCD, donc ont
une durée de survie < t50
– 50% sont VV, donc ont une durée de survie > t50
 Lecture horizontale
– augmentation de la médiane de survie liée au traitement

Comparaison de 2 courbes

 Test du Logrank
– hypothèse nulle : les 2 courbes sont superposées
– test "globalement" si les 2 courbes sont différentes
– peut être significatif même si la lecture horizontale ou verticale ne l'est
pas
 Modèle de Cox
– ajustement multivarié

Modèle de Cox

 Méthode multivariée d'analyse des données de survie
 Permet de faire des ajustements
 coefficients
– exp(coeff.) = risque relatif instantané
– facteur multiplicatif de la probabilité de décéder à un instant t

 test H0: coeff.=0 (RR instantané = 1)
– le facteur modifie t-il la survie ?

Quantification de l'effet traitement

 Rapport des risques instantanés
– HR (hazard ratio)
– assimilable à un risque relatif

 Estimable avec
– le logrank
– le modèle de Cox

 The median overall survival was 12.3 months in the paclitaxel–
carboplatin–bevacizumab group, as compared with 10.3
months in the paclitaxel–carboplatin group (hazard ratio for
death, 0.79; 95% CI, 0.67 to 0.92; P = 0.003) (Fig. 2A). Survival
rates were 51% in the paclitaxel–carboplatin–bevacizumab
group, as compared with 44% in the paclitaxel–carboplatin
group, at 1 year and 23%, as compared with 15%, respectively,
at 2 years.

MULTIPLICITÉ DES COMPARAISONS

Répétition des tests

 Plusieurs tests réalisés pour répondre à une même question
– par exemple plusieurs critère de jugement
 Conclusion à un effet à partir du moment où il existe au moins
un test significatif
 Le risque de la conclusion est bien supérieure à 5%
= Inflation du risque alpha

 Rappel, avec un ttt. sans effet,
– sur 100 tests, il y en aura 5 significatifs (en moyenne)

Contrôle parfait du risque
1 test Conclusion alpha (5%)
(seuil de 5%)

Test 1

Test 2
Le risque de conclure à tort est
Conclusion > à 5%
Test 3
A partir du moment où au
Test 4 moins 1 test est significatif

Comparaisons multiples

 Avec un traitement sans efficacité
 en faisant 10 tests statistiques (p.e. 10 essais)
 nous avons 40% de risque de faire au moins une conclusion (à
tort)

Nb de tests Risque alpha
global
k 5 0.23

global 1 1 10 0.40
20 0.64
50 0.92

Inflation risque alpha

 Situations d’inflation du risque par répétition des
comparaisons :
– Essai multi-bras (multi doses par exemples)
– Absence de critère principal
– Analyses en sous groupes
– Analyses intermédiaires « non protégées »
– Recherche de l’effet répété dans le temps

N Engl J Med 2008;358:1663-71.

The significance level used in the pairwise comparisons
between the groups receiving experimental treatment and the
group receiving standard treatment was 0.017 on the basis of
the Bonferroni correction for multiple comparisons,
corresponding to an overall type I error rate of 0.05.

N Engl J Med 2008;358:1663-71.

Critère de jugement principal

• Décès de toute cause Critère principal
• Décès cardiovasculaire • Décès de toute cause
• Mort subite Critères secondaires
• Infarctus • Décès cardiovasculaire
• Accident vasculaire cérébraux • Mort subite
• Chirurgie • Infarctus
• Accident vasculaire cérébraux
• Chirurgie Définition a priori
Pas de définition d ’un critère principal
de critère principal
Un seul test statistique
6 tests statistiques

Risque de conclure à Risque de conclure à
tort à l ’efficacité du tort à l ’efficacité du
traitement = 30% traitement = 5%

Critère principal

 Conclusion que si le critère principal est significatif
 Critères secondaires : explicatifs

Multiplicité des comparaisons - Exemple

In women, however (Table 2), a positive effect on BMD was observed
at several sites (mostly trabecular bone zones), namely the femoral
neck and the Ward’s triangle in the 60–69 y group, and upper and total
radius in the 70–79 y group.

Méthode séquentielle hiérarchique

 Permet de faire plusieurs tests Test 1
NS
stop
statistiques
– sans inflation du risque alpha
P<0.05
 Une conclusion est possible pour
chaque test effectué NS
Test 2 stop
 Pour cela
– les tests sont hiérarchisés a priori
P<0.05
– Ils sont effectués ensuite de manière
séquentielle NS
• Le test suivant n’est autorisé que si le Test 3 stop
précédent a été significatif
• On s’arrête au 1er de la hiérarchie P<0.05
non significative
 Les tests peuvent concerner des NS
critères de jugement ou des sous Test 4 stop
groupes

Exemple : PLATO
To address the issue of multiple testing, a hierarchical test sequence was planned. The
secondary composite efficacy end points were tested individually, in the order in
which they are listed above, until the first nonsignificant difference was found
between the two treatment groups. Other treatment comparisons were examined in
an exploratory manner.

Hiérarchie des critères

 Primary endpoint
 principal secondary efficacy endpoint = primary
efficacy endpoint in the subgroup of invasive
management
 composite of death from any cause, myocardial
Liste critère dans le protocole
infarction, or stroke;
 composite of death from vascular causes,
myocardial infarction, stroke, severe recurrent
cardiac ischemia, recurrent cardiac ischemia,
transient ischemic attack, or other arterial
thrombotic events;
 myocardial infarction alone;
 death from cardiovascular causes alone;
 stroke alone;
 death from any cause

Résultat de la démarche hiérarchique de test

1. Primary endpoint
2. principal secondary efficacy
1 endpoint = primary efficacy endpoint
in the subgroup of invasive
management
3 3. composite of death from any cause,
4 myocardial infarction, or stroke;
4. composite of death from vascular
5 causes, myocardial infarction, stroke,
6 severe recurrent cardiac ischemia,
7 recurrent cardiac ischemia, transient
ischemic attack, or other arterial
thrombotic events;
5. myocardial infarction alone;
6. death from cardiovascular causes
alone;
7. stroke alone;
8. death from any cause

2

Autres situations de répétition des tests

 mesures répétées au cours du temps

Ajustement pour les critères secondaires

Essai 1 Essai 2
Infarctus mortels et non mortels p=0.03 p=0.001
infarctus non mortels p=0.05 p=0.010
décès par infarctus p=0.02 p=0.010
décès de toute cause p=0.06 p=0.03

 Conclusion essai 1
– pas de démonstration de l'efficacité
 Conclusion essai 2
– démonstration de l'efficacité de manière statistiquement significative
(p<0.05)
– sur les 3 premiers critères de jugement

On a comparé sur 2 groupes de 120 malades un oxygénateur
cérébral à un placebo.
Le critère d’évaluation principal était évalué par l’échelle
d’appréciation clinique en gériatrie (EACG).
Globalement les résultats ne montraient pas de différence
significative.
Cependant, si l’on éliminait les gens trop anxieux (score
d’Hamilton >18), en ne prenant en compte que les femmes (les
hommes semblent moins répondeurs), la différence devient
hautement significative sur la tranche d’âge 70 à 80 ans, ce qui
montre bien l’activité du produit chez les gens âgés.

Analyse en sous-groupes - Essai non concluant

Essai 0.92 NS

1 Age<75 0.92 NS
2 Age>75 0.95 NS

3 Hommes 0.92 NS
4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS
6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.05
8 Pas d'aspirine 1.09 NS

Limites- Multiplicité des tests

1 Age<75 test 1 risque erreur 5%
2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%
4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%
6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%
8 Pas d'aspirine test 8 risque erreur 5%

Analyses en sous groupes - Essai concluant

Essai 0.78 p<0.05

1 Age<75 0.65 p<0.01
2 Age>75 0.90 NS

3 Hommes 0.76 p<0.05
4 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS
6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.001
8 Non diabétique 0.91 p<0.05

Limites des sous groupes - 1

Lancet 2005; 365: 176–86

Utilisation correcte des sous groupes

Analyses en sous groupes

 Résultat de nature exploratoire
– hypothèse non formulée a priori
– aucune conclusion définitive possible
– inflation risque alpha et bêta

Sous groupes (suite)

 Résultat global négatif
– recherche du sous groupe dans lequel le traitement marche
– comparaisons multiples : inflation du risque alpha
– approche post hoc
• l'hypothèse est testée sur les données qui ont permis de la générer

 Résultats global positif
– recherche des patients chez lequel le traitement ne marche pas
– inflation risque bêta
– hypothèse d'absence d'effet
• donc limite de non infériorité

Hétérogénéité

 Utilisation des sous groupes pour vérifier la stabilité de l'effet
 Test d'interaction
– RRsg1<>RRsg2
 Aspect cognitif (non décisionnel)
 Génération de nouvelles hypothèses

Elite 2

Losartan vs
captopril

Insuffisance
cardiaque (NYHA
2-4 et FE<40%)

Bertram Pitt,
Lancet 2000; 355: 1582–87

CHARM

 candesartan vs placebo on top IEC
 insuffisance cardiaque (NYHA 2-4 et FE<40%)

Exemple

 The objective was to test whether an adequate and well-
balanced intake of antioxidant nutrients reduces the incidence
of cancers and ischemic CVD in a middle-aged general
population.

 A total of 13017 French adults (7876 women aged 35-60 years
and 5141 men aged 45-60 years) were included.

 Conclusion : After 7.5 years, low-dose antioxidant
supplementation lowered total cancer incidence and all-cause
mortality in men but not in women.

Arch Intern Med. 2004; 164:2335-2342

Conception d’un essai - Aspects statistiques

Conception d’un essai - Aspects statistiques

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Dernier

Dernier (8)

Conception d’un essai - Aspects statistiques