MtpMolti p-value nella stessa analisi: necessità e metodi di correzione (Livio Finos)

Molti p-value nella stessa analisi:
necessità e metodi di correzione
Livio Finos
Una statistica più consapevole per decisioni migliori
Dipartimento di Pedagogia, Psicologia e Filosofia
–
Università degli Studi di Cagliari
24 Maggio 2013

Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Deﬁnizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Deﬁnizione
Metodi

Santona et al. (2010)
Ad un campione di 221 coppie sono stati somministrati i seguenti
questionari self-report
• Experiences in Close Relationships Scale (ECRR) (Brennan e
Shaver, 1998)
• Dyadic Adjustment Scale (DAS) (Spanier, 1976, 2000)
76 di queste coppie si sono rese disponibili ad eﬀettuare due
interviste semistrutturate:
• Adult Attachment Interview (AAI) (George, Kaplan e Main,
1985)
• Current Relationship Interview (CRI) (Treboux, Crowell,
Waters, 2003)

Experiences in Close Relationships Scale
(ECRR) 1
• Indaga i sentimenti e i comportamenti correlati
all’attaccamento
• 36 item su scala likert 1-5.
• suddivisi in 2 dimensioni:
• ansia: (18 item) Fattore correlato ad intensa preoccupazione
per le relazioni sentimentali, timore di essere abbandonati e
frequenti richieste al partner di maggior coinvolgimento.
• evitamento: (18 item) Fattore collegato a difficoltà e disagio
ad avvicinarsi emotivamente e ad affidarsi al partner.
1
Brennan e Shaver (1998), Fraley, Waller e Brennan (2000)

Dyadic Adjustment Scale (DAS) 2
• valuta l’adattamento di coppia sulla base della
rappresentazione che ciascun membro ha del proprio
rapporto, 42 item su scala likert 1-6.
• 4 dimensioni:
• consenso diadico: (13 item) grado di accordo dei partner su:
finanze, tempo libero, religione, amicizie, gestione della casa,
gestione del tempo condiviso.
• soddisfazione diadica: (10 item) felicità percepite dai
coniugi nel rapporto. Valutati la frequenza delle liti, il piacere
provato nello stare insieme, l’aver considerato o meno il
divorzio e/o la separazione.
• coesione diadica: (5 item) quantità di tempo che i partner
dedicano ad attività comuni di piacere, quali interessi sociali,
dialogo, lavoro condiviso su un obiettivo comune.
• espressione affettiva: (4 item) modalità in cui i partner
comunicano i propri sentimenti, l’amore e la sessualità.
2
Spanier (1976, 2000)

Adult Attachment Interview (AAI) 4
• Intervista semi-strutturata, valuta lo stato della mente
attuale rispetto alle esperienze di attaccamento.
• scale a 9 punti, articolate in due gruppi 3:
• 5 scale dell’esperienza soggettiva
• 11 scale dello stato della mente
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classiﬁcazioni
3
Simonelli, Calvo (2005)
4
George, Kaplan e Main (1985)

Current Relationship Interview (CRI) 6
• Intervista semi-strutturata che consta di 15 domande, valuta
lo stato della mente adulto rispetto alle esperienze
sentimentali.
• 18 scale di valutazione (punteggi 1-9), che sono utilizzate
per deﬁnire 5:
• il comportamento del partecipante ed i suoi pensieri nei
confronti di argomenti correlati con l’attaccamento,
• il comportamento del partner,
• lo stile narrativo del soggetto.
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classiﬁcazioni
5
Santona, Zavattini (2007)
6
Treboux, Crowell, Waters (2003)

La domanda scientifica
La domanda: Donne e Uomini rispondono in modo differente?
Il metodo statistico: Confrontiamo i due generi su tutte le scale
e le classificazioni dello strumento
(test sui ranghi e dei segni, campioni appaiati).
• ipotesi nulla H0: i due generi sono UGUALI rispetto alla
specifica scala/classificazione
• ipotesi alternativa H1: i due generi sono DIVERSI rispetto
alla specifica scala/classificazione
• avremo quindi 2 (scale dell ECRR) + 4 (scale del DAS) + 3
(classificazioni del AAI) + 3 (classificazioni del CRI) =
=12 test complessivi.
Dubbio: necessario controllo della molteplicità?

Ulteriore Esempio: studi fMRI
Una mappa di attivit`a per ogni
soggetto

soggetto
Ogni voxel (punto) produce un
p-value

soggetto
Ogni voxel (punto) produce un
p-value
L’output `e solitamente una lista
dei voxel pi`u attivi
(sui migliaia testati)

Altri esempi
Cinematica
un Test per Ogni Parametro
Modelli di Regressione (LM e GLM)
Un t-test per ogni Coeﬃciente di Regressione
Anova
Tutti i Confronti a Coppie (post-hoc)
Ogni volta in cui l’analisi produce pi`u di un p-value

Verifica di Ipotesi, Un solo test
Due Ipotesi a confronto
• H0: due gruppi sono Uguali, nessuna relazione tra X e Y ,
nulla da pubblicare :(
• H1: due gruppi sono Diversi, c’è relazione tra X e Y ,
pubblicabile :)
Ogni test produce un p-value p,
se p ≤ .05 (α = .05) rifiuto H0 (e propendo per H1)

Errori
• Tipo I (falso positivo): Rifiuto H0 quando è Vera
P(Errore Tipo I) = P(p ≤ .05|H0) = .05
• Tipo II (falso negativo): Non Rifiuto H0 quando è Falsa
P(Errore Tipo II) = P(p > .05|H1)
Potenza:
P(p ≤ .05|H1) = 1 − P(p > .05|H1)
= 1 − P(Errore tipo II)
Importanza asimmetrica degli errori
Controlliamo la P(Errore tipo I) (es ≤ .05)
e cerchiamo il test con massima Potenza (minimo Errore tipo II)

Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426

Errori di Tipo I:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263

Errori di Tipo I:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068

Errori di Tipo I:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06

Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) = 0.05
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
x x xxxx
t= 0.573 , p= 0.597
xxxxx x
t= 0.341 , p= 0.75
xxx xxx
t= −0.306 , p= 0.775
xxx xxx
t= −0.42 , p= 0.696
x x xx xx
t= 1.07 , p= 0.345
x x x xxx
t= −0.794 , p= 0.472
x xxx xx
t= 0.057 , p= 0.957
xx xx x x
t= 0.985 , p= 0.38
x xxx xx
t= 0.239 , p= 0.823
xx x xxx
t= 0.607 , p= 0.577
x xxxx x
t= −1.558 , p= 0.194
x xxx x x
t= −0.052 , p= 0.961
xx xxx x
t= −0.043 , p= 0.968
x xx xxx
t= −0.643 , p= 0.555
xxxx x x
t= 0.18 , p= 0.866
xx xx xx
t= 1.905 , p= 0.13
x xxx xx
t= 1.417 , p= 0.229
x xx xx x
t= −1.393 , p= 0.236
xx x xx x
t= −1.066 , p= 0.347
xx xxx x
t= 0.602 , p= 0.579
xxxx xx
t= 1.132 , p= 0.321
x xx xx x
t= −2.357 , p= 0.078
x xx xxx
t= −1.673 , p= 0.17
xxxx x x
t= 0.313 , p= 0.77
x xx xxx
t= 0.144 , p= 0.893
xx xxxx
t= 0.883 , p= 0.427
xx xx xx
t= 1.78 , p= 0.15
x xx x xx
t= −0.483 , p= 0.654
xx x xx x
t= −0.797 , p= 0.47
x x xxxx
t= 0.184 , p= 0.863
xxx xx x
t= −1.624 , p= 0.18
xx x xx x
t= −0.582 , p= 0.592
xxxx xx
t= 1.92 , p= 0.127
xxx x xx
t= 0.251 , p= 0.814
x xxxxx
t= 0.139 , p= 0.896
xxx xx x
t= −0.536 , p= 0.62
x xxx x x
t= −1.815 , p= 0.144
xxxx x x
t= 0.109 , p= 0.918
x xx xxx
t= −1.402 , p= 0.234
x xx xx x
t= −1.666 , p= 0.171
xxx xx x
t= −0.706 , p= 0.519
xx xxxx
t= 1.189 , p= 0.3
xxx x x x
t= −0.323 , p= 0.763
x xxxxx
t= −1.387 , p= 0.238
xx x x xx
t= 1.368 , p= 0.243
x x xxx x
t= −1.059 , p= 0.349
xx xx x x
t= 0.858 , p= 0.439
x xxxx x
t= −1.914 , p= 0.128
x x xx xx
t= 0.088 , p= 0.934
x xx xx x
t= −3.713 , p= 0.021
xx x x xx
t= 1.724 , p= 0.16
xxxxx x
t= 0.334 , p= 0.755
xx x xx x
t= −0.392 , p= 0.715
xxx xx x
t= −0.55 , p= 0.612
xxxx x x
t= 0.205 , p= 0.848
xx xx xx
t= 2.356 , p= 0.078
xx xx xx
t= 0.125 , p= 0.906
xxx xx x
t= −1.519 , p= 0.203
x x xx xx
t= 1.213 , p= 0.292
xx xxx x
t= 0.248 , p= 0.816
x xx x xx
t= 0.16 , p= 0.881
x xx xx x
t= −1.477 , p= 0.214
x xx xx x
t= −3.643 , p= 0.022
x xxx x x
t= −0.295 , p= 0.783
xxx xxx
t= −0.592 , p= 0.586
xx x xxx
t= 1.052 , p= 0.352
x xxx xx
t= 0.711 , p= 0.516
x xx xxx
t= −1.272 , p= 0.272
x x xxx x
t= −0.423 , p= 0.694
xxx x xx
t= 0.06 , p= 0.955
x xxxx x
t= −2.702 , p= 0.054
x xxx xx
t= −0.309 , p= 0.773
x xx xx x
t= −1.051 , p= 0.352
xxx xx x
t= −0.592 , p= 0.585
xx xx xx
t= 2.035 , p= 0.112
x xx x xx
t= −0.537 , p= 0.62
x xxxxx
t= −0.351 , p= 0.743
x x xxxx
t= 0.11 , p= 0.918
xx xxxx
t= 1.722 , p= 0.16
xxxx xx
t= 0.42 , p= 0.696
xx xxx x
t= 0.446 , p= 0.679
x xx xx x
t= −2.388 , p= 0.075
xxx xx x
t= −1.18 , p= 0.303
xx xx xx
t= 4.126 , p= 0.015
xx xx xx
t= 1.824 , p= 0.142
xx x xx x
t= 0.239 , p= 0.823
x xxxx x
t= −0.785 , p= 0.476
x xx xx x
t= −3.455 , p= 0.026
xx xx x x
t= 1.628 , p= 0.179
xx xx xx
t= 2.338 , p= 0.08
x xx x xx
t= 0.114 , p= 0.915

Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027

Potenza:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034

Potenza:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259

Potenza:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234

Potenza:
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003

Potenza:
ad es: Potenza : P(p ≤ 0.05|H1) = 0.75
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
x xx xx x
t= −6.88 , p= 0.002
xxxxx x
t= −1.508 , p= 0.206
x xx xx x
t= −5.796 , p= 0.004
x x xxx x
t= −1.097 , p= 0.334
x xx xx x
t= −2.721 , p= 0.053
x xx xx x
t= −2.199 , p= 0.093
x xx xx x
t= −2.119 , p= 0.101
x xxxx x
t= −1.623 , p= 0.18
x xx xx x
t= −3.488 , p= 0.025
x xx xx x
t= −2.188 , p= 0.094
xxx xx x
t= −1.767 , p= 0.152
x xx x xx
t= −1.713 , p= 0.162
x xx xxx
t= −1.937 , p= 0.125
x xx xx x
t= −3.362 , p= 0.028
x xx x x x
t= −2.168 , p= 0.096
x xx xx x
t= −2.533 , p= 0.064
x xx xx x
t= −2.597 , p= 0.06
x xxx x x
t= −1.544 , p= 0.197
x xx x x x
t= −2.053 , p= 0.109
x xx xxx
t= −0.742 , p= 0.499
x xx xx x
t= −6.18 , p= 0.003
x xx xx x
t= −3.035 , p= 0.039
x xx xx x
t= −3.018 , p= 0.039
x xx xx x
t= −1.272 , p= 0.272
x xx xx x
t= −5.114 , p= 0.007
x xx xx x
t= −3.923 , p= 0.017
xxx xx x
t= −1.94 , p= 0.124
x xx xx x
t= −2.453 , p= 0.07
x xx xx x
t= −2.216 , p= 0.091
xx xxx x
t= −0.627 , p= 0.565
x xx xx x
t= −3.747 , p= 0.02
x xx xx x
t= −4.571 , p= 0.01
x xx xxx
t= −1.381 , p= 0.239
x xx xx x
t= −6.397 , p= 0.003
x xx xx x
t= −2.826 , p= 0.048
x xx xxx
t= −2.022 , p= 0.113
x xx x x x
t= −1.664 , p= 0.171
x xx xx x
t= −2.793 , p= 0.049
x xx xx x
t= −2.364 , p= 0.077
x xx xx x
t= −4.04 , p= 0.016
x xx xx x
t= −2.682 , p= 0.055
x xx xx x
t= −6.533 , p= 0.003
x xx xx x
t= −4.637 , p= 0.01
x xx xx x
t= −2.505 , p= 0.066
x xx xx x
t= −1.902 , p= 0.13
x xx xx x
t= −2.594 , p= 0.06
x xx xx x
t= −27.1 , p= 0
xxx xxx
t= −1.372 , p= 0.242
x xx xx x
t= −3.249 , p= 0.031
xxx x x x
t= −0.982 , p= 0.382
x xx xx x
t= −5.34 , p= 0.006
x xx xx x
t= −2.526 , p= 0.065
x xx xx x
t= −8.81 , p= 0.001

Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) riﬁuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9

Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) riﬁuto?
= .10 + .10 − (.10 ∗ .10) = 1 − (1 − .10)2 = .19 = 1 − (1 − α)2
densità congiunta
p−values test 1
p−valuestest2
0.20.611.4

Probabilità di falsi rifiuti
m p-value indipendenti
Se rifiuto l’ipotesi quando p ≤ α
Probabilità ALMENO un falso rifiuto
P = 1 − (1 − α)m
Nel nostro caso (se i p-value fossero indipendenti!)
P = 1 − (1 − α)12 = 0.4596

Errori di Tipo I per numero di test
0 20 40 60 80 100
0.00.20.40.60.81.0
number of hypothesis tests at level 0.05
probabilityofafalserejection

P-values Dipendenti
Quasi sempre nei dati reali
densità congiunta
p−values test 1
p−valuestest2
0.20.611.4

P-values Dipendenti
Quasi sempre nei dati reali
P(Almeno un Falso Riﬁuto)> (!)1 − (1 − α)2
densità congiunta
p−values test 1
p−valuestest2
0.20.611.4

Type I errors
Come deﬁnire l’errore di tipo I quando ci sono molte ipotesi?
Quali procedure controllano questo errore?

FamilyWise Error Rate (FWER)
Probabilità di fare ALMENO un falso rifiuto
Diseguaglianza di Bonferroni
Riduce α
Rifiuta Hi se pi ≤ α/m (m = numero di ipotesi)
Controllo del FWER
FWER = P pi ≤ α/m per almeno una ipotesi i nulla vera
≤
i∈{ipotesi nulle vere}
P(pi ≤ α/m)
≤ #{ipotesi nulle vere}
α
m
≤ α

Procedura di Bonferroni
Adjusted p-value = p-value· · · (# ipotesi nulle vere)
Riﬁuta se adjusted p-value ≤ α
Vantaggi
• Molto facile
• Controlla il FWER sotto ogni dipendenza
Svantaggi
Conservativo (Adj. p-value molto alti, pochi riﬁuti)

Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Bonferroni
H R :
R :
Adj. p-value: ≤?αpA5 pB5 pC 5 pD5 pE 5
A B C D E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.

Holm’s procedure7
Supponiamo pA e pC signiﬁcativi
H R :
R :
Adj. p-value: ≤?αpA5 pB5 pC 5 pD5 pE 5
A B C D E
7

Holm’s procedure7
Adjusted p-value: p · 3
H R :
R :
Adj. p-value: ≤?α- pB3 - pD3 pE 3
A
B
C
D E
7

Holm’s procedure7
Supponamo pD signiﬁcativo
H R :
R :
Adj. p-value: ≤?α- pB3 - pD3 pE 3
A
B
C
D E
7

Holm’s procedure7
Adjusted p-value: p · 2
H R :
R :
Adj. p-value: ≤?α- pB2 - - pE 2
A
B
C D
E
7

Holm’s procedure7
Nessun rifuto. Stop
H R :
R :
Adj. p-value: ≤?α- pB2 - - pE 2
A
B
C D
E
7

Risultati Holm
p-value Adjusted p-value
ECRR: Ansia .217 1.000
ECRR: Evitamento .0015 .0165 *
DAS: Consenso .0072 .0648
DAS: Soddisfazione .0001 .0012 *
DAS: Coesione .0415 .2905
DAS: Espr.Aﬀetti .0025 .0250 *
AAI: Sicuro .3545 1.000
AAI: Distanziante .0189 .1512
AAI: Preoccupato .1264 .7584
CRI: Sicuro .5856 1.000
CRI: Distanziante .5536 1.000
CRI: Preoccupato 1.000 1.000

Closed Testing
Insieme Chiusura delle ipotesi (tutte le possibili intersezioni)
Ipotesi iniziali
A
A B C

Closed Testing
Test nodo superiore (es MANOVA)
Insieme chiusura
ABC
AB AC BC
A B C

Closed Testing
Test il nodo principale a livello α
αABC
AB AC BC
A B C

Closed Testing
Supponiamo sia signiﬁcativo
-ABC
AB AC BC
A B C

Closed Testing
Avanti
-
αα α
ABC
AB AC BC
A B C

Closed Testing
Veriﬁca i successivi a livello α
-
α- -
ABC
AB AC BC
A B C

Closed Testing
Avanti
-
α- -
α
ABC
AB AC BC
A B C

Closed Testing
Identiﬁca i signiﬁcativi
-
α- -
-
ABC
AB AC BC
A B C

Closed Testing
Svantaggio: ipotesi testate diventano sono spesso troppe:
= 2#ipotesi − 1
Identiﬁca i signiﬁcativi
-
α- -
-
ABC
AB AC BC
A B C

Inheritance Procedure per ipotesi
strutturate (Goeman & Finos, 2012)
ECRR
[.0011]
ANSIA[1.000]
EVITAMENTO[.0180]
DAS
[.0003]
CONSENSO[.0432]
SODDISFAZIONE[.0009]
COESIONE[.1245]
ESPR.AFFETTO[.0225]
AAI
[.0696]
Sicuro[1.000]
Distanziante[.0756]
Preoccupato[.5056]
CRI
[1.000]
Sicuro[1.000]
Distanziante[1.000]
Preoccupato[1.000]
global
[.0001]

Permutazioni
Westfall & Young min-P: simile a Holm, ma via permutazione
Vantaggi dei test di permutazione
• Meno assunzioni sulla distribuzione dei dati
• Gestisce le dipendenze tra test (e quindi p-values)
Svantaggi
Meno ﬂessibile (applicabile) dei metodi di Massima
Verosimiglianza.

Gestire le dipendenze:
adjusted p-value più bassi (più rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . .

Gestire le dipendenze:
adjusted p-value più bassi (più rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . . Permutare (spesso) Conviene

Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple

Summary
FamilyWise Error
• Controlla la probabilit`a di ALMENO un falso tra tutti i riﬁuti

Summary
FamilyWise Error
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)

Summary
FamilyWise Error
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()

False Discovery Rate 8
# Non Rifiutate # Rifiutate Totale
# H0 A0 R0 m0
# H1 A1 R1 m1
A R m
Controllare il False Discovery Rate (FDR)
significa definire una procedura:
Media(
#Falsi Rifiuti
#Rifiuti
) = Media(
R0
R
) ≤ q
solitamente q = .05 (analogo α)
8
Benjamini and Hochberg (1995). Journal of the Royal Statistical Society,
Series B (Methodological) 57 (1): 289–300.

Benjamini and Hochberg (BH)
p(10) m
10 = 0.753 10
10 = 0.753
?
≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

p(9) m
9 = 0.731 10
9 = 0.812
?
≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

p(8) m
8 = 0.503 10
8 = 0.629
?
≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

p(7) m
7 = 0.314 10
7 = 0.449
?
≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

p(6) m
6 = 0.153 10
6 = 0.255
?
≤ q = .10 : No
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

ecc.
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

p(1) m
2 = 0.016 10
2 = 0.080
?
≤ q = .10 : s`ı, STOP
p(10)=.753p(10)=.753
p(9) =.731p(9) =.731
p(8) =.503p(8) =.503
p(7) =.314p(7) =.314
p(6) =.153p(6) =.153
p(5) =.075p(5) =.075
p(4) =.050p(4) =.050
p(3) =.038p(3) =.038
p(2) =.016
p(1) =.005

Altro
Dipendenza
BH `e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
9
Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188

Altro
Dipendenza
Usualmente valido nei dati reali
9

Altro
Dipendenza
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH ma
p(i) m
i L =
?
≤ q = .10
con L = i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9

Risultati (BH & BY)
p-value BH BY
ECRR: Ansia .2165 .325 1.000
ECRR: Evitamento .0015 .009 * .028 *
DAS: Consenso .0072 .022 * .067
DAS: Soddisfazione .0001 .001 * .004 *
DAS: Coesione .0415 .083 .258
DAS: Espr.Aﬀetti .0025 .010 .031
AAI: Sicuro .3545 .473 1.000
AAI: Distanziante .0189 .045 * .141
AAI: Preoccupato .1264 .217 .673
CRI: Sicuro .5856 .639 1.000
CRI: Distanziante .5536 .639 1.000
CRI: Preoccupato 1.000 1.000 1.000

FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Riﬁuti possono essere compensati da Veri Riﬁuti

FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Riﬁuti possono essere compensati da Veri Riﬁuti
Problemi
• Cheating
• Subsets

Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi più falsi rifiuti.
10
Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005

Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi più falsi rifiuti.
Subsets
Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi
es: Correggo tutti i test, ma discuto solo quelli che so spiegare
meglio o più interessanti.
Finner and Roters10
• FDR control on all subsets = FWER control
• FWER control on all subsets = FWER control
10
Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005

Sottoinsiemi di Riﬁuti
Tutte le Ipotesi
Riﬁuti

Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti
# Rifiuti circa 0.10

Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti
# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme

Take-home message
• Spesso necessario e spesso non sentito
• FWER controllo della probabilità di errore
• FDR controllo della proporzione MEDIA di falsi rifiuti
• FWER è
• un controllo più forte
• generalmente preferibile
• e con più possibili estensioni (e più flessibile)
• (FWER e FDR) facile in R

MtpMolti p-value nella stessa analisi: necessità e metodi di correzione (Livio Finos)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (13)

En vedette

En vedette (10)

MtpMolti p-value nella stessa analisi: necessità e metodi di correzione (Livio Finos)