Slides settimo intervento giornata 24 Maggio 2013 :
"Una Statistica più consapevole per decisioni migliori.
Giornata di Metodologia e Statistica per le Scienze Umane."
Pomeriggio: La Statistica nelle Ricerche in Psicologia.
Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia.
Università di Cagliari.
TITOLO: Molti p-value nella stessa analisi: necessità e metodi di correzione.
(L. Finos)
Università di Padova
ABSTRACT:
Durante l'analisi di un dataset è uso comune postulare molteplici ipotesi sperimentali. Per rispondere a tali ipotesi si fa uso di altrettanti test e p-value ad essi associati. Questo è il caso tipico, ad esempio, di due gruppi sperimentali che vengano confrontati su più di scale o il caso di più di due gruppi confrontati a due a due su una medesima scala. In questi casi risulta necessario estendere il concetto di errore di primo tipo al caso multidimensionale. Le definizioni largamente più accettate sono il FamilyWise Error Rate e il False Discovery Rate. Le ultime tre decadi hanno visto il fiorire di un gran numero di metodi per il controllo di questi due errori di primo tipo (in ambito multidimensionale). In questo seminario verranno presentati e discussi in modo critico i metodi sopracitati e presentati i principali metodi per il controllo della molteplicità. Si faranno anche alcuni brevi accenni alle prospettive future.
MtpMolti p-value nella stessa analisi: necessità e metodi di correzione (Livio Finos)
1. Molti p-value nella stessa analisi:
necessit`a e metodi di correzione
Livio Finos
Una statistica pi`u consapevole per decisioni migliori
Dipartimento di Pedagogia, Psicologia e Filosofia
–
Universit`a degli Studi di Cagliari
24 Maggio 2013
2. Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
3. Santona et al. (2010)
Ad un campione di 221 coppie sono stati somministrati i seguenti
questionari self-report
• Experiences in Close Relationships Scale (ECRR) (Brennan e
Shaver, 1998)
• Dyadic Adjustment Scale (DAS) (Spanier, 1976, 2000)
76 di queste coppie si sono rese disponibili ad effettuare due
interviste semistrutturate:
• Adult Attachment Interview (AAI) (George, Kaplan e Main,
1985)
• Current Relationship Interview (CRI) (Treboux, Crowell,
Waters, 2003)
4. Experiences in Close Relationships Scale
(ECRR) 1
• Indaga i sentimenti e i comportamenti correlati
all’attaccamento
• 36 item su scala likert 1-5.
• suddivisi in 2 dimensioni:
• ansia: (18 item) Fattore correlato ad intensa preoccupazione
per le relazioni sentimentali, timore di essere abbandonati e
frequenti richieste al partner di maggior coinvolgimento.
• evitamento: (18 item) Fattore collegato a difficolt`a e disagio
ad avvicinarsi emotivamente e ad affidarsi al partner.
1
Brennan e Shaver (1998), Fraley, Waller e Brennan (2000)
5. Dyadic Adjustment Scale (DAS) 2
• valuta l’adattamento di coppia sulla base della
rappresentazione che ciascun membro ha del proprio
rapporto, 42 item su scala likert 1-6.
• 4 dimensioni:
• consenso diadico: (13 item) grado di accordo dei partner su:
finanze, tempo libero, religione, amicizie, gestione della casa,
gestione del tempo condiviso.
• soddisfazione diadica: (10 item) felicit`a percepite dai
coniugi nel rapporto. Valutati la frequenza delle liti, il piacere
provato nello stare insieme, l’aver considerato o meno il
divorzio e/o la separazione.
• coesione diadica: (5 item) quantit`a di tempo che i partner
dedicano ad attivit`a comuni di piacere, quali interessi sociali,
dialogo, lavoro condiviso su un obiettivo comune.
• espressione affettiva: (4 item) modalit`a in cui i partner
comunicano i propri sentimenti, l’amore e la sessualit`a.
2
Spanier (1976, 2000)
6. Adult Attachment Interview (AAI) 4
• Intervista semi-strutturata, valuta lo stato della mente
attuale rispetto alle esperienze di attaccamento.
• scale a 9 punti, articolate in due gruppi 3:
• 5 scale dell’esperienza soggettiva
• 11 scale dello stato della mente
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classificazioni
3
Simonelli, Calvo (2005)
4
George, Kaplan e Main (1985)
7. Current Relationship Interview (CRI) 6
• Intervista semi-strutturata che consta di 15 domande, valuta
lo stato della mente adulto rispetto alle esperienze
sentimentali.
• 18 scale di valutazione (punteggi 1-9), che sono utilizzate
per definire 5:
• il comportamento del partecipante ed i suoi pensieri nei
confronti di argomenti correlati con l’attaccamento,
• il comportamento del partner,
• lo stile narrativo del soggetto.
• Sulla base di queste scale, al soggetto assegnata una
categoria: 3 Classificazioni
5
Santona, Zavattini (2007)
6
Treboux, Crowell, Waters (2003)
8. La domanda scientifica
La domanda: Donne e Uomini rispondono in modo differente?
Il metodo statistico: Confrontiamo i due generi su tutte le scale
e le classificazioni dello strumento
(test sui ranghi e dei segni, campioni appaiati).
• ipotesi nulla H0: i due generi sono UGUALI rispetto alla
specifica scala/classificazione
• ipotesi alternativa H1: i due generi sono DIVERSI rispetto
alla specifica scala/classificazione
• avremo quindi 2 (scale dell ECRR) + 4 (scale del DAS) + 3
(classificazioni del AAI) + 3 (classificazioni del CRI) =
=12 test complessivi.
Dubbio: necessario controllo della molteplicit`a?
10. Ulteriore Esempio: studi fMRI
Una mappa di attivit`a per ogni
soggetto
Ogni voxel (punto) produce un
p-value
11. Ulteriore Esempio: studi fMRI
Una mappa di attivit`a per ogni
soggetto
Ogni voxel (punto) produce un
p-value
L’output `e solitamente una lista
dei voxel pi`u attivi
(sui migliaia testati)
Dubbio: necessario controllo della molteplicit`a?
12. Altri esempi
Cinematica
un Test per Ogni Parametro
Modelli di Regressione (LM e GLM)
Un t-test per ogni Coefficiente di Regressione
Anova
Tutti i Confronti a Coppie (post-hoc)
Ogni volta in cui l’analisi produce pi`u di un p-value
Dubbio: necessario controllo della molteplicit`a?
13. Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
14. Verifica di Ipotesi, Un solo test
Due Ipotesi a confronto
• H0: due gruppi sono Uguali, nessuna relazione tra X e Y ,
nulla da pubblicare :(
• H1: due gruppi sono Diversi, c’`e relazione tra X e Y ,
pubblicabile :)
Ogni test produce un p-value p,
se p ≤ .05 (α = .05) rifiuto H0 (e propendo per H1)
15. Errori
• Tipo I (falso positivo): Rifiuto H0 quando `e Vera
P(Errore Tipo I) = P(p ≤ .05|H0) = .05
• Tipo II (falso negativo): Non Rifiuto H0 quando `e Falsa
P(Errore Tipo II) = P(p > .05|H1)
Potenza:
P(p ≤ .05|H1) = 1 − P(p > .05|H1)
= 1 − P(Errore tipo II)
Importanza asimmetrica degli errori
Controlliamo la P(Errore tipo I) (es ≤ .05)
e cerchiamo il test con massima Potenza (minimo Errore tipo II)
16. Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
17. Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
18. Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
19. Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) =?
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
20. Errori di Tipo I:
P(p ≤ .05|H0 = 2 gruppi Uguali) = 0.05
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xxx
t= −0.886 , p= 0.426
x xxx xx
t= 1.301 , p= 0.263
xx xxx x
t= 0.565 , p= 0.602
xx xxxx
t= 0.867 , p= 0.435
xxxx x x
t= 0.558 , p= 0.607
xx xxx x
t= 0.388 , p= 0.718
x x xxxx
t= 0.054 , p= 0.959
xxxx x x
t= −0.131 , p= 0.902
x xxx xx
t= 0.794 , p= 0.471
x xxx xx
t= 0.268 , p= 0.802
xx xxx x
t= 0.794 , p= 0.472
x xx xxx
t= −1.219 , p= 0.29
xxx xx x
t= −0.227 , p= 0.832
xxx x xx
t= 1.495 , p= 0.209
xx xx xx
t= 2.008 , p= 0.115
x xxx xx
t= −0.128 , p= 0.904
x xx xx x
t= −2.484 , p= 0.068
x xx xxx
t= −1.789 , p= 0.148
x xxx xx
t= 0.213 , p= 0.842
xxxx xx
t= 1.037 , p= 0.358
x xxxx x
t= −1.963 , p= 0.121
xxx x xx
t= 0.306 , p= 0.775
xx xx xx
t= 3.304 , p= 0.03
x xx xx x
t= −2.602 , p= 0.06
x x xxxx
t= 0.573 , p= 0.597
xxxxx x
t= 0.341 , p= 0.75
xxx xxx
t= −0.306 , p= 0.775
xxx xxx
t= −0.42 , p= 0.696
x x xx xx
t= 1.07 , p= 0.345
x x x xxx
t= −0.794 , p= 0.472
x xxx xx
t= 0.057 , p= 0.957
xx xx x x
t= 0.985 , p= 0.38
x xxx xx
t= 0.239 , p= 0.823
xx x xxx
t= 0.607 , p= 0.577
x xxxx x
t= −1.558 , p= 0.194
x xxx x x
t= −0.052 , p= 0.961
xx xxx x
t= −0.043 , p= 0.968
x xx xxx
t= −0.643 , p= 0.555
xxxx x x
t= 0.18 , p= 0.866
xx xx xx
t= 1.905 , p= 0.13
x xxx xx
t= 1.417 , p= 0.229
x xx xx x
t= −1.393 , p= 0.236
xx x xx x
t= −1.066 , p= 0.347
xx xxx x
t= 0.602 , p= 0.579
xxxx xx
t= 1.132 , p= 0.321
x xx xx x
t= −2.357 , p= 0.078
x xx xxx
t= −1.673 , p= 0.17
xxxx x x
t= 0.313 , p= 0.77
x xx xxx
t= 0.144 , p= 0.893
xx xxxx
t= 0.883 , p= 0.427
xx xx xx
t= 1.78 , p= 0.15
x xx x xx
t= −0.483 , p= 0.654
xx x xx x
t= −0.797 , p= 0.47
x x xxxx
t= 0.184 , p= 0.863
xxx xx x
t= −1.624 , p= 0.18
xx x xx x
t= −0.582 , p= 0.592
xxxx xx
t= 1.92 , p= 0.127
xxx x xx
t= 0.251 , p= 0.814
x xxxxx
t= 0.139 , p= 0.896
xxx xx x
t= −0.536 , p= 0.62
x xxx x x
t= −1.815 , p= 0.144
xxxx x x
t= 0.109 , p= 0.918
x xx xxx
t= −1.402 , p= 0.234
x xx xx x
t= −1.666 , p= 0.171
xxx xx x
t= −0.706 , p= 0.519
xx xxxx
t= 1.189 , p= 0.3
xxx x x x
t= −0.323 , p= 0.763
x xxxxx
t= −1.387 , p= 0.238
xx x x xx
t= 1.368 , p= 0.243
x x xxx x
t= −1.059 , p= 0.349
xx xx x x
t= 0.858 , p= 0.439
x xxxx x
t= −1.914 , p= 0.128
x x xx xx
t= 0.088 , p= 0.934
x xx xx x
t= −3.713 , p= 0.021
xx x x xx
t= 1.724 , p= 0.16
xxxxx x
t= 0.334 , p= 0.755
xx x xx x
t= −0.392 , p= 0.715
xxx xx x
t= −0.55 , p= 0.612
xxxx x x
t= 0.205 , p= 0.848
xx xx xx
t= 2.356 , p= 0.078
xx xx xx
t= 0.125 , p= 0.906
xxx xx x
t= −1.519 , p= 0.203
x x xx xx
t= 1.213 , p= 0.292
xx xxx x
t= 0.248 , p= 0.816
x xx x xx
t= 0.16 , p= 0.881
x xx xx x
t= −1.477 , p= 0.214
x xx xx x
t= −3.643 , p= 0.022
x xxx x x
t= −0.295 , p= 0.783
xxx xxx
t= −0.592 , p= 0.586
xx x xxx
t= 1.052 , p= 0.352
x xxx xx
t= 0.711 , p= 0.516
x xx xxx
t= −1.272 , p= 0.272
x x xxx x
t= −0.423 , p= 0.694
xxx x xx
t= 0.06 , p= 0.955
x xxxx x
t= −2.702 , p= 0.054
x xxx xx
t= −0.309 , p= 0.773
x xx xx x
t= −1.051 , p= 0.352
xxx xx x
t= −0.592 , p= 0.585
xx xx xx
t= 2.035 , p= 0.112
x xx x xx
t= −0.537 , p= 0.62
x xxxxx
t= −0.351 , p= 0.743
x x xxxx
t= 0.11 , p= 0.918
xx xxxx
t= 1.722 , p= 0.16
xxxx xx
t= 0.42 , p= 0.696
xx xxx x
t= 0.446 , p= 0.679
x xx xx x
t= −2.388 , p= 0.075
xxx xx x
t= −1.18 , p= 0.303
xx xx xx
t= 4.126 , p= 0.015
xx xx xx
t= 1.824 , p= 0.142
xx x xx x
t= 0.239 , p= 0.823
x xxxx x
t= −0.785 , p= 0.476
x xx xx x
t= −3.455 , p= 0.026
xx xx x x
t= 1.628 , p= 0.179
xx xx xx
t= 2.338 , p= 0.08
x xx x xx
t= 0.114 , p= 0.915
21. Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
22. Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
23. Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
24. Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
25. Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
26. Potenza:
P(p ≤ .05|H1 = 2 gruppi Diversi)
ad es: Potenza : P(p ≤ 0.05|H1) = 0.75
p−values
0.0 0.2 0.4 0.6 0.8 1.0
x xx xx x
t= −3.426 , p= 0.027
x xx xx x
t= −3.154 , p= 0.034
x x x xx x
t= −1.315 , p= 0.259
x xx xxx
t= −1.276 , p= 0.271
x xx xx x
t= −2.499 , p= 0.067
x xx xx x
t= −2.085 , p= 0.105
x xx xx x
t= −3.521 , p= 0.024
x xx xx x
t= −3.347 , p= 0.029
x xx xx x
t= −2.411 , p= 0.073
x xx xx x
t= −1.662 , p= 0.172
xxx xx x
t= −1.4 , p= 0.234
x xx xx x
t= −3.001 , p= 0.04
x xx xx x
t= −3.284 , p= 0.03
x xx xxx
t= −1.565 , p= 0.193
x xx xx x
t= −4.95 , p= 0.008
x xx xx x
t= −3.071 , p= 0.037
x xx xx x
t= −9.524 , p= 0.001
x xx xx x
t= −4.702 , p= 0.009
x xx xxx
t= −1.877 , p= 0.134
x xx xx x
t= −6.59 , p= 0.003
x xx xx x
t= −6.331 , p= 0.003
x xx xx x
t= −6.88 , p= 0.002
xxxxx x
t= −1.508 , p= 0.206
x xx xx x
t= −5.796 , p= 0.004
x x xxx x
t= −1.097 , p= 0.334
x xx xx x
t= −2.721 , p= 0.053
x xx xx x
t= −2.199 , p= 0.093
x xx xx x
t= −2.119 , p= 0.101
x xxxx x
t= −1.623 , p= 0.18
x xx xx x
t= −3.488 , p= 0.025
x xx xx x
t= −2.188 , p= 0.094
xxx xx x
t= −1.767 , p= 0.152
x xx x xx
t= −1.713 , p= 0.162
x xx xxx
t= −1.937 , p= 0.125
x xx xx x
t= −3.362 , p= 0.028
x xx x x x
t= −2.168 , p= 0.096
x xx xx x
t= −2.533 , p= 0.064
x xx xx x
t= −2.597 , p= 0.06
x xxx x x
t= −1.544 , p= 0.197
x xx x x x
t= −2.053 , p= 0.109
x xx xxx
t= −0.742 , p= 0.499
x xx xx x
t= −6.18 , p= 0.003
x xx xx x
t= −3.035 , p= 0.039
x xx xx x
t= −3.018 , p= 0.039
x xx xx x
t= −1.272 , p= 0.272
x xx xx x
t= −5.114 , p= 0.007
x xx xx x
t= −3.923 , p= 0.017
xxx xx x
t= −1.94 , p= 0.124
x xx xx x
t= −2.453 , p= 0.07
x xx xx x
t= −2.216 , p= 0.091
xx xxx x
t= −0.627 , p= 0.565
x xx xx x
t= −3.747 , p= 0.02
x xx xx x
t= −4.571 , p= 0.01
x xx xxx
t= −1.381 , p= 0.239
x xx xx x
t= −6.397 , p= 0.003
x xx xx x
t= −2.826 , p= 0.048
x xx xxx
t= −2.022 , p= 0.113
x xx x x x
t= −1.664 , p= 0.171
x xx xx x
t= −2.793 , p= 0.049
x xx xx x
t= −2.364 , p= 0.077
x xx xx x
t= −4.04 , p= 0.016
x xx xx x
t= −2.682 , p= 0.055
x xx xx x
t= −6.533 , p= 0.003
x xx xx x
t= −4.637 , p= 0.01
x xx xx x
t= −2.505 , p= 0.066
x xx xx x
t= −1.902 , p= 0.13
x xx xx x
t= −2.594 , p= 0.06
x xx xx x
t= −27.1 , p= 0
xxx xxx
t= −1.372 , p= 0.242
x xx xx x
t= −3.249 , p= 0.031
xxx x x x
t= −0.982 , p= 0.382
x xx xx x
t= −5.34 , p= 0.006
x xx xx x
t= −2.526 , p= 0.065
x xx xx x
t= −8.81 , p= 0.001
27. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
28. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
29. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
30. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
31. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
32. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
33. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
34. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
35. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
36. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
p−values test 1
p−valuestest2
0.0 0.3 0.6 0.9
0.00.30.60.9
37. Errori di Tipo I, Due Test
Propabilit`a di ALMENO un (falso) rifiuto?
= .10 + .10 − (.10 ∗ .10) = 1 − (1 − .10)2 = .19 = 1 − (1 − α)2
densità congiunta
p−values test 1
p−valuestest2
0.20.611.4
38. Probabilit`a di falsi rifiuti
m p-value indipendenti
Se rifiuto l’ipotesi quando p ≤ α
Probabilit`a ALMENO un falso rifiuto
P = 1 − (1 − α)m
Nel nostro caso (se i p-value fossero indipendenti!)
P = 1 − (1 − α)12 = 0.4596
39. Errori di Tipo I per numero di test
0 20 40 60 80 100
0.00.20.40.60.81.0
number of hypothesis tests at level 0.05
probabilityofafalserejection
41. P-values Dipendenti
Quasi sempre nei dati reali
P(Almeno un Falso Rifiuto)> (!)1 − (1 − α)2
densità congiunta
p−values test 1
p−valuestest2
0.20.611.4
42. Type I errors
Come definire l’errore di tipo I quando ci sono molte ipotesi?
Quali procedure controllano questo errore?
43. Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
44. FamilyWise Error Rate (FWER)
Probabilit`a di fare ALMENO un falso rifiuto
Diseguaglianza di Bonferroni
Riduce α
Rifiuta Hi se pi ≤ α/m (m = numero di ipotesi)
Controllo del FWER
FWER = P pi ≤ α/m per almeno una ipotesi i nulla vera
≤
i∈{ipotesi nulle vere}
P(pi ≤ α/m)
≤ #{ipotesi nulle vere}
α
m
≤ α
45. Procedura di Bonferroni
Adjusted p-value = p-value· · · (# ipotesi nulle vere)
Rifiuta se adjusted p-value ≤ α
Vantaggi
• Molto facile
• Controlla il FWER sotto ogni dipendenza
Svantaggi
Conservativo (Adj. p-value molto alti, pochi rifiuti)
46. Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
47. Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Bonferroni
H R :
R :
Adj. p-value: ≤?αpA5 pB5 pC 5 pD5 pE 5
A B C D E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
48. Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Supponiamo pA e pC significativi
H R :
R :
Adj. p-value: ≤?αpA5 pB5 pC 5 pD5 pE 5
A B C D E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
49. Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Adjusted p-value: p · 3
H R :
R :
Adj. p-value: ≤?α- pB3 - pD3 pE 3
A
B
C
D E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
50. Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Supponamo pD significativo
H R :
R :
Adj. p-value: ≤?α- pB3 - pD3 pE 3
A
B
C
D E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
51. Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Adjusted p-value: p · 2
H R :
R :
Adj. p-value: ≤?α- pB2 - - pE 2
A
B
C D
E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
52. Holm’s procedure7
1 Primo passo: adjusted p-value: p · m; rifiuta se ≤ α
2 Dopo r rifiuti, adjusted p-value: p · (m − r)
3 Stop appena non rifiuti nulla
Nessun rifuto. Stop
H R :
R :
Adj. p-value: ≤?α- pB2 - - pE 2
A
B
C D
E
7
Holm S. (1979) A simple sequentially rejective multiple test procedure.
Scandinavian Journal of Statistics; 6(2):65–70.
65. Permutazioni
Westfall & Young min-P: simile a Holm, ma via permutazione
Vantaggi dei test di permutazione
• Meno assunzioni sulla distribuzione dei dati
• Gestisce le dipendenze tra test (e quindi p-values)
Svantaggi
Meno flessibile (applicabile) dei metodi di Massima
Verosimiglianza.
66. Gestire le dipendenze:
adjusted p-value pi`u bassi (pi`u rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . .
67. Gestire le dipendenze:
adjusted p-value pi`u bassi (pi`u rifiuti)
Quando?
correlazione Negativa: generalmente nessun guadagno
p-value Indipendenti: guadagno minimo o nullo
correlazione Positiva: guadagno usualmente alto
Come?
in R: library(flip); flip(); flip.adjust()
Dati Reali
Neuroscienza e psicometria solitamente producono correlazioni
positive tra p-value (significativo in un voxel/parametro/scala
implica significativo in un altro)
quindi . . . Permutare (spesso) Conviene
69. Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilit`a di ALMENO un falso tra tutti i rifiuti
70. Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilit`a di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
71. Summary
FamilyWise Error
• Generalizza gli errori di Tipo I al caso di ipotesi multiple
• Controlla la probabilit`a di ALMENO un falso tra tutti i rifiuti
• corregge i p-value (adjusted p-value sempre uguale o
peggiore dei p-value non aggiustati)
Software R
• Bonferroni e Holm library(stats); p.adjust()
• Closed Testing library(cherry); closed()
• Ipotesi Strutturate library(globaltest); inheritance()
• Permutazioni - Westfall & Young
library(flip); flip.adjust()
72. Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
73. False Discovery Rate 8
# Non Rifiutate # Rifiutate Totale
# H0 A0 R0 m0
# H1 A1 R1 m1
A R m
Controllare il False Discovery Rate (FDR)
significa definire una procedura:
Media(
#Falsi Rifiuti
#Rifiuti
) = Media(
R0
R
) ≤ q
solitamente q = .05 (analogo α)
8
Benjamini and Hochberg (1995). Journal of the Royal Statistical Society,
Series B (Methodological) 57 (1): 289–300.
74. Outline
1 Introduzione
Alcuni Esempi
Alcune considerazioni
2 FamilyWise Error Rate (FWER)
Definizione
Holm (step-wise)
Altri Metodi
3 False Discovery Rate (FDR)
Definizione
Metodi
82. Altro
Dipendenza
BH `e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
9
Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
83. Altro
Dipendenza
BH `e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
9
Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
84. Altro
Dipendenza
BH `e valido sotto assunzione di indipendenza tra i p-value e
Positive Dependence through Stochastic ordering
(es normali con correlazione positiva)
Usualmente valido nei dati reali
Dipendenza qualsiasi: BY 9
Come BH ma
p(i) m
i L =
?
≤ q = .10
con L = i
j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )
Sotware
BH e BY: library(stats); p.adjust()
9
Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in
multiple testing under dependency. Annals of statistics 29(4):1165–1188
87. FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
88. FWER or FDR?
Assunzioni implicite FDR
Le ipotesi sono scambiabili:
Falsi Rifiuti possono essere compensati da Veri Rifiuti
Problemi
• Cheating
• Subsets
89. Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi pi`u falsi rifiuti.
10
Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005
90. Cheating
Posso aggiungere ipotesi non interessanti ma con p-value
significativi per permettermi pi`u falsi rifiuti.
Subsets
Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi
es: Correggo tutti i test, ma discuto solo quelli che so spiegare
meglio o pi`u interessanti.
Finner and Roters10
• FDR control on all subsets = FWER control
• FWER control on all subsets = FWER control
10
Finner H, Roters M. (2001) On the false discovery rate and expected type
I errors. Biometrical Journal; 43(8):985–1005
93. Sottoinsiemi di Rifiuti
Tutte le Ipotesi
Rifiuti
Falsi Rifiuti
# Falsi Rifiuti
# Rifiuti circa 0.10
ma nel sottoinsieme??
Sottoinsieme
94. Take-home message
• Spesso necessario e spesso non sentito
• FWER controllo della probabilit`a di errore
• FDR controllo della proporzione MEDIA di falsi rifiuti
• FWER `e
• un controllo pi`u forte
• generalmente preferibile
• e con pi`u possibili estensioni (e pi`u flessibile)
• (FWER e FDR) facile in R