Real-time or full-precision CRS imaging using a cloud computing portal: multi...
L'inferenza statistica e la lettura dei dati
1. L’inferenza statistica
e
la lettura dei dati
Concetti e Applicazioni negli studi genetici
Serena Sanna
Aula Magna Dipartimento di Fisica
Cittadella Universitaria di Monserrato
22 Giugno 2011
2. 1/7
Premesse
http://www.crs4.it/web/valorisation-and-transfer-of-
knowledge/seminar-series
• Andrea Angius
High throughput genotyping and next generation sequencing: nuovi
strumenti e strategie di analisi della ricerca genetica
• Frederic Reiner
Sequenziamento e analisi bioinformatica del genoma umano
• Ilenia Zara
Studi di associazione genetica e disegno sperimentale "caso-controllo"
3. 1/7
Indice degli argomenti
1) Background e concetti base
2) Dove ci serve l’inferenza statistica?
3) Modello matematico
4) Lettura e uso dei risultati
5) Disegni sperimentali e performance
6) Esempi di applicazioni
7) Risultati preliminari e lavori in corso
4. 1/7
•Studi genetici:
studiano le variazioni del DNA tra individui e
cercano di capire se correlano con un fenotipo
clinico
Le variazioni del DNA (o marcatori) sono quei
punti del DNA che mostrano delle differenze
rispetto ad un genoma di riferimento
Ne esistono di diversi tipi, classificati rispetto al
tipo di variazione
5. 1/7
•Maggiormente utilizzati sono gli SNPs
(Single Nucleotide Polymorphisms)
TAGTAATGCGTATCCACTG Genoma di riferimento
TAGTAATGCGTATCCACTG (genotipo omozigote
allele di riferimento)
TAGTAATGCGTATACACTG Individuo sequenziato
TAGTAATGCGTATCCACTG (genotipo eterozigote)
TAGTAATGCGTATACACTG
Individuo sequenziato
TAGTAATGCGTATACACTG (genotipo omozigote allele
alternativo)
6. 1/7
• Studi di associazione genetica
1. individuazione dei polimorfismi
2. verifica della correlazione con la malattia o
con variazioni di un tratto quantitativo
C/C A/A C/A
C/A C/C
A/C A/C A/A C/C A/A
C/C C/A
C/A
C/A A/A A/C A/A
A/A A/C
A/C
Volontari affetti da una patologia Volontari NON affetti dalla patologia
A=8 A=14
C=12 C=6
7. 1/7
• Studi di associazione genetica
1. individuazione dei polimorfismi
2. verifica della correlazione con la malattia o
con variazioni di un tratto quantitativo
chisquare test
C/C A/A pvalue= 0.77
C/A
C/A C/C
A/C A/C A/A C/C A/A
C/C Non significativo!
C/A
C/A
C/A A/A A/C A/A
A/A A/C
A/C
Volontari affetti da una patologia Volontari NON affetti dalla patologia
A=8 A=14
C=12 C=6
8. 1/7
• Studi di associazione genetica
1. individuazione dei polimorfismi
2. verifica della correlazione con la malattia o
con variazioni di un tratto quantitativo
É necessario sequenziare il DNA di tutti i volontari in
studio e confrontarli con un genoma di riferimento?
C/C A/A C/A
C/A C/C
A/C A/C A/A C/C A/A
C/C C/A
C/A
C/A A/A A/C A/A
A/A A/C
A/C
A=8 A=14
C=12 C=6
9. 1/7
• Sequenziamento del DNA oggi possibile ad un
costo piú abbordabile
• Ancora proibitivo si vogliono sequenziare diverse
migliaia di volontari (numeri necessari per studi
genetici di associazione per tratti complessi)
• Si possono tuttavia utilizzare metodi di inferenza
statistica per integrare dati da diverse fonti e
tipologie per condurre un sequenziamento
virtuale
10. 2/7
Strategia:
a. Leggere il DNA dei volontari in studio solo
parzialmente. Guardare (genotipizzare) quei punti del
DNA dove sono già stati osservati dei polimorfismi
b. Predire l’intera sequenza basandosi sulla similitudine
tra individui, le conoscenze sulla struttura e le
dinamiche di trasmissione dei cromosomi, e delle
sequenze ottenute nel proprio laboratorio o reperibili
nei database pubblici
14. 2/7
Genotyping arrays:
•Esistono diverse case produttrici
•Marcatori predefiniti in base a degli studi del
progetto HapMap, che ha identificato ~2.5M SNPs
•Fino a 1 milione di marcatori genetici per circa
200-300 euro a persona
15. Arrays vs Sequenze
• Economici Costosi
• Ristretti allo studio di <=1M Studio della completa
di varianti variabilità genetica
• Ristretti allo studio di Consentono la scoperta di
varianti già note nuove varianti
• Escludono varianti presenti scoperta e studio di varianti
solo in alcune popolazioni specifiche della popolazione a
(come le isolate) cui appartiene l’individuo
sequenziato
16. Il valore degli arrays: passato e futuro
• Enorme successo negli ultimi 4 anni, anche grazie
all’utilizzo dei metodi di inferenza per l’integrazione dei
2.5 M di SNPs HapMap
• Tuttavia é emersa la necessità di studiare l’intera
sequenza piuttosto che dei marcatori “comuni”, nonché
di popolazioni “speciali”
• Come conseguenza del basso costo degli arrays,
esistono oggi molti gruppi di ricerca che hanno
genotipizzato migliaia e migliaia di individui con questi
chip. Come possiamo sfruttare questa risorsa?
17. 2/7
Aumentare l’informazione con
l’inferenza statistica
• Supponiamo di avere a disposizione le
sequenze (o un genoma piú dettagliato) di
un ridotto numero di individui
.. e di aver caratterizzato il genoma di
migliaia di individui con un arrays (ad una
risoluzione piú bassa)
18. 2/7
Genotipi Osservati con gli arrays
Volontario:
. . A A . . . . . . . . A . . . . A . . .
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
19. 2/7
Genotipi Osservati con gli arrays
Volontario:
. . A A . . . . . . . . A . . . . A . . .
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
20. 2/7
Genotipi Osservati con gli arrays
Volontario:
. . A A . . . . . . . . A . . . . A . . .
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
21. 2/7
Genotipi Osservati con gli arrays
Volontario:
. . A A . . . . . . . . A . . . . A . . .
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
22. 2/7
Genotipi Osservati con gli arrays
Volontario:
c g A A a t c t c c c g A c c t c A t g g
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
23. 2/7
Genotipi Osservati con gli arrays
Volontario:
c g A A a t c t c c c g A c c t c A t g g
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
24. 2/7
Genotipi Osservati con gli arrays
Volontario:
c g A A a t c t c c c g A c c t c A t g g
. . G A . . . . . . . . C . . . . A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
25. 2/7
Genotipi Osservati con gli arrays
Volontario:
c g A A a t c t c c c g A c c t c A t g g
t g G A a t c t c c c t C t t t t A t a c
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
27. 2/7
Genotipi Osservati con gli arrays
Volontario:
. . A/G A/A . . . . . . . . A/C . . . . A/A . . .
Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C
C G A A G C T C T T T T C T T C T G T G C
28. 2/7
Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
distingue quale allele viene letto da ciascuna copia
A G
T C
A C
T G
A C
T C
A G
T G
Sequenza vera
29. 2/7
Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
distingue quale allele viene letto da ciascuna copia
A G
T C A/T G/C
A C
T G A/T G/C
A C
T C A/T C/C
A G
T G A/T G/G
Sequenza vera Lettura dell’array
30. 2/7
Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
distingue quale allele viene letto da ciascuna copia
A G
T C A/T G/C
A C
T G A/T G/C
A
? C
T C A/T C/C
A G
T G A/T G/G
Sequenza vera Lettura dell’array
31. 2/7
Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
distingue quale allele viene letto da ciascuna copia
A G
T C A/T G/C
A C
T G A/T G/C
A
? C
A/T C/C A C
T C T C
A G A G
T G A/T G/G
T G
Sequenza vera Lettura dell’array
32. Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
distingue quale allele viene letto da ciascuna copia
A G
T C A/T G/C
A C
A C 0.5 T G
T G A/T G/C
A
? C
0.5 A
T
G
C
T C A/T C/C
A G
T G A/T G/G
Sequenza vera Lettura dell’array
33. 2/7
Problema:
Piú complesso se aumentiamo i marcatori
A A G
T C C A/T A/C G/C
A C C
T C G A/T C/C G/C
A A C
T C C A/T A/C C/C
A C G
T A G A/T A/C G/G
Sequenza vera Lettura dell’array
34. 2/7
Problema:
Piú complesso se aumentiamo i marcatori
A A G
T C C A/T A/C G/C
A C C
T C G A/T C/C G/C
A
?
A C
0.5
A
T
A
C
C
C
T C C A/T A/C C/C
A C C
0.5
T A C
A C G
T A G A/T A/C G/G
Sequenza vera Lettura dell’array
35. 2/7
Problema:
Piú complesso se aumentiamo i marcatori
0.25 A A C
A A G T C G
T C C A/T A/C G/C 0.25 A A G
T C C
0.25 A C C
A C C
T C G A/T C/C G/C T A G
A
?
A C
0.25 A
T
C
A
G
C
T C C A/T A/C C/C
A C G
T A G A/T A/C G/G
Sequenza vera Lettura dell’array
36. 2/7
Problema:
Piú complesso se aumentiamo i marcatori
0.25 A A C
A A G T C G
T C C A/T A/C G/C 0.25 A A G
A C C T C C
T C G 0.25 A C C
Aplotipi di riferimento A/T C/C G/C T A G
0.25 A C G
T A C
A/T A/C C/C
A/T A/C G/G
Lettura dell’array
37. 2/7
Problema:
Piú complesso se aumentiamo i marcatori
0.25 A A C
C
A A G T C G
T C C A/T A/C G/C 0.25 A A G
A C C T C C
T C G 0.25 A C C
Aplotipi di riferimento A/T C/C G/C T A G
0.25 A C G
T A C
A/T A/C C/C
A/T A/C G/G
Lettura dell’array
38. 2/7
Problema:
Piú complesso se aumentiamo i marcatori
? A A C
C
A A G T C G
T C C A/T A/C G/C 0.25 A A G
A C C T C C
T C G 0.25 A C C
Aplotipi di riferimento A/T C/C G/C T A G
0.25 A C G
T A C
A/T A/C C/C
A/T A/C G/G
Lettura dell’array
39. 2/7
Modello Matematico
• Probabilità sono pesate dalle conoscenze genetiche
sul tasso di ricombinazione tra due punti di un cromosoma.
La ricombinazione non é infatti casuale ma avviene con delle
probabilità tipiche di ciascuna popolazione.
Ricombinazione Genetica
http://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.html
40. 2/7
Modello Matematico
• Il modello matematico consiste, data una stringa
di genotipi, e un insieme di aplotipi di riferimento,
nel assegnare alla posizione iniziale ad un
aplotipo, e poi assegnare l’aplpotipo successivo
valutando la probabilità che alla successiva
posizione ci sia stata o meno una ricombinazione
• Questo processo puo’ essere modellato con una
catena di Markov Nascosta (HMM)
41. Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C
Genotipi osservati
A/T C/G
42. Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C
Genotipi osservati
A/T C/G A C
T G
43. Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C
Genotipi osservati
A/T C/G A C
T G
H1/
H2
A
A C
T
T G
44. Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C
Genotipi osservati
A/T C/G A C
T G
H1/ H1/
H2 H2
A C
T G
45. Esempio:
Aplotipi di referenza: a12,12
H1 A C
H2 T G H1/
H3 A G H2
H4 T C
Genotipi osservati
A/T C/G A C
T G
H1/ H1/
H2 H2
A C
T G
46. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/
H3 A G H2
H4 T C
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/
H2 H2 H2 H3
A C A C
T G T
T G
47. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/
H3 A G H2
H4 T C a12,42
H4/
H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/
H2 H2 H2 H3 H2 H2
A C A C A
A C
T G T
T G T G
48. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/
a12,43 H4/
H3 A G H2
H3
H4 T C a12,42
H4/
H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
49. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/
a12,43 H4/
H3 A G H2
H3
H4 T C a12,42
H3/ H4/
H2 H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/
H2
A
A C
T
T G
50. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42
H3/ H4/
H2 H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/
H2 H2
A
A C
T G
51. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42
H3/ H4/
H2 H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/ H3/ H1/
H2 H2 H2 H3
A
A C A
A C
T G T
T G
52. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42
H3/ H4/
H2 H2
Genotipi osservati
A C a32,42
A/T C/G
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/ H3/ H1/ H3/ H4/
H2 H2 H2 H3 H2 H2
A
A C A
A C A
A C
T G T
T G T G
53. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42 a32,43
H3/ H4/
H2 H2
Genotipi osservati
A C a32,42
A/T C/G
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/ H3/ H1/ H3/ H4/ H3/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A
A C A
A C A
A C A
A C
T G T
T G T G T
T G
54. Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42 a32,43
H3/ H4/
H2 H2
Genotipi osservati
A C a32,42
A/T C/G
T G
H1/
H4
A
A C
T
T G
Similmente si aggiungono quelli che
H3/
H4
iniziano con H1/H4 e H3/H4
A
A C
T
T G
55. Esempio:
a14,12
a12,13 a
14,13
Aplotipi di referenza: H1/
a12,12 H1/ H4
H1 A C H3 a14,43
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2 a14,42
H3
H4 T C a32,12 a12,42 a32,43
H3/ H4/ a
a34,12 34,43
H2 H2
Genotipi osservati a34,13
H3/
A C a32,42
A/T C/G H4
T G a34,42
H1/
H4
A
A C
T
T G
Similmente si aggiungono quelli che
H3/
H4
iniziano con H1/H4 e H3/H4
A
A C
T
T G
56. Esempio:
a14,12
a12,13 a
14,13
Aplotipi di referenza: H1/
a12,12 H1/ H4
H1 A C H3 a14,43
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2 a14,42
H3
H4 T C a32,12 a12,42 a32,43
H3/ H4/ a
a34,12 34,43
H2 H2
Genotipi osservati a34,13
H3/
A G a32,42
A/T C/G H4
T C a34,42
57. Esempio:
a14,12
a12,13 a
14,13
Aplotipi di referenza: H1/
a12,12 H1/ H4
H1 A C H3 a14,43
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2 a14,42
H3
H4 T C a32,12 a12,42 a32,43
H3/ H4/ a
a34,12 34,43
H2 H2
Genotipi osservati a34,13
H3/
A G a32,42
A/T C/G H4
T C a34,42
H1/ H1/
H2 H4
A
A G A
A G
T
T C T
T C
H3/ H3/ aggiungere tutte le configurazioni
H2 H4 con alleli GC da questi starting points
A
A G A
A G
T
T C T
T C
58. Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C
Genotipi osservati
A/T C/G
Situazioni incompatibili se non si assume errore
H1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/
H1 H? H2 H? H3 H? H4 H?
A ? A
T ? A ? A ?
A ? A
T ? A ? A ?
59. Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C
Genotipi osservati
A/T C/G
P(G1 A / T S1 ( H1 , H1 ) ) 0
Situazioni incompatibili se non si assume errore
H1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/
H1 H? H2 H? H3 H? H4 H?
A ? A
T ? A ? A ?
A ? A
T ? A ? A ?
60. Esempio:
Aplotipi di referenza:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C
Genotipi osservati
A/T C/G ?/? ?/? T/C
H1/
H2
61. Esempio:
Aplotipi di referenza:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C
Genotipi osservati
A/T C/G ?/? ?/? T/C
H1/ H?/
H2 H?
62. Esempio:
Aplotipi di referenza:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C
Genotipi osservati
A/T C/G ?/? ?/? T/C
H1/ H?/ H?/
H2 H? H?
63. Esempio:
Aplotipi di referenza:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C
Genotipi osservati
A/T C/G ?/? ?/? T/C
H1/ H?/ H?/
H2 H? H?
A/C
64. Esempio:
Aplotipi di referenza:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C
Genotipi osservati
A/T C/G ?/? ?/? T/C
H1/ H?/ H?/ H?/
H2 H? H? H?
A/C T/T
65. Esempio:
Aplotipi di referenza:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C
Genotipi osservati
A/T C/G ?/? ?/? T/C
H1/ H?/ H?/ H?/ H?/
H2 H? H? H? H?
A/C T/T
67. 3/7
• Catena di Markov:
modello stocastico basato sulla proprietà di Markov: la
probabilità di una configurazione allo stato n+1
dipende solo dalla configurazione osservata nello stato
precedente n
• Catena di Markov Nascosta:
gli stati seguono una catena di Markov, ma non sono
noti
68. 3/7
Catena di Markov Nascosta
Probabilità di
transizione
S1 Stati
S2 S3 (aplotipi)
Probabilità di
emissione
G1 Dati osservati
G2 G3 G4
(Genotipi)
Immagine adattata da Wikipedia
69. 3/7
Probabilità di emissione
• Sono modellate in funzione del parametro ε che
rappresenta un potenziale tasso di errore e consente
di costruire anche aplotipi che sono incompatibili con i
genotipi
H1 A C C
H2 T G A
H3
H4
A
T
G
C
A
A
P(G1 A / A S m ( H i , H j ) ) ?
i, j
A/A ?/? C/G
70. 3/7
Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare
H1 A C C
H2 T G A
H3 A G A
H4 T C A
A/A ?/? C/G
71. 3/7
Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare
A/A
H1 A P(G1 A / A S m ( H1 , H1 ) ) 1 1
C C
H2 T G A
H3 A G A
H4 T C A
A/A ?/? C/G
72. 3/7
Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare
A/A
H1 A P(G1 A / A S m ( H1 , H1 ) ) 1 1
C C
H2 T G A
H3 A G A A/T
P(G1 A / A S m ( H1 , H 2 ) ) 1
H4 T C A
A/A ?/? C/G
73. 3/7
Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare
A/A
H1 A P(G1 A / A S m ( H1 , H1 ) ) 1 1
C C
H2 T G A
H3 A G A A/T
P(G1 A / A Sm ( H1 , H 2 ) ) 1
H4 T C A
A/A ?/? C/G
T/T
P(G1 A / A S m ( H 2 , H 2 ) )
74. 3/7
Probabilità di emissione
Se e(Hi,Hj) = il genotipo risultante dagli aplotipi
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare
P(Gm x / y S m ( H i , H j ) )
– (1- ε)2 se x/y = e(Hi,Hj) e omozigote
ε2 se x/y ed e(Hi,Hj) sono omozigoti opposti
ε(1- ε) se x/y omozigote e e(Hi,Hj) eterogizote
– ε2+(1- ε) 2 se x/y=e(Hi,Hj) e eterozigote
– 2ε(1- ε) se x/y heterozigote e e(Hi,Hj) omozigote
75. 3/7
Probabilità di emissione
• Nel caso di un genotipo da inferire
Aplotipi di referenza
H1 A C C
H2 T G A
H3 A G A P(G2 ?/? S 2 ( H i , H j ) ) 1
H4 T C A
Genotipi osservati i, j
A/T ?/? C/G
76. 3/7
Probabilità di transizione
• Definisce come gli stati (nascosti) cambiano da
una posizione all’altra
• Sono una funzione del tasso di ricombinazione ϴ
P (assenza ricombinazione tra 2 aplotipi) = 1- ϴ
P(ricombinazione tra 2 aplotipi) = ϴ / Naplotipi
• Consentono di passare a qualsiasi aplotipo,
assumendo possibile anche la ricombinazione
con lo stesso aplotipo ( » states = Naplotipi2)
77. 3/7
Esempi
m-1 11
m 11
(1 ) (1 ) (1 ) (1 )
N aplotipi N aplotipi N aplotipi N aplotipi
Nessuno dei
due ricombina
78. 3/7
Esempi
m-1 11
m 11
(1 ) (1 ) (1 ) (1 )
N aplotipi N aplotipi N aplotipi N aplotipi
Nessuno dei
due ricombina Ricombina
solo il primo
79. 3/7
Esempi
m-1 11
m 11
(1 ) (1 ) (1 ) (1 )
N aplotipi N aplotipi N aplotipi N aplotipi
Nessuno dei
due ricombina Ricombina Ricombina solo
solo il primo il secondo
80. 3/7
Esempi
m-1 11
m 11
(1 ) (1 ) (1 ) (1 )
N aplotipi N aplotipi N aplotipi N aplotipi
Nessuno dei
due ricombina Ricombina Ricombina solo Ricombinano
solo il primo il secondo entrambi
81. 3/7
Esempi
m-1 11
m 11
(1 ) (1 ) (1 ) (1 )
N aplotipi N aplotipi N aplotipi N aplotipi
m-1 11
m 33,32
2
N
aplotipi
82. 3/7
Esempi
m-1 11
m 11
(1 ) (1 ) (1 ) (1 )
N aplotipi N aplotipi N aplotipi N aplotipi
m-1 11
m-1 11
m 21,31,41
m 33,32
2
2
(1 )
N N aplotipi N
aplotipi aplotipi
83. 3/7
Formula
P( S m ( H x , H y ) S m 1 ( H i , H j ) )
2
2 (1 )
(1 )
2
se (Hx,Hy)=(Hi,Hj)
N aplotipi N aplotipi
2
(1 )
se |(Hx,Hy)-(Hi,Hj)|=1
N aplotipi N
aplotipi
2
N se |(Hx,Hy)-(Hi,Hj)|=2
aplotipi
84. 3/7
Algoritmo
• Aggiorna ciascun individuo alla volta, costruendo la
serie di aplotipi (presi dal pannello di referenza) che
concordano con i genotipi osservati e calcolandone
le probabilità
1. Inizia considerando equiprobabile lo stato delle
posizioni iniziali (primo marcatore), e poi calcola la
probabilità dei dati osservati
L L
P(G, S) P( S1 ) P( S j | S j 1 ) P(G j | S j )
j 2 j 1
2. Campiona dei nuovi stati iniziali S in maniera
proporzionale a P(G,S) per riniziare la catena
85. 3/7
4. La catena di Markov viene ripetuta per diverse volte
(rounds), fino a quando si raggiunge la convergenza
Rappresentazione grafica
Aplotipi iniziali equiprobabili
Probabilità di ciascun
stato e calcolo dei
genotipi mancanti
restart Campionamento
degli aplotipi iniziali
86. 3/7
Sampling algorithm:
Baum-Welch (forward-backward)
Forward: Calcolare cumulativamente fino all’ultimo
marcatore le probabilità forward per i genotipi osservati e
gli stati Sm
Backward: Campiona le assegnazioni degli aplotipi
secondo le probabilità forward e le probabilità di
transizione
P(Sm= (x,y)) = f(x,y),1->M * b(x,y),M->m
A T T C G A G C
A C T G A C T T
87. 4/7
Lettura dei dati
Per ogni individuo, e ad ogni posizione inferita
ottengo le probabilità per ogni possibile
genotipo. Quindi:
Se lo SNP ha alleli A/G, avremo, per ogni
individuo, 3 probabilità:
P(A/A) , P(A/G) , P(G/G)
Come si utilizzano?
88. 4/7
Lettura dei dati
1. Genotipo piú probabile
oppure
2. Dosaggio allelico
É una quantità che tiene traccia della incertezza dei genotipi
gA = 2 * P(A/A) + P(A/G) 0≤gA≤2
Rappresenta il numero atteso di copie dell’allele A
89. 4/7
Pros del dosaggio allelico rispetto al genotipo
• Mantiene tutte le possibili configurazioni con le loro
probabilità in un unico valore
• Files piú piccoli e meno parametri da considerare
• Puó facilmente essere incorporato nelle analisi di
associazione usando regressioni lineari o logistiche
(per tratti quantitativi e discreti)
• Considera i genotipi come variabile continua
• La qualità puó essere valutata piú accuratamente
(prossima slide)
90. 4/7
Come valutare la qualità dei risultati
• Se il dosaggio rappresenta il numero atteso di copie
dell’allele A, e poiché ogni individuo ha due alleli, la
distribuzione che lo modella é una binomiale con
probabilità p=frequenza allele A
������������������������������ ������������������������������������������������
– ������ =
2
2������(1−������)
– ������ 2 =
������������������(������������������������������������������������)
91. 4/7
Come valutare la qualità dei risultati
• Se il dosaggio rappresenta il numero atteso di copie
dell’allele A, e poiché ogni individuo ha due alleli, la
distribuzione che lo modella é una binomiale con
probabilità p=frequenza allele A
������������������������������ ������������������������������������������������
– ������ =
2
Si é stimato in dati reali che un ������ 2 > 0.30
2������(1−������) garantisce l’eliminazione di SNPs di scarsa
– ������ 2 =
������������������(������������������������������������������������) qualità. Con questo filtro, ci si aspetta di
scartare il 70% di marcatori scarsamente
inferiti (accuratezza <80%) e solo 0.50% di
quelli bene inferiti (accuratezza > 50%)
92. 5/7
Fattori che migliorano la qualità di
inferenza
• Alta densità dei marcatori iniziali rispetto al pannello di
riferimento
• Vicinanza genetica degli individui inclusi nel pannello
di riferimento con la popolazione in studio
• Aumento del numero di aplotipi nel pannello di
riferimento
93. 5/7
Performance per diversi chip
Affymetrix
Affymetrix N SNPs utili N SNPs inferiti Tasso di errore
Chip per inferenza
MAF <5% MAF >5% MAF<5% MAF >5%
A100K 100,844 259,261 2,086,690 1.80 7.85
A250K (Sty) 195,864 251,807 2,002,214, 1.33 4.12
A250K (Nsp) 216,747 250,364 1,983,146 1.26 3.94
A500K 412,611 234,049 1,809,352 0.93 2.12
A1M 676,182 209,636 1,580,321 0.73 1.23
Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes
and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010)
94. 5/7
Huang et al. Genotype-Imputation
accuracy across Worldwide Human
Populations. AJHG 2009
95. 5/7
Strategie di utilizzo
• Supponiamo siano disponibili dati GWAS (300K-1M SNPs)
su un campione di studio. Possiamo inferire
database pubblici
• ~1.5-2 M SNPs da HapMap
• ~ 13M SNPs da 1000 Genomes
• sequenze Sanger (es. sequenziati per un gene di
laboratorio
interesse >100 campioni di cui si hanno i dati GWAS)
• sequenze intero genoma
97. 6/7
1. Scoperta nuovi geni di suscettibilità
• centinaia di pubblicazioni esistenti su scoperte effettuate
tramite integrazione dei dati HapMap, una decina tramite
integrazione dei dati 1000 Genomes
• 882 pazienti+872 individui sani
• Genotipizzati 1M SNPs (Affymetrix)
• Inferenza HapMap & 1000 Genomes
• Identificato un gene di suscettibilità per la Sclerosi Multipla
Sanna, Pitzalis, Zoledziewska et al.
Variants within the immunoregulatory CBLB gene are associated with multiple sclerosis
Nature Genetics 2010
98. 6/7
2. Valutazione dettagliata di regioni già
identificate tramite i GWAS
• sequenziati 256 individui con il
Sanger a 5 geni associati con LDL-C
• Identificate nuove varianti, tra cui una
rara (freq 0.5%) sardo-specifica
• Le varianti identificate raddoppiano
l’ereditabilità spiegata da questi geni
rispetto alle varianti trovate nel GWAS
Sanna, Li, Mulas et al. PlosGen 2011 (in press)
100. 7/7
Progetti in corso
Studio su Sclerosi Multipla & Studio delle condizioni legate
Diabete di Tipo 1 all’invecchiamento
individui affetti e volontari sani studia la popolazione
da tutta l’isola dell’ogliastra raccogliendo un
dettaglio quadro clinico, inclusi
immuno-fenotipi
~2500 pazienti MS ~6,000 volontari di 700
~1500 pazienti T1D famiglie
~2500 volontari sani
Studio Longitudinale
(visite ogni 3 anni, dal 2001
101. 7/7
Sequenze 2,000 Sardi
@ 3x in media
Pannello di sequenze
di riferimento con
for 2,000 Individui
Genotipi da arrays Genotipi da arrays
per 6,500 individui Inferenza per 6,000 individui
(MS & T1D GWAS) Statistica (Studio in Ogliastra)
Sequenze virtuali
per 12,500 individui
102. 7/7
Risultati preliminari sull’inferenza
• Sequenziati+analizzati+costruzione pannello di
riferimento: completato per 508 Sardi
• Qualità dell’imputazione migliore rispetto ad un
pannello di simili dimensioni con individui
Europei
Reference Panel Imputation Accuracy (r2) IN SARDINIA
MAF 1-3% MAF 3-5% MAF >5%
1000G (563) 0.75 0.88 0.94
Sardinia (508) 0.90 0.95 0.97
103. 7/7
Implementazione
L’algoritmo discusso é implementato nei software
MACH e IMPUTE (autori Abecasis e Marchini)
Esistono altri algoritmi piú o meno simili (implementati
in Beagle, TUNA, PLINK). Simulazioni e applicazioni
su diversi data set indicano che l’algoritmo di MACH e
IMPUTE é quello piú accurato.
Pei et al. Analyses and Comparison of Accuracy of
Different Genotype Imputation Methods. PlosOne 2008
104. Riferimenti e bibliografia
• Li et al, MaCH: Using Sequence and Genotype Data to
Estimate Haplotypes and Unobserved Genotypes. Genetic
Epidemiology 34 : 816–834 (2010)
• Marchini and Howie. Genotype imputation for genome-wide
association studies. Nat Rev Gen 11:499-511 (2010)
• Huang et al. Genotype-Imputation accuracy across
Worldwide Human Populations. AJHG 84, 235-50, (2009)
• Pei et al. Analyses and Comparison of Accuracy of Different
Genotype Imputation Methods. PlosOne 3(10):e3551
(2008)
• Li, Willer, Sanna e Abecasis. Genotype Imputation. Annu.
Rev. Genomics Hum. Genet. 2009. 10:387–406
106. Ringraziamenti
CNR-IRGB CRS4
Francesco Cucca Chris Jones
Eleonora Porcu Ilenia Zara
Maristella Steri Maria Valentini
Carlo Sidore (1/2) Frederic Reiner
il team “Progenia” (tanti!) Riccardo Berutti
Rossano Atzeni
University of Michigan
Goncalo Abecasis Andrea Angius & GSP group
Hyun M Kang Lidia Leoni & HPC group
Carlo Sidore (1/2) Gianluigi Zanetti & DC grop
Tutti i volontari che partecipano alla ricerca
National Institute of Aging (USA)
Università degli studi di Cagliari e Sassari
Cliniche e ospedali della Sardegna
108. 7/7
Tempi e costi del calcolo
• MACH/IMPUTE O(H2 * M * N)
– Esempio: 1 settimana per inferire 13 M SNPs su 2000 individui
genotipizzati per 500K SNPs, con 120 aplotpi di riferimento,
usando 22 macchine da 8 core con 16G di RAM.
Se ho il doppio degli aplotipi, il tempo va moltiplicato per 4.
(4 settimane)
tempi proibitivi nell’era del highthroughput!
109. 7/7
Inferenza a 2 steps
1. si costruiscono gli aplotipi degli individui in studio
usando gli SNPs genotipizzati
2. inferenza aploide invece che sui genotipi
Implementato in: minimac e IMPUTE v2
Complessità: O(H * M * N)
110. 7/7
Inferenza a 2 steps
1. si costruiscono gli aplotipi degli individui in studio
usando gli SNPs genotipizzati
Tempi lunghi, ma task unitario
2. inferenza aploide invece che sui genotipi
Step da ripetere ad ogni costruzione di pannello di riferimento
Implementato in: minimac e IMPUTE v2
Complessità: O(H * M * N)
111. 7/7
Inferenza a 2 steps
1. si costruiscono gli aplotipi degli individui in studio
usando gli SNPs genotipizzati
Tempi lunghi, ma task unitario
2. inferenza aploide invece che sui genotipi
Step da ripetere ad ogni costruzione di pannello di riferimento
Implementato in: minimac e IMPUTE v2
Complessità: O(H * M * N)
Da ripetere se si hanno nuovi individui o nuovi genotipi!
Collaborazione con il gruppo di G. Zanetti del DC group del CRS4
per una nuova implementazione di MACH in Hadoop MapReduce