L'inferenza statistica e la lettura dei dati

L’inferenza statistica
e
la lettura dei dati

Concetti e Applicazioni negli studi genetici

Serena Sanna
Aula Magna Dipartimento di Fisica
Cittadella Universitaria di Monserrato
22 Giugno 2011

1/7

Premesse
http://www.crs4.it/web/valorisation-and-transfer-of-
knowledge/seminar-series

• Andrea Angius
High throughput genotyping and next generation sequencing: nuovi
strumenti e strategie di analisi della ricerca genetica

• Frederic Reiner
Sequenziamento e analisi bioinformatica del genoma umano

• Ilenia Zara
Studi di associazione genetica e disegno sperimentale "caso-controllo"

1/7

Indice degli argomenti

1) Background e concetti base
2) Dove ci serve l’inferenza statistica?
3) Modello matematico
4) Lettura e uso dei risultati
5) Disegni sperimentali e performance
6) Esempi di applicazioni
7) Risultati preliminari e lavori in corso

1/7

•Studi genetici:
studiano le variazioni del DNA tra individui e
cercano di capire se correlano con un fenotipo
clinico

Le variazioni del DNA (o marcatori) sono quei
punti del DNA che mostrano delle differenze
rispetto ad un genoma di riferimento

Ne esistono di diversi tipi, classificati rispetto al
tipo di variazione

1/7

•Maggiormente utilizzati sono gli SNPs
(Single Nucleotide Polymorphisms)

TAGTAATGCGTATCCACTG Genoma di riferimento
TAGTAATGCGTATCCACTG (genotipo omozigote
allele di riferimento)

TAGTAATGCGTATACACTG Individuo sequenziato
TAGTAATGCGTATCCACTG (genotipo eterozigote)

TAGTAATGCGTATACACTG
Individuo sequenziato
TAGTAATGCGTATACACTG (genotipo omozigote allele
alternativo)

1/7

• Studi di associazione genetica
1. individuazione dei polimorfismi
2. verifica della correlazione con la malattia o
con variazioni di un tratto quantitativo

C/C A/A C/A
C/A C/C
A/C A/C A/A C/C A/A
C/C C/A
C/A
C/A A/A A/C A/A
A/A A/C
A/C
Volontari affetti da una patologia Volontari NON affetti dalla patologia

A=8 A=14
C=12 C=6

1/7


chisquare test
C/C A/A pvalue= 0.77
C/A
C/A C/C
A/C A/C A/A C/C A/A
C/C Non significativo!
C/A
C/A
C/A A/A A/C A/A
A/A A/C
A/C
Volontari affetti da una patologia Volontari NON affetti dalla patologia

A=8 A=14
C=12 C=6

1/7

É necessario sequenziare il DNA di tutti i volontari in
studio e confrontarli con un genoma di riferimento?
C/C A/A C/A
C/A C/C
A/C A/C A/A C/C A/A
C/C C/A
C/A
C/A A/A A/C A/A
A/A A/C
A/C

A=8 A=14
C=12 C=6

1/7

• Sequenziamento del DNA oggi possibile ad un
costo piú abbordabile

• Ancora proibitivo si vogliono sequenziare diverse
migliaia di volontari (numeri necessari per studi
genetici di associazione per tratti complessi)

• Si possono tuttavia utilizzare metodi di inferenza
statistica per integrare dati da diverse fonti e
tipologie per condurre un sequenziamento
virtuale

2/7

Strategia:

a. Leggere il DNA dei volontari in studio solo
parzialmente. Guardare (genotipizzare) quei punti del
DNA dove sono già stati osservati dei polimorfismi

b. Predire l’intera sequenza basandosi sulla similitudine
tra individui, le conoscenze sulla struttura e le
dinamiche di trasmissione dei cromosomi, e delle
sequenze ottenute nel proprio laboratorio o reperibili
nei database pubblici

2/7

Genotyping Arrays
marcatore

2/7

Genotyping Arrays
marcatore

A G GG A

2/7

Genotyping arrays:

•Esistono diverse case produttrici

•Marcatori predefiniti in base a degli studi del
progetto HapMap, che ha identificato ~2.5M SNPs

•Fino a 1 milione di marcatori genetici per circa
200-300 euro a persona

Arrays vs Sequenze
• Economici Costosi

• Ristretti allo studio di <=1M Studio della completa
di varianti variabilità genetica

• Ristretti allo studio di Consentono la scoperta di
varianti già note nuove varianti

• Escludono varianti presenti scoperta e studio di varianti
solo in alcune popolazioni specifiche della popolazione a
(come le isolate) cui appartiene l’individuo
sequenziato

Il valore degli arrays: passato e futuro
• Enorme successo negli ultimi 4 anni, anche grazie
all’utilizzo dei metodi di inferenza per l’integrazione dei
2.5 M di SNPs HapMap

• Tuttavia é emersa la necessità di studiare l’intera
sequenza piuttosto che dei marcatori “comuni”, nonché
di popolazioni “speciali”

• Come conseguenza del basso costo degli arrays,
esistono oggi molti gruppi di ricerca che hanno
genotipizzato migliaia e migliaia di individui con questi
chip. Come possiamo sfruttare questa risorsa?

2/7

Aumentare l’informazione con
l’inferenza statistica

• Supponiamo di avere a disposizione le
sequenze (o un genoma piú dettagliato) di
un ridotto numero di individui

.. e di aver caratterizzato il genoma di
migliaia di individui con un arrays (ad una
risoluzione piú bassa)

2/7

Genotipi Osservati con gli arrays
Volontario:
. . A A . . . . . . . . A . . . . A . . .
. . G A . . . . . . . . C . . . . A . . .

Cromosomi di riferimento
C G A G A T C T C C T T C T T C T G T G C
C G A A A T C T C C C G A C C T C A T G G
C C A A G C T C T T T T C T T C T G T G C
C G A A G C T C T T T T C T T C T G T G C
C G A G A C T C T C C G A C C T T A T G C
T G G A A T C T C C C G A C C T C A T G G
C G A G A T C T C C C G A C C T T G T G C
C G A G A C T C T T T T C T T T T A T A C
C G A G A C T C T C C G A C C T C G T G C

2/7

Volontario:
c g A A a t c t c c c g A c c t c A t g g
. . G A . . . . . . . . C . . . . A . . .


2/7

Volontario:
c g A A a t c t c c c g A c c t c A t g g
t g G A a t c t c c c t C t t t t A t a c


2/7

SEMPLICE?

COMPLICAZIONI NEI DATI REALI E
MODELLO INFERENZIALE

2/7

Volontario:
. . A/G A/A . . . . . . . . A/C . . . . A/A . . .


2/7

Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
distingue quale allele viene letto da ciascuna copia
A G
T C

A C
T G

A C
T C

A G
T G
Sequenza vera

2/7

Problema:
A G
T C A/T G/C

A C
T G A/T G/C

A C
T C A/T C/C

A G
T G A/T G/G

Sequenza vera Lettura dell’array

2/7

Problema:
A G
T C A/T G/C

A C
T G A/T G/C

A
? C
T C A/T C/C

A G
T G A/T G/G


2/7

Problema:
A G
T C A/T G/C

A C
T G A/T G/C

A
? C
A/T C/C A C
T C T C

A G A G
T G A/T G/G
T G

Problema:
A G
T C A/T G/C

A C
A C 0.5 T G
T G A/T G/C

A
? C
0.5 A
T
G
C
T C A/T C/C

A G
T G A/T G/G


2/7

Problema:
Piú complesso se aumentiamo i marcatori

A A G
T C C A/T A/C G/C

A C C
T C G A/T C/C G/C

A A C
T C C A/T A/C C/C

A C G
T A G A/T A/C G/G


2/7

Problema:

A A G
T C C A/T A/C G/C

A C C
T C G A/T C/C G/C

A
?
A C
0.5
A
T
A
C
C
C
T C C A/T A/C C/C
A C C
0.5
T A C
A C G
T A G A/T A/C G/G


2/7

Problema:

0.25 A A C
A A G T C G
T C C A/T A/C G/C 0.25 A A G
T C C
0.25 A C C
A C C
T C G A/T C/C G/C T A G

A
?
A C
0.25 A
T
C
A
G
C
T C C A/T A/C C/C

A C G
T A G A/T A/C G/G


2/7

Problema:

0.25 A A C
A A G T C G
A C C T C C
T C G 0.25 A C C
Aplotipi di riferimento A/T C/C G/C T A G
0.25 A C G
T A C
A/T A/C C/C

A/T A/C G/G

Lettura dell’array

2/7

Problema:

0.25 A A C
C
A A G T C G
A C C T C C
T C G 0.25 A C C
0.25 A C G
T A C
A/T A/C C/C

A/T A/C G/G


2/7

Problema:

? A A C
C
A A G T C G
A C C T C C
T C G 0.25 A C C
0.25 A C G
T A C
A/T A/C C/C

A/T A/C G/G


2/7

Modello Matematico
• Probabilità sono pesate dalle conoscenze genetiche
sul tasso di ricombinazione tra due punti di un cromosoma.

La ricombinazione non é infatti casuale ma avviene con delle
probabilità tipiche di ciascuna popolazione.
Ricombinazione Genetica

http://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.html

2/7

Modello Matematico
• Il modello matematico consiste, data una stringa
di genotipi, e un insieme di aplotipi di riferimento,
nel assegnare alla posizione iniziale ad un
aplotipo, e poi assegnare l’aplpotipo successivo
valutando la probabilità che alla successiva
posizione ci sia stata o meno una ricombinazione

• Questo processo puo’ essere modellato con una
catena di Markov Nascosta (HMM)

Esempio:
Aplotipi di referenza:
H1 A C
H2 T G
H3 A G
H4 T C

Genotipi osservati
A/T C/G

Esempio:
H1 A C
H2 T G
H3 A G
H4 T C

Genotipi osservati
A/T C/G A C
T G

Esempio:
H1 A C
H2 T G
H3 A G
H4 T C

Genotipi osservati
A/T C/G A C
T G
H1/
H2
A
A C
T
T G

Esempio:
H1 A C
H2 T G
H3 A G
H4 T C

Genotipi osservati
A/T C/G A C
T G
H1/ H1/
H2 H2
A C
T G

Esempio:
Aplotipi di referenza: a12,12
H1 A C
H2 T G H1/
H3 A G H2
H4 T C

Genotipi osservati
A/T C/G A C
T G
H1/ H1/
H2 H2
A C
T G

Esempio:
a12,13
Aplotipi di referenza: a12,12 H1/
H1 A C H3
H2 T G H1/
H3 A G H2
H4 T C

Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/
H2 H2 H2 H3
A C A C
T G T
T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/
H3 A G H2
H4 T C a12,42
H4/
H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/
H2 H2 H2 H3 H2 H2
A C A C A
A C
T G T
T G T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/
a12,43 H4/
H3 A G H2
H3
H4 T C a12,42
H4/
H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/
a12,43 H4/
H3 A G H2
H3
H4 T C a12,42
H3/ H4/
H2 H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/
H2
A
A C
T
T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42
H3/ H4/
H2 H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/
H2 H2
A
A C
T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42
H3/ H4/
H2 H2
Genotipi osservati
A/T C/G A C
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/ H3/ H1/
H2 H2 H2 H3
A
A C A
A C
T G T
T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42
H3/ H4/
H2 H2
Genotipi osservati
A C a32,42
A/T C/G
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/ H3/ H1/ H3/ H4/
H2 H2 H2 H3 H2 H2
A
A C A
A C A
A C
T G T
T G T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42 a32,43

H3/ H4/
H2 H2
Genotipi osservati
A C a32,42
A/T C/G
T G
H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A C A C A
A C A
A C
T G T
T G T G T
T G
H3/ H1/ H3/ H1/ H3/ H4/ H3/ H4/
H2 H2 H2 H3 H2 H2 H2 H3
A
A C A
A C A
A C A
A C
T G T
T G T G T
T G

Esempio:
a12,13
H1 A C H3
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2
H3
H4 T C a32,12 a12,42 a32,43

H3/ H4/
H2 H2
Genotipi osservati
A C a32,42
A/T C/G
T G
H1/
H4
A
A C
T
T G
Similmente si aggiungono quelli che
H3/
H4
iniziano con H1/H4 e H3/H4
A
A C
T
T G

Esempio:
a14,12
a12,13 a
14,13
Aplotipi di referenza: H1/
a12,12 H1/ H4
H1 A C H3 a14,43
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2 a14,42
H3
H4 T C a32,12 a12,42 a32,43

H3/ H4/ a
a34,12 34,43
H2 H2
Genotipi osservati a34,13
H3/
A C a32,42
A/T C/G H4
T G a34,42

H1/
H4
A
A C
T
T G
Similmente si aggiungono quelli che
H3/
H4
iniziano con H1/H4 e H3/H4
A
A C
T
T G

Esempio:
a14,12
a12,13 a
14,13
a12,12 H1/ H4
H1 A C H3 a14,43
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2 a14,42
H3
H4 T C a32,12 a12,42 a32,43

H3/ H4/ a
a34,12 34,43
H2 H2
H3/
A G a32,42
A/T C/G H4
T C a34,42

Esempio:
a14,12
a12,13 a
14,13
a12,12 H1/ H4
H1 A C H3 a14,43
H2 T G H1/ a32,13
a12,43 H4/
H3 A G H2 a14,42
H3
H4 T C a32,12 a12,42 a32,43

H3/ H4/ a
a34,12 34,43
H2 H2
H3/
A G a32,42
A/T C/G H4
T C a34,42

H1/ H1/
H2 H4
A
A G A
A G
T
T C T
T C
H3/ H3/ aggiungere tutte le configurazioni
H2 H4 con alleli GC da questi starting points
A
A G A
A G
T
T C T
T C

Esempio:
H1 A C
H2 T G
H3 A G
H4 T C

Genotipi osservati
A/T C/G

Situazioni incompatibili se non si assume errore
H1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/
H1 H? H2 H? H3 H? H4 H?
A ? A
T ? A ? A ?
A ? A
T ? A ? A ?

Esempio:
H1 A C
H2 T G
H3 A G
H4 T C

Genotipi osservati
A/T C/G
P(G1  A / T S1  ( H1 , H1 ) )  0

Situazioni incompatibili se non si assume errore
H1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/
H1 H? H2 H? H3 H? H4 H?
A ? A
T ? A ? A ?
A ? A
T ? A ? A ?

Esempio:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C

Genotipi osservati
A/T C/G ?/? ?/? T/C

H1/
H2

Esempio:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C

Genotipi osservati
A/T C/G ?/? ?/? T/C

H1/ H?/
H2 H?

Esempio:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C

Genotipi osservati
A/T C/G ?/? ?/? T/C

H1/ H?/ H?/
H2 H? H?

Esempio:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C

Genotipi osservati
A/T C/G ?/? ?/? T/C

H1/ H?/ H?/
H2 H? H?

A/C

Esempio:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C

Genotipi osservati
A/T C/G ?/? ?/? T/C

H1/ H?/ H?/ H?/
H2 H? H? H?

A/C T/T

Esempio:
H1 A C A T T
H2 T G A A C
H3 A G C A T
H4 T C A T C

Genotipi osservati
A/T C/G ?/? ?/? T/C

H1/ H?/ H?/ H?/ H?/
H2 H? H? H? H?

A/C T/T

3/7

Come rappresentare questo “cammino”
decisionale lungo il genoma”?

3/7

• Catena di Markov:
modello stocastico basato sulla proprietà di Markov: la
probabilità di una configurazione allo stato n+1
dipende solo dalla configurazione osservata nello stato
precedente n

• Catena di Markov Nascosta:
gli stati seguono una catena di Markov, ma non sono
noti

3/7

Catena di Markov Nascosta
Probabilità di
transizione

S1 Stati
S2 S3 (aplotipi)

Probabilità di
emissione

G1 Dati osservati
G2 G3 G4
(Genotipi)

Immagine adattata da Wikipedia

3/7

Probabilità di emissione
• Sono modellate in funzione del parametro ε che
rappresenta un potenziale tasso di errore e consente
di costruire anche aplotipi che sono incompatibili con i
genotipi

H1 A C C
H2 T G A
H3
H4
A
T
G
C
A
A
P(G1 A / A S m  ( H i , H j ) )  ?

 i, j
A/A ?/? C/G

3/7

ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare

H1 A C C
H2 T G A
H3 A G A
H4 T C A

A/A ?/? C/G

3/7


A/A

H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1   
C C
H2 T G A
H3 A G A
H4 T C A

A/A ?/? C/G

3/7


A/A

H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1   
C C
H2 T G A
H3 A G A A/T
P(G1 A / A S m  ( H1 , H 2 ) ) 1    
H4 T C A

A/A ?/? C/G

3/7


A/A

H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1   
C C
H2 T G A
H3 A G A A/T
P(G1 A / A Sm  ( H1 , H 2 ) ) 1    
H4 T C A

A/A ?/? C/G
T/T
P(G1 A / A S m  ( H 2 , H 2 ) )    

3/7

Se e(Hi,Hj) = il genotipo risultante dagli aplotipi

P(Gm  x / y S m  ( H i , H j ) ) 
– (1- ε)2 se x/y = e(Hi,Hj) e omozigote
ε2 se x/y ed e(Hi,Hj) sono omozigoti opposti
ε(1- ε) se x/y omozigote e e(Hi,Hj) eterogizote
– ε2+(1- ε) 2 se x/y=e(Hi,Hj) e eterozigote
– 2ε(1- ε) se x/y heterozigote e e(Hi,Hj) omozigote

3/7

• Nel caso di un genotipo da inferire

Aplotipi di referenza

H1 A C C
H2 T G A
H3 A G A P(G2  ?/? S 2  ( H i , H j ) )  1
H4 T C A
Genotipi osservati i, j
A/T ?/? C/G

3/7

Probabilità di transizione
• Definisce come gli stati (nascosti) cambiano da
una posizione all’altra

• Sono una funzione del tasso di ricombinazione ϴ
P (assenza ricombinazione tra 2 aplotipi) = 1- ϴ
P(ricombinazione tra 2 aplotipi) = ϴ / Naplotipi

• Consentono di passare a qualsiasi aplotipo,
assumendo possibile anche la ricombinazione
con lo stesso aplotipo ( » states = Naplotipi2)

3/7

Esempi
m-1 11
m 11

   
(1   )  (1   )  (1   )   (1   )   
N aplotipi N aplotipi N aplotipi N aplotipi
Nessuno dei
due ricombina

3/7

Esempi
m-1 11
m 11

   
(1   )  (1   )  (1   )   (1   )   
Nessuno dei
due ricombina Ricombina
solo il primo

3/7

Esempi
m-1 11
m 11

   
(1   )  (1   )  (1   )    (1   )  
Nessuno dei
due ricombina Ricombina Ricombina solo
solo il primo il secondo

3/7

Esempi
m-1 11
m 11

   
(1   )  (1   )  (1   )    (1   )  
Nessuno dei
due ricombina Ricombina Ricombina solo Ricombinano
solo il primo il secondo entrambi

3/7

Esempi
m-1 11
m 11

   
(1   )  (1   )  (1   )    (1   )  

m-1 11
m 33,32
2
  
 
N 
 aplotipi 

3/7

Esempi
m-1 11
m 11

   
(1   )  (1   )  (1   )    (1   )  

m-1 11
m-1 11
m 21,31,41
m 33,32
2
  
2
 (1   ) 
  

  
N  N aplotipi N 
 aplotipi   aplotipi 

3/7

Formula

P( S m  ( H x , H y ) S m 1  ( H i , H j ) ) 
2
2 (1   )   
(1   ) 
2
  se (Hx,Hy)=(Hi,Hj)
N aplotipi  N aplotipi 
 
2
 (1   ) 
  

 se |(Hx,Hy)-(Hi,Hj)|=1
N aplotipi N 
 aplotipi 

2
  
 
N  se |(Hx,Hy)-(Hi,Hj)|=2
 aplotipi 

3/7

Algoritmo
• Aggiorna ciascun individuo alla volta, costruendo la
serie di aplotipi (presi dal pannello di referenza) che
concordano con i genotipi osservati e calcolandone
le probabilità

1. Inizia considerando equiprobabile lo stato delle
posizioni iniziali (primo marcatore), e poi calcola la
probabilità dei dati osservati
L L
P(G, S)  P( S1 ) P( S j | S j 1 ) P(G j | S j )
j 2 j 1

2. Campiona dei nuovi stati iniziali S in maniera
proporzionale a P(G,S) per riniziare la catena

3/7

4. La catena di Markov viene ripetuta per diverse volte
(rounds), fino a quando si raggiunge la convergenza

Rappresentazione grafica

Aplotipi iniziali equiprobabili

Probabilità di ciascun
stato e calcolo dei
genotipi mancanti

restart Campionamento
degli aplotipi iniziali

3/7

Sampling algorithm:
Baum-Welch (forward-backward)

Forward: Calcolare cumulativamente fino all’ultimo
marcatore le probabilità forward per i genotipi osservati e
gli stati Sm

Backward: Campiona le assegnazioni degli aplotipi
secondo le probabilità forward e le probabilità di
transizione
P(Sm= (x,y)) = f(x,y),1->M * b(x,y),M->m

A T T C G A G C
A C T G A C T T

4/7

Lettura dei dati

Per ogni individuo, e ad ogni posizione inferita
ottengo le probabilità per ogni possibile
genotipo. Quindi:

Se lo SNP ha alleli A/G, avremo, per ogni
individuo, 3 probabilità:
P(A/A) , P(A/G) , P(G/G)

Come si utilizzano?

4/7

Lettura dei dati

1. Genotipo piú probabile
oppure
2. Dosaggio allelico

É una quantità che tiene traccia della incertezza dei genotipi

gA = 2 * P(A/A) + P(A/G) 0≤gA≤2

Rappresenta il numero atteso di copie dell’allele A

4/7

Pros del dosaggio allelico rispetto al genotipo

• Mantiene tutte le possibili configurazioni con le loro
probabilità in un unico valore
• Files piú piccoli e meno parametri da considerare

• Puó facilmente essere incorporato nelle analisi di
associazione usando regressioni lineari o logistiche
(per tratti quantitativi e discreti)
• Considera i genotipi come variabile continua

• La qualità puó essere valutata piú accuratamente
(prossima slide)

4/7

Come valutare la qualità dei risultati
• Se il dosaggio rappresenta il numero atteso di copie
dell’allele A, e poiché ogni individuo ha due alleli, la
distribuzione che lo modella é una binomiale con
probabilità p=frequenza allele A

��
– �� =
2

2��(1−��)
– �� 2 =
��(��)

4/7

Come valutare la qualità dei risultati
• Se il dosaggio rappresenta il numero atteso di copie
dell’allele A, e poiché ogni individuo ha due alleli, la
distribuzione che lo modella é una binomiale con
probabilità p=frequenza allele A

��
– �� =
2
Si é stimato in dati reali che un �� 2 > 0.30
2��(1−��) garantisce l’eliminazione di SNPs di scarsa
– �� 2 =
��(��) qualità. Con questo filtro, ci si aspetta di
scartare il 70% di marcatori scarsamente
inferiti (accuratezza <80%) e solo 0.50% di
quelli bene inferiti (accuratezza > 50%)

5/7

Fattori che migliorano la qualità di
inferenza
• Alta densità dei marcatori iniziali rispetto al pannello di
riferimento

• Vicinanza genetica degli individui inclusi nel pannello
di riferimento con la popolazione in studio

• Aumento del numero di aplotipi nel pannello di
riferimento

5/7

Performance per diversi chip
Affymetrix
Affymetrix N SNPs utili N SNPs inferiti Tasso di errore
Chip per inferenza

MAF <5% MAF >5% MAF<5% MAF >5%
A100K 100,844 259,261 2,086,690 1.80 7.85
A250K (Sty) 195,864 251,807 2,002,214, 1.33 4.12
A250K (Nsp) 216,747 250,364 1,983,146 1.26 3.94
A500K 412,611 234,049 1,809,352 0.93 2.12
A1M 676,182 209,636 1,580,321 0.73 1.23

Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes
and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010)

5/7

Huang et al. Genotype-Imputation
accuracy across Worldwide Human
Populations. AJHG 2009

5/7

Strategie di utilizzo
• Supponiamo siano disponibili dati GWAS (300K-1M SNPs)
su un campione di studio. Possiamo inferire
database pubblici

• ~1.5-2 M SNPs da HapMap
• ~ 13M SNPs da 1000 Genomes

• sequenze Sanger (es. sequenziati per un gene di
laboratorio

interesse >100 campioni di cui si hanno i dati GWAS)
• sequenze intero genoma

6/7

Utilità dell’integrazione tramite
inferenza:

Diverse strategie per diversi obiettivi.
Due esempi.

6/7

1. Scoperta nuovi geni di suscettibilità
• centinaia di pubblicazioni esistenti su scoperte effettuate
tramite integrazione dei dati HapMap, una decina tramite
integrazione dei dati 1000 Genomes

• 882 pazienti+872 individui sani
• Genotipizzati 1M SNPs (Affymetrix)
• Inferenza HapMap & 1000 Genomes

• Identificato un gene di suscettibilità per la Sclerosi Multipla

Sanna, Pitzalis, Zoledziewska et al.
Variants within the immunoregulatory CBLB gene are associated with multiple sclerosis
Nature Genetics 2010

6/7

2. Valutazione dettagliata di regioni già
identificate tramite i GWAS
• sequenziati 256 individui con il
Sanger a 5 geni associati con LDL-C

• Identificate nuove varianti, tra cui una
rara (freq 0.5%) sardo-specifica

• Le varianti identificate raddoppiano
l’ereditabilità spiegata da questi geni
rispetto alle varianti trovate nel GWAS

Sanna, Li, Mulas et al. PlosGen 2011 (in press)

7/7

Scoperta e mappaggio fine

Due obiettivi raggiungibili con un
unico sforzo?

7/7

Progetti in corso
Studio su Sclerosi Multipla & Studio delle condizioni legate
Diabete di Tipo 1 all’invecchiamento

 individui affetti e volontari sani  studia la popolazione
da tutta l’isola dell’ogliastra raccogliendo un
dettaglio quadro clinico, inclusi
immuno-fenotipi

~2500 pazienti MS ~6,000 volontari di 700
~1500 pazienti T1D famiglie
~2500 volontari sani

Studio Longitudinale
(visite ogni 3 anni, dal 2001

7/7

Sequenze 2,000 Sardi
@ 3x in media

Pannello di sequenze
di riferimento con
for 2,000 Individui

Genotipi da arrays Genotipi da arrays
per 6,500 individui Inferenza per 6,000 individui
(MS & T1D GWAS) Statistica (Studio in Ogliastra)

Sequenze virtuali
per 12,500 individui

7/7

Risultati preliminari sull’inferenza
• Sequenziati+analizzati+costruzione pannello di
riferimento: completato per 508 Sardi

• Qualità dell’imputazione migliore rispetto ad un
pannello di simili dimensioni con individui
Europei
Reference Panel Imputation Accuracy (r2) IN SARDINIA

MAF 1-3% MAF 3-5% MAF >5%

1000G (563) 0.75 0.88 0.94
Sardinia (508) 0.90 0.95 0.97

7/7

Implementazione
L’algoritmo discusso é implementato nei software
MACH e IMPUTE (autori Abecasis e Marchini)

Esistono altri algoritmi piú o meno simili (implementati
in Beagle, TUNA, PLINK). Simulazioni e applicazioni
su diversi data set indicano che l’algoritmo di MACH e
IMPUTE é quello piú accurato.

Pei et al. Analyses and Comparison of Accuracy of
Different Genotype Imputation Methods. PlosOne 2008

Riferimenti e bibliografia
• Li et al, MaCH: Using Sequence and Genotype Data to
Estimate Haplotypes and Unobserved Genotypes. Genetic
Epidemiology 34 : 816–834 (2010)
• Marchini and Howie. Genotype imputation for genome-wide
association studies. Nat Rev Gen 11:499-511 (2010)
• Huang et al. Genotype-Imputation accuracy across
Worldwide Human Populations. AJHG 84, 235-50, (2009)
• Pei et al. Analyses and Comparison of Accuracy of Different
Genotype Imputation Methods. PlosOne 3(10):e3551
(2008)
• Li, Willer, Sanna e Abecasis. Genotype Imputation. Annu.
Rev. Genomics Hum. Genet. 2009. 10:387–406

Riferimenti e bibliografia
• MACH
http://www.sph.umich.edu/csg/abecasis/MACH/
• minimac
http://genome.sph.umich.edu/wiki/Minimac
• IMPUTE e IMPUTE 2
http://mathgen.stats.ox.ac.uk/impute/impute.html
• 1000 Genomes Project • Illumina
www.1000genomes.org www.illumina.com
• HapMap Project • Affymetrix
www.hapmap.org www.affymetrix.com

Ringraziamenti
CNR-IRGB CRS4
Francesco Cucca Chris Jones
Eleonora Porcu Ilenia Zara

Maristella Steri Maria Valentini

Carlo Sidore (1/2) Frederic Reiner

il team “Progenia” (tanti!) Riccardo Berutti
Rossano Atzeni

University of Michigan
Goncalo Abecasis Andrea Angius & GSP group

Hyun M Kang Lidia Leoni & HPC group

Carlo Sidore (1/2) Gianluigi Zanetti & DC grop

Tutti i volontari che partecipano alla ricerca
National Institute of Aging (USA)
Università degli studi di Cagliari e Sassari
Cliniche e ospedali della Sardegna

Summer School
http://www.crs4.it/web/international-project-
office/sc2011

7/7

Tempi e costi del calcolo
• MACH/IMPUTE O(H2 * M * N)

– Esempio: 1 settimana per inferire 13 M SNPs su 2000 individui
genotipizzati per 500K SNPs, con 120 aplotpi di riferimento,
usando 22 macchine da 8 core con 16G di RAM.

Se ho il doppio degli aplotipi, il tempo va moltiplicato per 4.
(4 settimane)

tempi proibitivi nell’era del highthroughput!

7/7

Inferenza a 2 steps
1. si costruiscono gli aplotipi degli individui in studio
usando gli SNPs genotipizzati

2. inferenza aploide invece che sui genotipi

Implementato in: minimac e IMPUTE v2
Complessità: O(H * M * N)

7/7

Inferenza a 2 steps
Tempi lunghi, ma task unitario

Step da ripetere ad ogni costruzione di pannello di riferimento


7/7

Inferenza a 2 steps
Tempi lunghi, ma task unitario

Step da ripetere ad ogni costruzione di pannello di riferimento

Da ripetere se si hanno nuovi individui o nuovi genotipi!
Collaborazione con il gruppo di G. Zanetti del DC group del CRS4
per una nuova implementazione di MACH in Hadoop MapReduce

Previous equation obtained as:

L'inferenza statistica e la lettura dei dati

L'inferenza statistica e la lettura dei dati

Recommandé

Recommandé

Contenu connexe

Plus de CRS4 Research Center in Sardinia

Plus de CRS4 Research Center in Sardinia (20)

L'inferenza statistica e la lettura dei dati