SlideShare une entreprise Scribd logo
1  sur  114
Télécharger pour lire hors ligne
L’inferenza statistica
                 e
        la lettura dei dati

Concetti e Applicazioni negli studi genetici


                   Serena Sanna
        Aula Magna Dipartimento di Fisica
       Cittadella Universitaria di Monserrato
                  22 Giugno 2011
1/7


                          Premesse
http://www.crs4.it/web/valorisation-and-transfer-of-
knowledge/seminar-series


• Andrea Angius
 High throughput genotyping and next generation sequencing: nuovi
 strumenti e strategie di analisi della ricerca genetica


• Frederic Reiner
  Sequenziamento e analisi bioinformatica del genoma umano


• Ilenia Zara
  Studi di associazione genetica e disegno sperimentale "caso-controllo"
1/7


           Indice degli argomenti

1)   Background e concetti base
2)   Dove ci serve l’inferenza statistica?
3)   Modello matematico
4)   Lettura e uso dei risultati
5)   Disegni sperimentali e performance
6)   Esempi di applicazioni
7)   Risultati preliminari e lavori in corso
1/7



•Studi genetici:
studiano le variazioni del DNA tra individui e
cercano di capire se correlano con un fenotipo
clinico

Le variazioni del DNA (o marcatori) sono quei
punti del DNA che mostrano delle differenze
rispetto ad un genoma di riferimento

Ne esistono di diversi tipi, classificati rispetto al
tipo di variazione
1/7



     •Maggiormente utilizzati sono gli SNPs
       (Single Nucleotide Polymorphisms)


TAGTAATGCGTATCCACTG           Genoma di riferimento
TAGTAATGCGTATCCACTG           (genotipo omozigote
                              allele di riferimento)

TAGTAATGCGTATACACTG            Individuo sequenziato
TAGTAATGCGTATCCACTG            (genotipo eterozigote)


TAGTAATGCGTATACACTG
                               Individuo sequenziato
TAGTAATGCGTATACACTG            (genotipo omozigote allele
                               alternativo)
1/7



• Studi di associazione genetica
 1. individuazione dei polimorfismi
 2. verifica della correlazione con la malattia o
    con variazioni di un tratto quantitativo


            C/C                                A/A C/A
      C/A            C/C
             A/C         A/C             A/A      C/C A/A
      C/C                                       C/A
                   C/A
      C/A                                A/A     A/C  A/A
             A/A     A/C
                                                A/C
Volontari affetti da una patologia    Volontari NON affetti dalla patologia

            A=8                                 A=14
            C=12                                C=6
1/7



• Studi di associazione genetica
 1. individuazione dei polimorfismi
 2. verifica della correlazione con la malattia o
    con variazioni di un tratto quantitativo

                                                  chisquare test
            C/C                                A/A pvalue= 0.77
                                                    C/A
      C/A            C/C
             A/C         A/C             A/A     C/C A/A
      C/C                                      Non significativo!
                                               C/A
                   C/A
      C/A                                A/A    A/C  A/A
             A/A     A/C
                                                A/C
Volontari affetti da una patologia    Volontari NON affetti dalla patologia

            A=8                                 A=14
            C=12                                C=6
1/7



• Studi di associazione genetica
 1. individuazione dei polimorfismi
 2. verifica della correlazione con la malattia o
    con variazioni di un tratto quantitativo
 É necessario sequenziare il DNA di tutti i volontari in
 studio e confrontarli con un genoma di riferimento?
           C/C                             A/A C/A
     C/A            C/C
            A/C         A/C         A/A       C/C A/A
     C/C                                    C/A
                  C/A
     C/A                            A/A      A/C  A/A
            A/A     A/C
                                            A/C


           A=8                            A=14
           C=12                           C=6
1/7


• Sequenziamento del DNA oggi possibile ad un
 costo piú abbordabile

• Ancora proibitivo si vogliono sequenziare diverse
 migliaia di volontari (numeri necessari per studi
 genetici di associazione per tratti complessi)

• Si possono tuttavia utilizzare metodi di inferenza
 statistica per integrare dati da diverse fonti e
 tipologie per condurre un sequenziamento
 virtuale
2/7


                    Strategia:

a. Leggere il DNA dei volontari in studio solo
   parzialmente. Guardare (genotipizzare) quei punti del
   DNA dove sono già stati osservati dei polimorfismi


b. Predire l’intera sequenza basandosi sulla similitudine
   tra individui, le conoscenze sulla struttura e le
   dinamiche di trasmissione dei cromosomi, e delle
   sequenze ottenute nel proprio laboratorio o reperibili
   nei database pubblici
2/7


Genotyping Arrays
2/7


Genotyping Arrays
                    marcatore
2/7


Genotyping Arrays
                    marcatore




A          G        GG      A
2/7


            Genotyping arrays:

         •Esistono diverse case produttrici

•Marcatori predefiniti in base a degli studi del
progetto HapMap, che ha identificato ~2.5M SNPs




  •Fino a 1 milione di marcatori genetici per circa
              200-300 euro a persona
Arrays vs Sequenze
• Economici                       Costosi

• Ristretti allo studio di <=1M    Studio della completa
  di varianti                     variabilità genetica

• Ristretti allo studio di        Consentono la scoperta di
  varianti già note               nuove varianti

• Escludono varianti presenti     scoperta e studio di varianti
  solo in alcune popolazioni      specifiche della popolazione a
  (come le isolate)               cui appartiene l’individuo
                                  sequenziato
Il valore degli arrays: passato e futuro
 • Enorme successo negli ultimi 4 anni, anche grazie
  all’utilizzo dei metodi di inferenza per l’integrazione dei
  2.5 M di SNPs HapMap


 • Tuttavia é emersa la necessità di studiare l’intera
  sequenza piuttosto che dei marcatori “comuni”, nonché
  di popolazioni “speciali”


 • Come conseguenza del basso costo degli arrays,
  esistono oggi molti gruppi di ricerca che hanno
  genotipizzato migliaia e migliaia di individui con questi
  chip. Come possiamo sfruttare questa risorsa?
2/7



   Aumentare l’informazione con
      l’inferenza statistica

• Supponiamo di avere a disposizione le
 sequenze (o un genoma piú dettagliato) di
 un ridotto numero di individui

.. e di aver caratterizzato il genoma di
migliaia di individui con un arrays (ad una
risoluzione piú bassa)
2/7


              Genotipi Osservati con gli arrays
Volontario:
              . . A A . . . . . . . . A . . . . A . . .
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              . . A A . . . . . . . . A . . . . A . . .
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              . . A A . . . . . . . . A . . . . A . . .
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              . . A A . . . . . . . . A . . . . A . . .
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              c g A A a t c t c c c g A c c t c A t g g
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              c g A A a t c t c c c g A c c t c A t g g
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              c g A A a t c t c c c g A c c t c A t g g
              . . G A . . . . . . . . C . . . . A . . .

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7


              Genotipi Osservati con gli arrays
Volontario:
              c g A A a t c t c c c g A c c t c A t g g
              t g G A a t c t c c c t C t t t t A t a c

              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T   G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T   G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T   G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T   A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T   G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T   G   C
2/7




SEMPLICE?

COMPLICAZIONI NEI DATI REALI E
MODELLO INFERENZIALE
2/7


              Genotipi Osservati con gli arrays
Volontario:
              . .   A/G A/A       . . . . . . . .           A/C     . . . .         A/A     . . .



              Cromosomi di riferimento
              C   G   A   G   A   T   C   T   C     C   T   T   C   T   T   C   T   G   T    G   C
              C   G   A   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T    G   G
              C   C   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T    G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T    G   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   T   A   T    G   C
              T   G   G   A   A   T   C   T   C     C   C   G   A   C   C   T   C   A   T    G   G
              C   G   A   G   A   T   C   T   C     C   C   G   A   C   C   T   T   G   T    G   C
              C   G   A   G   A   C   T   C   T     T   T   T   C   T   T   T   T   A   T    A   C
              C   G   A   G   A   C   T   C   T     C   C   G   A   C   C   T   C   G   T    G   C
              C   G   A   A   G   C   T   C   T     T   T   T   C   T   T   C   T   G   T    G   C
2/7


                    Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
  distingue quale allele viene letto da ciascuna copia
  A      G
  T      C


  A      C
  T      G

  A      C
  T      C

  A      G
  T      G
Sequenza vera
2/7


                    Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
  distingue quale allele viene letto da ciascuna copia
  A      G
  T      C                    A/T   G/C


  A      C
  T      G                    A/T   G/C

  A      C
  T      C                    A/T   C/C


  A      G
  T      G                    A/T   G/G

Sequenza vera              Lettura dell’array
2/7


                    Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
  distingue quale allele viene letto da ciascuna copia
  A       G
  T       C                   A/T   G/C


  A       C
  T       G                   A/T   G/C

  A
      ?   C
  T       C                   A/T   C/C


  A       G
  T       G                   A/T   G/G

Sequenza vera              Lettura dell’array
2/7


                    Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
  distingue quale allele viene letto da ciascuna copia
  A       G
  T       C                   A/T   G/C


  A       C
  T       G                   A/T   G/C

  A
      ?   C
                              A/T   C/C         A        C
  T       C                                     T        C

  A       G                                     A        G
  T       G                   A/T   G/G
                                                T        G
Sequenza vera              Lettura dell’array
Problema:
Ogni individuo ha 2 copie di ogni cromosoma.
I marcatori vengono letti per posizione, ma non si
  distingue quale allele viene letto da ciascuna copia
  A       G
  T       C                 A/T     G/C

                                                      A   C
  A       C                                     0.5   T   G
  T       G                 A/T     G/C

  A
      ?   C
                                                0.5   A
                                                      T
                                                          G
                                                          C
  T       C                 A/T     C/C


  A       G
  T       G                 A/T     G/G

Sequenza vera              Lettura dell’array
2/7


                Problema:
Piú complesso se aumentiamo i marcatori


 A    A   G
 T    C   C              A/T A/C G/C


  A   C C
  T   C G                A/T C/C   G/C

  A   A   C
  T   C   C              A/T A/C C/C


  A   C   G
  T   A   G              A/T   A/C G/G

Sequenza vera        Lettura dell’array
2/7


                Problema:
Piú complesso se aumentiamo i marcatori


 A    A   G
 T    C   C              A/T A/C G/C


  A   C C
  T   C G                A/T C/C   G/C

  A
      ?
      A   C
                                          0.5
                                                A
                                                T
                                                    A
                                                    C
                                                        C
                                                        C
  T   C   C              A/T A/C C/C
                                                A   C   C
                                          0.5
                                                T   A   C
  A   C   G
  T   A   G              A/T   A/C G/G

Sequenza vera        Lettura dell’array
2/7


                Problema:
Piú complesso se aumentiamo i marcatori

                                          0.25    A   A   C
 A    A   G                                       T   C   G
 T    C   C              A/T A/C G/C      0.25    A   A G
                                                  T   C C
                                          0.25    A   C   C
  A   C C
  T   C G                A/T C/C   G/C            T   A   G

  A
      ?
      A   C
                                           0.25   A
                                                  T
                                                      C
                                                      A
                                                          G
                                                          C
  T   C   C              A/T A/C C/C


  A   C   G
  T   A   G              A/T   A/C G/G

Sequenza vera        Lettura dell’array
2/7


                          Problema:
    Piú complesso se aumentiamo i marcatori

                                                   0.25    A   A   C
       A    A G                                            T   C   G
       T    C C                   A/T A/C G/C      0.25    A   A G
       A    C C                                            T   C C
       T    C G                                    0.25    A   C   C
Aplotipi di riferimento           A/T C/C   G/C            T   A   G
                                                    0.25   A   C   G
                                                           T   A   C
                                  A/T A/C C/C



                                  A/T   A/C G/G

                              Lettura dell’array
2/7


                          Problema:
    Piú complesso se aumentiamo i marcatori

                                                   0.25    A   A   C
                                                                   C
       A    A G                                            T   C   G
       T    C C                   A/T A/C G/C      0.25    A   A G
       A    C C                                            T   C C
       T    C G                                    0.25    A   C   C
Aplotipi di riferimento           A/T C/C   G/C            T   A   G
                                                    0.25   A   C   G
                                                           T   A   C
                                  A/T A/C C/C



                                  A/T   A/C G/G

                              Lettura dell’array
2/7


                          Problema:
    Piú complesso se aumentiamo i marcatori

                                                   ?          A   A   C
                                                                      C
       A    A G                                               T   C   G
       T    C C                   A/T A/C G/C      0.25       A   A G
       A    C C                                               T   C C
       T    C G                                    0.25       A   C   C
Aplotipi di riferimento           A/T C/C   G/C               T   A   G
                                                       0.25   A   C   G
                                                              T   A   C
                                  A/T A/C C/C



                                  A/T   A/C G/G

                              Lettura dell’array
2/7

                          Modello Matematico
 • Probabilità sono pesate dalle conoscenze genetiche
    sul tasso di ricombinazione tra due punti di un cromosoma.

     La ricombinazione non é infatti casuale ma avviene con delle
     probabilità tipiche di ciascuna popolazione.
  Ricombinazione Genetica




http://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.html
2/7


          Modello Matematico
• Il modello matematico consiste, data una stringa
 di genotipi, e un insieme di aplotipi di riferimento,
 nel assegnare alla posizione iniziale ad un
 aplotipo, e poi assegnare l’aplpotipo successivo
 valutando la probabilità che alla successiva
 posizione ci sia stata o meno una ricombinazione

• Questo processo puo’ essere modellato con una
 catena di Markov Nascosta (HMM)
Esempio:
     Aplotipi di referenza:
H1     A     C
H2     T     G
H3     A     G
H4     T     C


     Genotipi osservati
       A/T C/G
Esempio:
     Aplotipi di referenza:
H1     A     C
H2     T     G
H3     A     G
H4     T     C


     Genotipi osservati
       A/T C/G       A        C
                     T        G
Esempio:
     Aplotipi di referenza:
H1     A       C
H2     T       G
H3     A       G
H4     T       C


     Genotipi osservati
       A/T C/G       A        C
                     T        G
H1/
H2
 A
 A         C
 T
 T         G
Esempio:
     Aplotipi di referenza:
H1     A         C
H2     T         G
H3     A         G
H4     T         C


     Genotipi osservati
       A/T C/G       A        C
                     T        G
H1/        H1/
H2         H2
 A         C
 T         G
Esempio:
     Aplotipi di referenza:       a12,12
H1     A         C
H2     T         G                         H1/
H3     A         G                         H2
H4     T         C


     Genotipi osservati
       A/T C/G       A        C
                     T        G
H1/        H1/
H2         H2
 A         C
 T         G
Esempio:
                                                        a12,13
     Aplotipi di referenza:              a12,12          H1/
H1     A         C                                       H3
H2     T         G                                H1/
H3     A         G                                H2
H4     T         C


     Genotipi osservati
       A/T C/G             A         C
                           T         G
H1/        H1/       H1/       H1/
H2         H2        H2        H3
 A         C         A         C
 T         G         T
                     T         G
Esempio:
                                                                a12,13
     Aplotipi di referenza:                  a12,12              H1/
H1     A         C                                               H3
H2     T         G                                    H1/
H3     A         G                                    H2
H4     T         C                                          a12,42
                                                                     H4/
                                                                     H2
     Genotipi osservati
       A/T C/G             A         C
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/
H2         H2        H2        H3        H2           H2
 A         C         A         C         A
                                         A            C
 T         G         T
                     T         G         T            G
Esempio:
                                                                a12,13
     Aplotipi di referenza:                  a12,12              H1/
H1     A         C                                               H3
H2     T         G                                    H1/
                                                                     a12,43   H4/
H3     A         G                                    H2
                                                                              H3
H4     T         C                                          a12,42
                                                                      H4/
                                                                      H2
     Genotipi osservati
       A/T C/G             A         C
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/       H1/           H4/
H2         H2        H2        H3        H2           H2        H2            H3
 A         C         A         C         A
                                         A            C          A
                                                                 A            C
 T         G         T
                     T         G         T            G          T
                                                                 T            G
Esempio:
                                                                a12,13
     Aplotipi di referenza:                  a12,12              H1/
H1     A         C                                               H3
H2     T         G                                    H1/
                                                                     a12,43   H4/
H3     A         G                                    H2
                                                                              H3
H4     T         C                                          a12,42
                                                      H3/             H4/
                                                      H2              H2
     Genotipi osservati
       A/T C/G             A         C
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/       H1/           H4/
H2         H2        H2        H3        H2           H2        H2            H3
 A         C         A         C         A
                                         A            C          A
                                                                 A            C
 T         G         T
                     T         G         T            G          T
                                                                 T            G
 H3/
 H2
 A
 A         C
 T
 T         G
Esempio:
                                                                a12,13
     Aplotipi di referenza:                  a12,12              H1/
H1     A         C                                               H3
H2     T         G                                    H1/
                                                                     a12,43   H4/
H3     A         G                                    H2
                                                                              H3
H4     T         C                             a32,12       a12,42
                                                      H3/             H4/
                                                      H2              H2
     Genotipi osservati
       A/T C/G             A         C
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/       H1/           H4/
H2         H2        H2        H3        H2           H2        H2            H3
 A         C         A         C         A
                                         A            C          A
                                                                 A            C
 T         G         T
                     T         G         T            G          T
                                                                 T            G
 H3/       H1/
 H2        H2
 A
 A         C
 T         G
Esempio:
                                                                a12,13
     Aplotipi di referenza:                  a12,12              H1/
H1     A         C                                               H3
H2     T         G                                    H1/   a32,13
                                                                     a12,43   H4/
H3     A         G                                    H2
                                                                              H3
H4     T         C                             a32,12       a12,42
                                                      H3/             H4/
                                                      H2              H2
     Genotipi osservati
       A/T C/G             A         C
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/       H1/           H4/
H2         H2        H2        H3        H2           H2        H2            H3
 A         C         A         C         A
                                         A            C          A
                                                                 A            C
 T         G         T
                     T         G         T            G          T
                                                                 T            G
 H3/       H1/       H3/       H1/
 H2        H2        H2        H3
 A
 A         C         A
                     A         C
 T         G         T
                     T         G
Esempio:
                                                                     a12,13
     Aplotipi di referenza:                  a12,12                   H1/
H1     A         C                                                    H3
H2     T         G                                    H1/      a32,13
                                                                        a12,43   H4/
H3     A         G                                    H2
                                                                                 H3
H4     T         C                             a32,12          a12,42
                                                      H3/                 H4/
                                                      H2                  H2
     Genotipi osservati
                           A         C                      a32,42
       A/T C/G
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/            H1/         H4/
H2         H2        H2        H3        H2           H2             H2          H3
 A         C         A         C         A
                                         A            C               A
                                                                      A          C
 T         G         T
                     T         G         T            G               T
                                                                      T          G
 H3/       H1/       H3/       H1/       H3/          H4/
 H2        H2        H2        H3        H2           H2
 A
 A         C         A
                     A         C         A
                                         A              C
 T         G         T
                     T         G         T              G
Esempio:
                                                                     a12,13
     Aplotipi di referenza:                  a12,12                   H1/
H1     A         C                                                    H3
H2     T         G                                    H1/      a32,13
                                                                         a12,43      H4/
H3     A         G                                    H2
                                                                                     H3
H4     T         C                             a32,12          a12,42       a32,43

                                                      H3/                  H4/
                                                      H2                   H2
     Genotipi osservati
                           A         C                      a32,42
       A/T C/G
                           T         G
H1/        H1/       H1/       H1/       H1/          H4/            H1/             H4/
H2         H2        H2        H3        H2           H2             H2              H3
 A         C         A         C         A
                                         A            C               A
                                                                      A              C
 T         G         T
                     T         G         T            G               T
                                                                      T              G
 H3/       H1/       H3/       H1/       H3/          H4/            H3/          H4/
 H2        H2        H2        H3        H2           H2             H2           H3
 A
 A         C         A
                     A         C         A
                                         A              C            A
                                                                     A            C
 T         G         T
                     T         G         T              G            T
                                                                     T            G
Esempio:
                                                          a12,13
     Aplotipi di referenza:       a12,12                   H1/
H1     A       C                                           H3
H2     T       G                           H1/      a32,13
                                                             a12,43      H4/
H3     A       G                           H2
                                                                         H3
H4     T       C                   a32,12           a12,42      a32,43

                                           H3/                H4/
                                           H2                 H2
     Genotipi osservati
                     A        C                  a32,42
       A/T C/G
                     T        G
H1/
H4
 A
 A         C
 T
 T         G
                         Similmente si aggiungono quelli che
 H3/
 H4
                                iniziano con H1/H4 e H3/H4
 A
 A         C
 T
 T         G
Esempio:
                                                           a14,12
                                                          a12,13 a
                                                                      14,13
     Aplotipi di referenza:                                                    H1/
                                  a12,12                   H1/                 H4
H1     A       C                                           H3          a14,43
H2     T       G                           H1/      a32,13
                                                             a12,43      H4/
H3     A       G                           H2                                        a14,42
                                                                         H3
H4     T       C                   a32,12           a12,42      a32,43

                                           H3/                H4/                  a
                                                                              a34,12 34,43
                                           H2                 H2
     Genotipi osservati                                               a34,13
                                                                                  H3/
                     A        C                  a32,42
       A/T C/G                                                                    H4
                     T        G                                          a34,42

H1/
H4
 A
 A         C
 T
 T         G
                         Similmente si aggiungono quelli che
 H3/
 H4
                                iniziano con H1/H4 e H3/H4
 A
 A         C
 T
 T         G
Esempio:
                                                           a14,12
                                                          a12,13 a
                                                                      14,13
     Aplotipi di referenza:                                                    H1/
                                  a12,12                   H1/                 H4
H1     A     C                                             H3          a14,43
H2     T     G                             H1/      a32,13
                                                             a12,43      H4/
H3     A     G                             H2                                        a14,42
                                                                         H3
H4     T     C                     a32,12           a12,42      a32,43

                                           H3/                H4/                  a
                                                                              a34,12 34,43
                                           H2                 H2
     Genotipi osservati                                               a34,13
                                                                                  H3/
                     A        G                  a32,42
       A/T C/G                                                                    H4
                     T        C                                          a34,42
Esempio:
                                                                   a14,12
                                                                  a12,13 a
                                                                              14,13
     Aplotipi di referenza:                                                            H1/
                                          a12,12                   H1/                 H4
H1     A       C                                                   H3          a14,43
H2     T       G                                   H1/      a32,13
                                                                     a12,43      H4/
H3     A       G                                   H2                                        a14,42
                                                                                 H3
H4     T       C                            a32,12          a12,42      a32,43

                                                   H3/                H4/                  a
                                                                                      a34,12 34,43
                                                   H2                 H2
     Genotipi osservati                                                       a34,13
                                                                                          H3/
                         A       G                       a32,42
       A/T C/G                                                                            H4
                         T       C                                               a34,42

H1/                H1/
H2                 H4
 A
 A         G        A
                    A        G
 T
 T         C        T
                    T        C
H3/                H3/                   aggiungere tutte le configurazioni
H2                 H4                con alleli GC da questi starting points
 A
 A         G       A
                   A         G
 T
 T         C       T
                   T         C
Esempio:
     Aplotipi di referenza:
H1     A         C
H2     T         G
H3     A         G
H4     T         C


     Genotipi osservati
       A/T C/G




     Situazioni incompatibili se non si assume errore
H1/        H?/       H2/   H?/   H3/   H?/   H4/    H?/
H1         H?        H2    H?    H3    H?    H4     H?
 A         ?         A
                     T     ?     A     ?      A     ?
 A         ?         A
                     T     ?     A     ?      A     ?
Esempio:
     Aplotipi di referenza:
H1     A         C
H2     T         G
H3     A         G
H4     T         C


     Genotipi osservati
       A/T C/G
                                 P(G1  A / T S1  ( H1 , H1 ) )  0

     Situazioni incompatibili se non si assume errore
H1/        H?/       H2/   H?/      H3/      H?/       H4/      H?/
H1         H?        H2    H?       H3       H?        H4       H?
 A         ?         A
                     T     ?         A       ?          A       ?
 A         ?         A
                     T     ?         A       ?          A       ?
Esempio:
     Aplotipi di referenza:
H1    A      C     A      T         T
H2    T      G     A      A         C
H3    A      G     C      A         T
H4    T      C     A      T         C


     Genotipi osservati
      A/T   C/G   ?/?   ?/?   T/C


      H1/
      H2
Esempio:
     Aplotipi di referenza:
H1    A      C     A      T         T
H2    T      G     A      A         C
H3    A      G     C      A         T
H4    T      C     A      T         C


     Genotipi osservati
      A/T   C/G   ?/?   ?/?   T/C


      H1/   H?/
      H2    H?
Esempio:
     Aplotipi di referenza:
H1    A      C     A      T         T
H2    T      G     A      A         C
H3    A      G     C      A         T
H4    T      C     A      T         C


     Genotipi osservati
      A/T   C/G   ?/?   ?/?   T/C


      H1/   H?/   H?/
      H2    H?    H?
Esempio:
     Aplotipi di referenza:
H1    A      C     A      T         T
H2    T      G     A      A         C
H3    A      G     C      A         T
H4    T      C     A      T         C


     Genotipi osservati
      A/T   C/G   ?/?   ?/?   T/C


      H1/   H?/   H?/
      H2    H?    H?



                  A/C
Esempio:
     Aplotipi di referenza:
H1    A      C     A      T         T
H2    T      G     A      A         C
H3    A      G     C      A         T
H4    T      C     A      T         C


     Genotipi osservati
      A/T   C/G   ?/?   ?/?   T/C


      H1/   H?/   H?/   H?/
      H2    H?    H?    H?



                  A/C   T/T
Esempio:
     Aplotipi di referenza:
H1    A      C     A      T         T
H2    T      G     A      A         C
H3    A      G     C      A         T
H4    T      C     A      T         C


     Genotipi osservati
      A/T   C/G   ?/?   ?/?   T/C


      H1/   H?/   H?/   H?/   H?/
      H2    H?    H?    H?    H?



                  A/C   T/T
3/7




Come rappresentare questo “cammino”
   decisionale lungo il genoma”?
3/7



• Catena di Markov:
modello stocastico basato sulla proprietà di Markov: la
 probabilità di una configurazione allo stato n+1
 dipende solo dalla configurazione osservata nello stato
 precedente n




• Catena di Markov Nascosta:
gli stati seguono una catena di Markov, ma non sono
 noti
3/7


           Catena di Markov Nascosta
                                                      Probabilità di
                                                      transizione

               S1                                           Stati
                                      S2         S3         (aplotipi)


                                                      Probabilità di
                                                      emissione




                  G1                                     Dati osservati
                                 G2         G3   G4
                                                         (Genotipi)


Immagine adattata da Wikipedia
3/7


            Probabilità di emissione
• Sono modellate in funzione del parametro ε che
 rappresenta un potenziale tasso di errore e consente
 di costruire anche aplotipi che sono incompatibili con i
 genotipi


   H1   A     C     C
   H2   T     G     A
   H3
   H4
        A
        T
              G
              C
                    A
                    A
                      P(G1 A / A S m  ( H i , H j ) )  ?

                                      i, j
        A/A   ?/?   C/G
3/7


            Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare




   H1   A      C      C
   H2   T      G      A
   H3   A      G      A
   H4   T      C      A



        A/A    ?/?    C/G
3/7


            Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare



                                         A/A

   H1   A      P(G1 A / A S m  ( H1 , H1 ) )  1   1   
               C    C
   H2   T      G      A
   H3   A      G      A
   H4   T      C      A



        A/A    ?/?    C/G
3/7


            Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare



                                         A/A

   H1   A      P(G1 A / A S m  ( H1 , H1 ) )  1   1   
               C    C
   H2   T      G      A
   H3   A      G      A                  A/T
                P(G1 A / A S m  ( H1 , H 2 ) ) 1    
   H4   T      C      A



        A/A    ?/?    C/G
3/7


            Probabilità di emissione
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare



                                         A/A

   H1   A      P(G1 A / A S m  ( H1 , H1 ) )  1   1   
               C    C
   H2   T      G      A
   H3   A      G      A                  A/T
                P(G1 A / A Sm  ( H1 , H 2 ) ) 1    
   H4   T      C      A



        A/A    ?/?    C/G
                                          T/T
                 P(G1 A / A S m  ( H 2 , H 2 ) )    
3/7


              Probabilità di emissione
Se e(Hi,Hj) = il genotipo risultante dagli aplotipi
ε = la probabilità di sbagliare
1- ε = la probabilità di non sbagliare

       P(Gm  x / y S m  ( H i , H j ) ) 
  – (1- ε)2       se x/y = e(Hi,Hj) e omozigote
    ε2            se x/y ed e(Hi,Hj) sono omozigoti opposti
   ε(1- ε)        se x/y omozigote e e(Hi,Hj) eterogizote
  – ε2+(1- ε) 2   se x/y=e(Hi,Hj) e eterozigote
  – 2ε(1- ε)      se x/y heterozigote e e(Hi,Hj) omozigote
3/7


                 Probabilità di emissione
     • Nel caso di un genotipo da inferire

     Aplotipi di referenza

H1    A      C      C
H2    T      G      A
H3    A      G      A        P(G2  ?/? S 2  ( H i , H j ) )  1
H4    T      C      A
     Genotipi osservati                      i, j
     A/T    ?/?     C/G
3/7


       Probabilità di transizione
• Definisce come gli stati (nascosti) cambiano da
 una posizione all’altra

• Sono una funzione del tasso di ricombinazione ϴ
     P (assenza ricombinazione tra 2 aplotipi) = 1- ϴ
     P(ricombinazione tra 2 aplotipi) = ϴ / Naplotipi

• Consentono di passare a qualsiasi aplotipo,
 assumendo possibile anche la ricombinazione
 con lo stesso aplotipo ( » states = Naplotipi2)
3/7


                                       Esempi
                m-1                  11
                m                    11

                                                                                                 
(1   )  (1   )  (1   )                  (1   )                                 
                                   N aplotipi                  N aplotipi       N aplotipi       N aplotipi
Nessuno dei
due ricombina
3/7


                                       Esempi
                m-1                  11
                m                    11

                                                                                                 
(1   )  (1   )  (1   )                  (1   )                                 
                                   N aplotipi                  N aplotipi       N aplotipi       N aplotipi
Nessuno dei
due ricombina           Ricombina
                        solo il primo
3/7


                                       Esempi
                m-1                  11
                m                    11

                                                                                                 
(1   )  (1   )  (1   )                                  (1   )                 
                                   N aplotipi       N aplotipi                  N aplotipi       N aplotipi
Nessuno dei
due ricombina           Ricombina                      Ricombina solo
                        solo il primo                  il secondo
3/7


                                      Esempi
                m-1                  11
                m                    11

                                                                                            
(1   )  (1   )  (1   )                                  (1   )             
                                   N aplotipi       N aplotipi                  N aplotipi N aplotipi
Nessuno dei
due ricombina           Ricombina                      Ricombina solo           Ricombinano
                        solo il primo                  il secondo               entrambi
3/7


                                      Esempi
               m-1                   11
               m                     11

                                                                                            
(1   )  (1   )  (1   )                                  (1   )             
                                   N aplotipi       N aplotipi                  N aplotipi N aplotipi



m-1               11
m                 33,32
                           2
             
                      
           N          
             aplotipi 
3/7


                                      Esempi
               m-1                   11
               m                     11

                                                                                            
(1   )  (1   )  (1   )                                  (1   )               
                                   N aplotipi       N aplotipi                  N aplotipi N aplotipi



                                                    m-1                  11
m-1               11
                                                    m                    21,31,41
m                 33,32
                                                                                       2
             
                           2
                                                       (1   ) 
                                                                               
                                                                                 
                                                                  
           N                                         N aplotipi     N         
             aplotipi                                                aplotipi 
3/7


                            Formula

 P( S m  ( H x , H y ) S m 1  ( H i , H j ) ) 
                                           2
           2 (1   )   
(1   ) 
         2
                                               se (Hx,Hy)=(Hi,Hj)
            N aplotipi  N aplotipi 
                                   
                                 2
  (1   ) 
                           
                             
                                              se |(Hx,Hy)-(Hi,Hj)|=1
  N aplotipi     N          
                   aplotipi 

                  2
    
             
  N                                          se |(Hx,Hy)-(Hi,Hj)|=2
    aplotipi 
3/7


                       Algoritmo
• Aggiorna ciascun individuo alla volta, costruendo la
 serie di aplotipi (presi dal pannello di referenza) che
 concordano con i genotipi osservati e calcolandone
 le probabilità

1. Inizia considerando equiprobabile lo stato delle
   posizioni iniziali (primo marcatore), e poi calcola la
   probabilità dei dati osservati
                           L                L
        P(G, S)  P( S1 ) P( S j | S j 1 ) P(G j | S j )
                          j 2              j 1



2. Campiona dei nuovi stati iniziali S in maniera
   proporzionale a P(G,S) per riniziare la catena
3/7




4. La catena di Markov viene ripetuta per diverse volte
(rounds), fino a quando si raggiunge la convergenza


       Rappresentazione grafica

     Aplotipi iniziali equiprobabili

                                          Probabilità di ciascun
                                          stato e calcolo dei
                                          genotipi mancanti



                            restart    Campionamento
                                       degli aplotipi iniziali
3/7


            Sampling algorithm:
       Baum-Welch (forward-backward)

Forward: Calcolare cumulativamente fino all’ultimo
marcatore le probabilità forward per i genotipi osservati e
gli stati Sm

Backward: Campiona le assegnazioni degli aplotipi
secondo le probabilità forward e le probabilità di
transizione
                     P(Sm= (x,y)) = f(x,y),1->M * b(x,y),M->m



   A      T      T        C          G          A         G     C
   A      C      T        G          A          C         T     T
4/7


              Lettura dei dati

Per ogni individuo, e ad ogni posizione inferita
 ottengo le probabilità per ogni possibile
 genotipo. Quindi:

Se lo SNP ha alleli A/G, avremo, per ogni
 individuo, 3 probabilità:
 P(A/A) , P(A/G) , P(G/G)

                Come si utilizzano?
4/7


                    Lettura dei dati

1. Genotipo piú probabile
                            oppure
2. Dosaggio allelico

É una quantità che tiene traccia della incertezza dei genotipi


             gA = 2 * P(A/A) + P(A/G)                 0≤gA≤2


Rappresenta il numero atteso di copie dell’allele A
4/7


Pros del dosaggio allelico rispetto al genotipo

   • Mantiene tutte le possibili configurazioni con le loro
    probabilità in un unico valore
       • Files piú piccoli e meno parametri da considerare


   • Puó facilmente essere incorporato nelle analisi di
    associazione usando regressioni lineari o logistiche
    (per tratti quantitativi e discreti)
       • Considera i genotipi come variabile continua


   • La qualità puó essere valutata piú accuratamente
    (prossima slide)
4/7


Come valutare la qualità dei risultati
• Se il dosaggio rappresenta il numero atteso di copie
 dell’allele A, e poiché ogni individuo ha due alleli, la
 distribuzione che lo modella é una binomiale con
 probabilità p=frequenza allele A

           ������������������������������ ������������������������������������������������
  – ������ =
                       2


                   2������(1−������)
  – ������ 2 =
             ������������������(������������������������������������������������)
4/7


Come valutare la qualità dei risultati
• Se il dosaggio rappresenta il numero atteso di copie
 dell’allele A, e poiché ogni individuo ha due alleli, la
 distribuzione che lo modella é una binomiale con
 probabilità p=frequenza allele A

           ������������������������������ ������������������������������������������������
  – ������ =
                       2
                                    Si é stimato in dati reali che un ������ 2 > 0.30
                 2������(1−������)          garantisce l’eliminazione di SNPs di scarsa
  – ������ 2 =
           ������������������(������������������������������������������������) qualità. Con questo filtro, ci si aspetta di
                                    scartare il 70% di marcatori scarsamente
                                    inferiti (accuratezza <80%) e solo 0.50% di
                                    quelli bene inferiti (accuratezza > 50%)
5/7


 Fattori che migliorano la qualità di
              inferenza
• Alta densità dei marcatori iniziali rispetto al pannello di
 riferimento


• Vicinanza genetica degli individui inclusi nel pannello
 di riferimento con la popolazione in studio


• Aumento del numero di aplotipi nel pannello di
 riferimento
5/7



          Performance per diversi chip
                  Affymetrix
Affymetrix    N SNPs utili    N SNPs inferiti          Tasso di errore
Chip          per inferenza

                              MAF <5%      MAF >5%     MAF<5%     MAF >5%
A100K         100,844         259,261     2,086,690       1.80       7.85
A250K (Sty)   195,864         251,807     2,002,214,      1.33       4.12
A250K (Nsp)   216,747         250,364     1,983,146       1.26       3.94
A500K         412,611         234,049     1,809,352       0.93       2.12
A1M           676,182         209,636     1,580,321       0.73       1.23


        Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes
        and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010)
5/7




       Huang et al. Genotype-Imputation
      accuracy across Worldwide Human
                Populations. AJHG 2009
5/7



                                Strategie di utilizzo
                    • Supponiamo siano disponibili dati GWAS (300K-1M SNPs)
                     su un campione di studio. Possiamo inferire
database pubblici




                        • ~1.5-2 M SNPs da HapMap
                        • ~ 13M SNPs da 1000 Genomes



                        • sequenze Sanger (es. sequenziati per un gene di
laboratorio




                          interesse >100 campioni di cui si hanno i dati GWAS)
                        • sequenze intero genoma
6/7




Utilità dell’integrazione tramite
             inferenza:

 Diverse strategie per diversi obiettivi.
             Due esempi.
6/7


      1. Scoperta nuovi geni di suscettibilità
  • centinaia di pubblicazioni esistenti su scoperte effettuate
     tramite integrazione dei dati HapMap, una decina tramite
     integrazione dei dati 1000 Genomes


  • 882 pazienti+872 individui sani
  • Genotipizzati 1M SNPs (Affymetrix)
  • Inferenza HapMap & 1000 Genomes

  • Identificato un gene di suscettibilità per la Sclerosi Multipla

Sanna, Pitzalis, Zoledziewska et al.
Variants within the immunoregulatory CBLB gene are associated with multiple sclerosis
Nature Genetics 2010
6/7


2. Valutazione dettagliata di regioni già
      identificate tramite i GWAS
               • sequenziati 256 individui con il
                Sanger a 5 geni associati con LDL-C


               • Identificate nuove varianti, tra cui una
                rara (freq 0.5%) sardo-specifica


               • Le varianti identificate raddoppiano
                l’ereditabilità spiegata da questi geni
                rispetto alle varianti trovate nel GWAS


                     Sanna, Li, Mulas et al. PlosGen 2011 (in press)
7/7




Scoperta e mappaggio fine


Due obiettivi raggiungibili con un
         unico sforzo?
7/7


                      Progetti in corso
Studio su Sclerosi Multipla &          Studio delle condizioni legate
Diabete di Tipo 1                      all’invecchiamento

 individui affetti e volontari sani    studia la popolazione
   da tutta l’isola                       dell’ogliastra raccogliendo un
                                          dettaglio quadro clinico, inclusi
                                          immuno-fenotipi

~2500 pazienti MS                                  ~6,000 volontari di 700
~1500 pazienti T1D                                               famiglie
~2500 volontari sani


                                                     Studio Longitudinale
                                              (visite ogni 3 anni, dal 2001
7/7



                      Sequenze 2,000 Sardi
                         @ 3x in media



                      Pannello di sequenze
                       di riferimento con
                       for 2,000 Individui


Genotipi da arrays                              Genotipi da arrays
per 6,500 individui         Inferenza           per 6,000 individui
(MS & T1D GWAS)             Statistica         (Studio in Ogliastra)



                         Sequenze virtuali
                        per 12,500 individui
7/7


 Risultati preliminari sull’inferenza
• Sequenziati+analizzati+costruzione pannello di
 riferimento: completato per 508 Sardi

• Qualità dell’imputazione migliore rispetto ad un
 pannello di simili dimensioni con individui
 Europei
Reference Panel        Imputation Accuracy (r2) IN SARDINIA

                  MAF 1-3%        MAF 3-5%            MAF >5%

  1000G (563)       0.75              0.88               0.94
 Sardinia (508)     0.90              0.95               0.97
7/7


               Implementazione
L’algoritmo discusso é implementato nei software
 MACH e IMPUTE (autori Abecasis e Marchini)



Esistono altri algoritmi piú o meno simili (implementati
 in Beagle, TUNA, PLINK). Simulazioni e applicazioni
 su diversi data set indicano che l’algoritmo di MACH e
 IMPUTE é quello piú accurato.


                 Pei et al. Analyses and Comparison of Accuracy of
                 Different Genotype Imputation Methods. PlosOne 2008
Riferimenti e bibliografia
• Li et al, MaCH: Using Sequence and Genotype Data to
 Estimate Haplotypes and Unobserved Genotypes. Genetic
 Epidemiology 34 : 816–834 (2010)
• Marchini and Howie. Genotype imputation for genome-wide
 association studies. Nat Rev Gen 11:499-511 (2010)
• Huang et al. Genotype-Imputation accuracy across
 Worldwide Human Populations. AJHG 84, 235-50, (2009)
• Pei et al. Analyses and Comparison of Accuracy of Different
 Genotype Imputation Methods. PlosOne 3(10):e3551
 (2008)
• Li, Willer, Sanna e Abecasis. Genotype Imputation. Annu.
 Rev. Genomics Hum. Genet. 2009. 10:387–406
Riferimenti e bibliografia
• MACH
http://www.sph.umich.edu/csg/abecasis/MACH/
• minimac
http://genome.sph.umich.edu/wiki/Minimac
• IMPUTE e IMPUTE 2
http://mathgen.stats.ox.ac.uk/impute/impute.html
• 1000 Genomes Project               • Illumina
www.1000genomes.org                  www.illumina.com
• HapMap Project                     • Affymetrix
www.hapmap.org                       www.affymetrix.com
Ringraziamenti
   CNR-IRGB                                    CRS4
   Francesco Cucca                             Chris Jones
   Eleonora Porcu                              Ilenia Zara

   Maristella Steri                            Maria Valentini

   Carlo Sidore (1/2)                          Frederic Reiner

   il team “Progenia” (tanti!)                 Riccardo Berutti
                                               Rossano Atzeni

  University of Michigan
  Goncalo Abecasis                             Andrea Angius & GSP group

   Hyun M Kang                                 Lidia Leoni & HPC group

   Carlo Sidore (1/2)                          Gianluigi Zanetti & DC grop

                                          Tutti i volontari che partecipano alla ricerca
National Institute of Aging (USA)
Università degli studi di Cagliari e Sassari
Cliniche e ospedali della Sardegna
Summer School
http://www.crs4.it/web/international-project-
office/sc2011
7/7



         Tempi e costi del calcolo
• MACH/IMPUTE O(H2 * M * N)

 – Esempio: 1 settimana per inferire 13 M SNPs su 2000 individui
   genotipizzati per 500K SNPs, con 120 aplotpi di riferimento,
   usando 22 macchine da 8 core con 16G di RAM.

      Se ho il doppio degli aplotipi, il tempo va moltiplicato per 4.
 (4 settimane)


 tempi proibitivi nell’era del highthroughput!
7/7



            Inferenza a 2 steps
 1. si costruiscono gli aplotipi degli individui in studio
    usando gli SNPs genotipizzati



 2. inferenza aploide invece che sui genotipi



Implementato in: minimac       e IMPUTE v2
Complessità: O(H * M * N)
7/7



            Inferenza a 2 steps
 1. si costruiscono gli aplotipi degli individui in studio
    usando gli SNPs genotipizzati
                                 Tempi lunghi, ma task unitario



 2. inferenza aploide invece che sui genotipi
         Step da ripetere ad ogni costruzione di pannello di riferimento



Implementato in: minimac         e IMPUTE v2
Complessità: O(H * M * N)
7/7



             Inferenza a 2 steps
 1. si costruiscono gli aplotipi degli individui in studio
    usando gli SNPs genotipizzati
                                   Tempi lunghi, ma task unitario



 2. inferenza aploide invece che sui genotipi
         Step da ripetere ad ogni costruzione di pannello di riferimento



Implementato in: minimac            e IMPUTE v2
Complessità: O(H * M * N)
        Da ripetere se si hanno nuovi individui o nuovi genotipi!
       Collaborazione con il gruppo di G. Zanetti del DC group del CRS4
       per una nuova implementazione di MACH in Hadoop MapReduce
Previous equation obtained as:
L'inferenza statistica e la lettura dei dati

Contenu connexe

Plus de CRS4 Research Center in Sardinia

Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...CRS4 Research Center in Sardinia
 
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...CRS4 Research Center in Sardinia
 
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015CRS4 Research Center in Sardinia
 
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...CRS4 Research Center in Sardinia
 
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)CRS4 Research Center in Sardinia
 
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...CRS4 Research Center in Sardinia
 
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...CRS4 Research Center in Sardinia
 
Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)
Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)
Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)CRS4 Research Center in Sardinia
 
Modellistica molecolare e applicazioni alla sclerosi multipla
Modellistica molecolare e applicazioni alla sclerosi multiplaModellistica molecolare e applicazioni alla sclerosi multipla
Modellistica molecolare e applicazioni alla sclerosi multiplaCRS4 Research Center in Sardinia
 
Real-time or full-precision CRS imaging using a cloud computing portal: multi...
Real-time or full-precision CRS imaging using a cloud computing portal: multi...Real-time or full-precision CRS imaging using a cloud computing portal: multi...
Real-time or full-precision CRS imaging using a cloud computing portal: multi...CRS4 Research Center in Sardinia
 

Plus de CRS4 Research Center in Sardinia (20)

Big Data Infrastructures - Hadoop ecosystem, M. E. Piras
Big Data Infrastructures - Hadoop ecosystem, M. E. PirasBig Data Infrastructures - Hadoop ecosystem, M. E. Piras
Big Data Infrastructures - Hadoop ecosystem, M. E. Piras
 
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 Big Data Analytics, Giovanni Delussu e Marco Enrico Piras  Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
Dinamica Molecolare e Modellistica dell'interazione di lipidi col recettore P...
 
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
Innovazione e infrastrutture cloud per lo sviluppo di applicativi web e mobil...
 
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
ORDBMS e NoSQL nel trattamento dei dati geografici parte seconda. 30 Sett. 2015
 
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
Sistemi No-Sql e Object-Relational nella gestione dei dati geografici 30 Sett...
 
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
Elementi di sismica a riflessione e Georadar (Gian Piero Deidda, UNICA)
 
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
Near Surface Geoscience Conference 2014, Athens - Real-­time or full­‐precisi...
 
SmartGeo/Eiagrid portal (Guido Satta, CRS4)
SmartGeo/Eiagrid portal (Guido Satta, CRS4)SmartGeo/Eiagrid portal (Guido Satta, CRS4)
SmartGeo/Eiagrid portal (Guido Satta, CRS4)
 
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
Luigi Atzori Metabolomica: Introduzione e review di alcune applicazioni in am...
 
Mobile Graphics (part2)
Mobile Graphics (part2)Mobile Graphics (part2)
Mobile Graphics (part2)
 
Mobile Graphics (part1)
Mobile Graphics (part1)Mobile Graphics (part1)
Mobile Graphics (part1)
 
2015 crs4-seminar-massive-models-full
2015 crs4-seminar-massive-models-full2015 crs4-seminar-massive-models-full
2015 crs4-seminar-massive-models-full
 
A Survey of Compressed GPU-based Direct Volume Rendering
A Survey of Compressed GPU-based Direct Volume RenderingA Survey of Compressed GPU-based Direct Volume Rendering
A Survey of Compressed GPU-based Direct Volume Rendering
 
Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)
Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)
Scripting e DataWarehouse sui Big Data. Luca Pireddu (CRS4)
 
Big Data & Hadoop. Simone Leo (CRS4)
Big Data & Hadoop. Simone Leo (CRS4)Big Data & Hadoop. Simone Leo (CRS4)
Big Data & Hadoop. Simone Leo (CRS4)
 
Modellistica molecolare e applicazioni alla sclerosi multipla
Modellistica molecolare e applicazioni alla sclerosi multiplaModellistica molecolare e applicazioni alla sclerosi multipla
Modellistica molecolare e applicazioni alla sclerosi multipla
 
Amit Kumar (CRS4, Università di Cagliari)
Amit Kumar (CRS4, Università di Cagliari)Amit Kumar (CRS4, Università di Cagliari)
Amit Kumar (CRS4, Università di Cagliari)
 
Gian Piero Deidda. Geofisica Applicata
Gian Piero Deidda. Geofisica ApplicataGian Piero Deidda. Geofisica Applicata
Gian Piero Deidda. Geofisica Applicata
 
Real-time or full-precision CRS imaging using a cloud computing portal: multi...
Real-time or full-precision CRS imaging using a cloud computing portal: multi...Real-time or full-precision CRS imaging using a cloud computing portal: multi...
Real-time or full-precision CRS imaging using a cloud computing portal: multi...
 

Dernier

Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Associazione Digital Days
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Associazione Digital Days
 
ScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIinfogdgmi
 
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Associazione Digital Days
 
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Associazione Digital Days
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Associazione Digital Days
 

Dernier (6)

Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
 
ScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AI
 
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
 
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
 

L'inferenza statistica e la lettura dei dati

  • 1. L’inferenza statistica e la lettura dei dati Concetti e Applicazioni negli studi genetici Serena Sanna Aula Magna Dipartimento di Fisica Cittadella Universitaria di Monserrato 22 Giugno 2011
  • 2. 1/7 Premesse http://www.crs4.it/web/valorisation-and-transfer-of- knowledge/seminar-series • Andrea Angius High throughput genotyping and next generation sequencing: nuovi strumenti e strategie di analisi della ricerca genetica • Frederic Reiner Sequenziamento e analisi bioinformatica del genoma umano • Ilenia Zara Studi di associazione genetica e disegno sperimentale "caso-controllo"
  • 3. 1/7 Indice degli argomenti 1) Background e concetti base 2) Dove ci serve l’inferenza statistica? 3) Modello matematico 4) Lettura e uso dei risultati 5) Disegni sperimentali e performance 6) Esempi di applicazioni 7) Risultati preliminari e lavori in corso
  • 4. 1/7 •Studi genetici: studiano le variazioni del DNA tra individui e cercano di capire se correlano con un fenotipo clinico Le variazioni del DNA (o marcatori) sono quei punti del DNA che mostrano delle differenze rispetto ad un genoma di riferimento Ne esistono di diversi tipi, classificati rispetto al tipo di variazione
  • 5. 1/7 •Maggiormente utilizzati sono gli SNPs (Single Nucleotide Polymorphisms) TAGTAATGCGTATCCACTG Genoma di riferimento TAGTAATGCGTATCCACTG (genotipo omozigote allele di riferimento) TAGTAATGCGTATACACTG Individuo sequenziato TAGTAATGCGTATCCACTG (genotipo eterozigote) TAGTAATGCGTATACACTG Individuo sequenziato TAGTAATGCGTATACACTG (genotipo omozigote allele alternativo)
  • 6. 1/7 • Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia o con variazioni di un tratto quantitativo C/C A/A C/A C/A C/C A/C A/C A/A C/C A/A C/C C/A C/A C/A A/A A/C A/A A/A A/C A/C Volontari affetti da una patologia Volontari NON affetti dalla patologia A=8 A=14 C=12 C=6
  • 7. 1/7 • Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia o con variazioni di un tratto quantitativo chisquare test C/C A/A pvalue= 0.77 C/A C/A C/C A/C A/C A/A C/C A/A C/C Non significativo! C/A C/A C/A A/A A/C A/A A/A A/C A/C Volontari affetti da una patologia Volontari NON affetti dalla patologia A=8 A=14 C=12 C=6
  • 8. 1/7 • Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia o con variazioni di un tratto quantitativo É necessario sequenziare il DNA di tutti i volontari in studio e confrontarli con un genoma di riferimento? C/C A/A C/A C/A C/C A/C A/C A/A C/C A/A C/C C/A C/A C/A A/A A/C A/A A/A A/C A/C A=8 A=14 C=12 C=6
  • 9. 1/7 • Sequenziamento del DNA oggi possibile ad un costo piú abbordabile • Ancora proibitivo si vogliono sequenziare diverse migliaia di volontari (numeri necessari per studi genetici di associazione per tratti complessi) • Si possono tuttavia utilizzare metodi di inferenza statistica per integrare dati da diverse fonti e tipologie per condurre un sequenziamento virtuale
  • 10. 2/7 Strategia: a. Leggere il DNA dei volontari in studio solo parzialmente. Guardare (genotipizzare) quei punti del DNA dove sono già stati osservati dei polimorfismi b. Predire l’intera sequenza basandosi sulla similitudine tra individui, le conoscenze sulla struttura e le dinamiche di trasmissione dei cromosomi, e delle sequenze ottenute nel proprio laboratorio o reperibili nei database pubblici
  • 13. 2/7 Genotyping Arrays marcatore A G GG A
  • 14. 2/7 Genotyping arrays: •Esistono diverse case produttrici •Marcatori predefiniti in base a degli studi del progetto HapMap, che ha identificato ~2.5M SNPs •Fino a 1 milione di marcatori genetici per circa 200-300 euro a persona
  • 15. Arrays vs Sequenze • Economici Costosi • Ristretti allo studio di <=1M Studio della completa di varianti variabilità genetica • Ristretti allo studio di Consentono la scoperta di varianti già note nuove varianti • Escludono varianti presenti scoperta e studio di varianti solo in alcune popolazioni specifiche della popolazione a (come le isolate) cui appartiene l’individuo sequenziato
  • 16. Il valore degli arrays: passato e futuro • Enorme successo negli ultimi 4 anni, anche grazie all’utilizzo dei metodi di inferenza per l’integrazione dei 2.5 M di SNPs HapMap • Tuttavia é emersa la necessità di studiare l’intera sequenza piuttosto che dei marcatori “comuni”, nonché di popolazioni “speciali” • Come conseguenza del basso costo degli arrays, esistono oggi molti gruppi di ricerca che hanno genotipizzato migliaia e migliaia di individui con questi chip. Come possiamo sfruttare questa risorsa?
  • 17. 2/7 Aumentare l’informazione con l’inferenza statistica • Supponiamo di avere a disposizione le sequenze (o un genoma piú dettagliato) di un ridotto numero di individui .. e di aver caratterizzato il genoma di migliaia di individui con un arrays (ad una risoluzione piú bassa)
  • 18. 2/7 Genotipi Osservati con gli arrays Volontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 19. 2/7 Genotipi Osservati con gli arrays Volontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 20. 2/7 Genotipi Osservati con gli arrays Volontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 21. 2/7 Genotipi Osservati con gli arrays Volontario: . . A A . . . . . . . . A . . . . A . . . . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 22. 2/7 Genotipi Osservati con gli arrays Volontario: c g A A a t c t c c c g A c c t c A t g g . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 23. 2/7 Genotipi Osservati con gli arrays Volontario: c g A A a t c t c c c g A c c t c A t g g . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 24. 2/7 Genotipi Osservati con gli arrays Volontario: c g A A a t c t c c c g A c c t c A t g g . . G A . . . . . . . . C . . . . A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 25. 2/7 Genotipi Osservati con gli arrays Volontario: c g A A a t c t c c c g A c c t c A t g g t g G A a t c t c c c t C t t t t A t a c Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 26. 2/7 SEMPLICE? COMPLICAZIONI NEI DATI REALI E MODELLO INFERENZIALE
  • 27. 2/7 Genotipi Osservati con gli arrays Volontario: . . A/G A/A . . . . . . . . A/C . . . . A/A . . . Cromosomi di riferimento C G A G A T C T C C T T C T T C T G T G C C G A A A T C T C C C G A C C T C A T G G C C A A G C T C T T T T C T T C T G T G C C G A A G C T C T T T T C T T C T G T G C C G A G A C T C T C C G A C C T T A T G C T G G A A T C T C C C G A C C T C A T G G C G A G A T C T C C C G A C C T T G T G C C G A G A C T C T T T T C T T T T A T A C C G A G A C T C T C C G A C C T C G T G C C G A A G C T C T T T T C T T C T G T G C
  • 28. 2/7 Problema: Ogni individuo ha 2 copie di ogni cromosoma. I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A C T G A C T C A G T G Sequenza vera
  • 29. 2/7 Problema: Ogni individuo ha 2 copie di ogni cromosoma. I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C T G A/T G/C A C T C A/T C/C A G T G A/T G/G Sequenza vera Lettura dell’array
  • 30. 2/7 Problema: Ogni individuo ha 2 copie di ogni cromosoma. I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C T G A/T G/C A ? C T C A/T C/C A G T G A/T G/G Sequenza vera Lettura dell’array
  • 31. 2/7 Problema: Ogni individuo ha 2 copie di ogni cromosoma. I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C T G A/T G/C A ? C A/T C/C A C T C T C A G A G T G A/T G/G T G Sequenza vera Lettura dell’array
  • 32. Problema: Ogni individuo ha 2 copie di ogni cromosoma. I marcatori vengono letti per posizione, ma non si distingue quale allele viene letto da ciascuna copia A G T C A/T G/C A C A C 0.5 T G T G A/T G/C A ? C 0.5 A T G C T C A/T C/C A G T G A/T G/G Sequenza vera Lettura dell’array
  • 33. 2/7 Problema: Piú complesso se aumentiamo i marcatori A A G T C C A/T A/C G/C A C C T C G A/T C/C G/C A A C T C C A/T A/C C/C A C G T A G A/T A/C G/G Sequenza vera Lettura dell’array
  • 34. 2/7 Problema: Piú complesso se aumentiamo i marcatori A A G T C C A/T A/C G/C A C C T C G A/T C/C G/C A ? A C 0.5 A T A C C C T C C A/T A/C C/C A C C 0.5 T A C A C G T A G A/T A/C G/G Sequenza vera Lettura dell’array
  • 35. 2/7 Problema: Piú complesso se aumentiamo i marcatori 0.25 A A C A A G T C G T C C A/T A/C G/C 0.25 A A G T C C 0.25 A C C A C C T C G A/T C/C G/C T A G A ? A C 0.25 A T C A G C T C C A/T A/C C/C A C G T A G A/T A/C G/G Sequenza vera Lettura dell’array
  • 36. 2/7 Problema: Piú complesso se aumentiamo i marcatori 0.25 A A C A A G T C G T C C A/T A/C G/C 0.25 A A G A C C T C C T C G 0.25 A C C Aplotipi di riferimento A/T C/C G/C T A G 0.25 A C G T A C A/T A/C C/C A/T A/C G/G Lettura dell’array
  • 37. 2/7 Problema: Piú complesso se aumentiamo i marcatori 0.25 A A C C A A G T C G T C C A/T A/C G/C 0.25 A A G A C C T C C T C G 0.25 A C C Aplotipi di riferimento A/T C/C G/C T A G 0.25 A C G T A C A/T A/C C/C A/T A/C G/G Lettura dell’array
  • 38. 2/7 Problema: Piú complesso se aumentiamo i marcatori ? A A C C A A G T C G T C C A/T A/C G/C 0.25 A A G A C C T C C T C G 0.25 A C C Aplotipi di riferimento A/T C/C G/C T A G 0.25 A C G T A C A/T A/C C/C A/T A/C G/G Lettura dell’array
  • 39. 2/7 Modello Matematico • Probabilità sono pesate dalle conoscenze genetiche sul tasso di ricombinazione tra due punti di un cromosoma. La ricombinazione non é infatti casuale ma avviene con delle probabilità tipiche di ciascuna popolazione. Ricombinazione Genetica http://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.html
  • 40. 2/7 Modello Matematico • Il modello matematico consiste, data una stringa di genotipi, e un insieme di aplotipi di riferimento, nel assegnare alla posizione iniziale ad un aplotipo, e poi assegnare l’aplpotipo successivo valutando la probabilità che alla successiva posizione ci sia stata o meno una ricombinazione • Questo processo puo’ essere modellato con una catena di Markov Nascosta (HMM)
  • 41. Esempio: Aplotipi di referenza: H1 A C H2 T G H3 A G H4 T C Genotipi osservati A/T C/G
  • 42. Esempio: Aplotipi di referenza: H1 A C H2 T G H3 A G H4 T C Genotipi osservati A/T C/G A C T G
  • 43. Esempio: Aplotipi di referenza: H1 A C H2 T G H3 A G H4 T C Genotipi osservati A/T C/G A C T G H1/ H2 A A C T T G
  • 44. Esempio: Aplotipi di referenza: H1 A C H2 T G H3 A G H4 T C Genotipi osservati A/T C/G A C T G H1/ H1/ H2 H2 A C T G
  • 45. Esempio: Aplotipi di referenza: a12,12 H1 A C H2 T G H1/ H3 A G H2 H4 T C Genotipi osservati A/T C/G A C T G H1/ H1/ H2 H2 A C T G
  • 46. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ H3 A G H2 H4 T C Genotipi osservati A/T C/G A C T G H1/ H1/ H1/ H1/ H2 H2 H2 H3 A C A C T G T T G
  • 47. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ H3 A G H2 H4 T C a12,42 H4/ H2 Genotipi osservati A/T C/G A C T G H1/ H1/ H1/ H1/ H1/ H4/ H2 H2 H2 H3 H2 H2 A C A C A A C T G T T G T G
  • 48. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a12,43 H4/ H3 A G H2 H3 H4 T C a12,42 H4/ H2 Genotipi osservati A/T C/G A C T G H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G
  • 49. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a12,43 H4/ H3 A G H2 H3 H4 T C a12,42 H3/ H4/ H2 H2 Genotipi osservati A/T C/G A C T G H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H2 A A C T T G
  • 50. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a12,43 H4/ H3 A G H2 H3 H4 T C a32,12 a12,42 H3/ H4/ H2 H2 Genotipi osservati A/T C/G A C T G H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H2 H2 A A C T G
  • 51. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 H3 H4 T C a32,12 a12,42 H3/ H4/ H2 H2 Genotipi osservati A/T C/G A C T G H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H3/ H1/ H2 H2 H2 H3 A A C A A C T G T T G
  • 52. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 H3 H4 T C a32,12 a12,42 H3/ H4/ H2 H2 Genotipi osservati A C a32,42 A/T C/G T G H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H3/ H1/ H3/ H4/ H2 H2 H2 H3 H2 H2 A A C A A C A A C T G T T G T G
  • 53. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 H3 H4 T C a32,12 a12,42 a32,43 H3/ H4/ H2 H2 Genotipi osservati A C a32,42 A/T C/G T G H1/ H1/ H1/ H1/ H1/ H4/ H1/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A C A C A A C A A C T G T T G T G T T G H3/ H1/ H3/ H1/ H3/ H4/ H3/ H4/ H2 H2 H2 H3 H2 H2 H2 H3 A A C A A C A A C A A C T G T T G T G T T G
  • 54. Esempio: a12,13 Aplotipi di referenza: a12,12 H1/ H1 A C H3 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 H3 H4 T C a32,12 a12,42 a32,43 H3/ H4/ H2 H2 Genotipi osservati A C a32,42 A/T C/G T G H1/ H4 A A C T T G Similmente si aggiungono quelli che H3/ H4 iniziano con H1/H4 e H3/H4 A A C T T G
  • 55. Esempio: a14,12 a12,13 a 14,13 Aplotipi di referenza: H1/ a12,12 H1/ H4 H1 A C H3 a14,43 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 a14,42 H3 H4 T C a32,12 a12,42 a32,43 H3/ H4/ a a34,12 34,43 H2 H2 Genotipi osservati a34,13 H3/ A C a32,42 A/T C/G H4 T G a34,42 H1/ H4 A A C T T G Similmente si aggiungono quelli che H3/ H4 iniziano con H1/H4 e H3/H4 A A C T T G
  • 56. Esempio: a14,12 a12,13 a 14,13 Aplotipi di referenza: H1/ a12,12 H1/ H4 H1 A C H3 a14,43 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 a14,42 H3 H4 T C a32,12 a12,42 a32,43 H3/ H4/ a a34,12 34,43 H2 H2 Genotipi osservati a34,13 H3/ A G a32,42 A/T C/G H4 T C a34,42
  • 57. Esempio: a14,12 a12,13 a 14,13 Aplotipi di referenza: H1/ a12,12 H1/ H4 H1 A C H3 a14,43 H2 T G H1/ a32,13 a12,43 H4/ H3 A G H2 a14,42 H3 H4 T C a32,12 a12,42 a32,43 H3/ H4/ a a34,12 34,43 H2 H2 Genotipi osservati a34,13 H3/ A G a32,42 A/T C/G H4 T C a34,42 H1/ H1/ H2 H4 A A G A A G T T C T T C H3/ H3/ aggiungere tutte le configurazioni H2 H4 con alleli GC da questi starting points A A G A A G T T C T T C
  • 58. Esempio: Aplotipi di referenza: H1 A C H2 T G H3 A G H4 T C Genotipi osservati A/T C/G Situazioni incompatibili se non si assume errore H1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/ H1 H? H2 H? H3 H? H4 H? A ? A T ? A ? A ? A ? A T ? A ? A ?
  • 59. Esempio: Aplotipi di referenza: H1 A C H2 T G H3 A G H4 T C Genotipi osservati A/T C/G P(G1  A / T S1  ( H1 , H1 ) )  0 Situazioni incompatibili se non si assume errore H1/ H?/ H2/ H?/ H3/ H?/ H4/ H?/ H1 H? H2 H? H3 H? H4 H? A ? A T ? A ? A ? A ? A T ? A ? A ?
  • 60. Esempio: Aplotipi di referenza: H1 A C A T T H2 T G A A C H3 A G C A T H4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H2
  • 61. Esempio: Aplotipi di referenza: H1 A C A T T H2 T G A A C H3 A G C A T H4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H2 H?
  • 62. Esempio: Aplotipi di referenza: H1 A C A T T H2 T G A A C H3 A G C A T H4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H2 H? H?
  • 63. Esempio: Aplotipi di referenza: H1 A C A T T H2 T G A A C H3 A G C A T H4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H2 H? H? A/C
  • 64. Esempio: Aplotipi di referenza: H1 A C A T T H2 T G A A C H3 A G C A T H4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H?/ H2 H? H? H? A/C T/T
  • 65. Esempio: Aplotipi di referenza: H1 A C A T T H2 T G A A C H3 A G C A T H4 T C A T C Genotipi osservati A/T C/G ?/? ?/? T/C H1/ H?/ H?/ H?/ H?/ H2 H? H? H? H? A/C T/T
  • 66. 3/7 Come rappresentare questo “cammino” decisionale lungo il genoma”?
  • 67. 3/7 • Catena di Markov: modello stocastico basato sulla proprietà di Markov: la probabilità di una configurazione allo stato n+1 dipende solo dalla configurazione osservata nello stato precedente n • Catena di Markov Nascosta: gli stati seguono una catena di Markov, ma non sono noti
  • 68. 3/7 Catena di Markov Nascosta Probabilità di transizione S1 Stati S2 S3 (aplotipi) Probabilità di emissione G1 Dati osservati G2 G3 G4 (Genotipi) Immagine adattata da Wikipedia
  • 69. 3/7 Probabilità di emissione • Sono modellate in funzione del parametro ε che rappresenta un potenziale tasso di errore e consente di costruire anche aplotipi che sono incompatibili con i genotipi H1 A C C H2 T G A H3 H4 A T G C A A P(G1 A / A S m  ( H i , H j ) )  ?  i, j A/A ?/? C/G
  • 70. 3/7 Probabilità di emissione ε = la probabilità di sbagliare 1- ε = la probabilità di non sbagliare H1 A C C H2 T G A H3 A G A H4 T C A A/A ?/? C/G
  • 71. 3/7 Probabilità di emissione ε = la probabilità di sbagliare 1- ε = la probabilità di non sbagliare A/A H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1    C C H2 T G A H3 A G A H4 T C A A/A ?/? C/G
  • 72. 3/7 Probabilità di emissione ε = la probabilità di sbagliare 1- ε = la probabilità di non sbagliare A/A H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1    C C H2 T G A H3 A G A A/T P(G1 A / A S m  ( H1 , H 2 ) ) 1     H4 T C A A/A ?/? C/G
  • 73. 3/7 Probabilità di emissione ε = la probabilità di sbagliare 1- ε = la probabilità di non sbagliare A/A H1 A P(G1 A / A S m  ( H1 , H1 ) )  1   1    C C H2 T G A H3 A G A A/T P(G1 A / A Sm  ( H1 , H 2 ) ) 1     H4 T C A A/A ?/? C/G T/T P(G1 A / A S m  ( H 2 , H 2 ) )    
  • 74. 3/7 Probabilità di emissione Se e(Hi,Hj) = il genotipo risultante dagli aplotipi ε = la probabilità di sbagliare 1- ε = la probabilità di non sbagliare P(Gm  x / y S m  ( H i , H j ) )  – (1- ε)2 se x/y = e(Hi,Hj) e omozigote ε2 se x/y ed e(Hi,Hj) sono omozigoti opposti ε(1- ε) se x/y omozigote e e(Hi,Hj) eterogizote – ε2+(1- ε) 2 se x/y=e(Hi,Hj) e eterozigote – 2ε(1- ε) se x/y heterozigote e e(Hi,Hj) omozigote
  • 75. 3/7 Probabilità di emissione • Nel caso di un genotipo da inferire Aplotipi di referenza H1 A C C H2 T G A H3 A G A P(G2  ?/? S 2  ( H i , H j ) )  1 H4 T C A Genotipi osservati i, j A/T ?/? C/G
  • 76. 3/7 Probabilità di transizione • Definisce come gli stati (nascosti) cambiano da una posizione all’altra • Sono una funzione del tasso di ricombinazione ϴ P (assenza ricombinazione tra 2 aplotipi) = 1- ϴ P(ricombinazione tra 2 aplotipi) = ϴ / Naplotipi • Consentono di passare a qualsiasi aplotipo, assumendo possibile anche la ricombinazione con lo stesso aplotipo ( » states = Naplotipi2)
  • 77. 3/7 Esempi m-1 11 m 11     (1   )  (1   )  (1   )   (1   )    N aplotipi N aplotipi N aplotipi N aplotipi Nessuno dei due ricombina
  • 78. 3/7 Esempi m-1 11 m 11     (1   )  (1   )  (1   )   (1   )    N aplotipi N aplotipi N aplotipi N aplotipi Nessuno dei due ricombina Ricombina solo il primo
  • 79. 3/7 Esempi m-1 11 m 11     (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipi Nessuno dei due ricombina Ricombina Ricombina solo solo il primo il secondo
  • 80. 3/7 Esempi m-1 11 m 11     (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipi Nessuno dei due ricombina Ricombina Ricombina solo Ricombinano solo il primo il secondo entrambi
  • 81. 3/7 Esempi m-1 11 m 11     (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipi m-1 11 m 33,32 2      N   aplotipi 
  • 82. 3/7 Esempi m-1 11 m 11     (1   )  (1   )  (1   )    (1   )   N aplotipi N aplotipi N aplotipi N aplotipi m-1 11 m-1 11 m 21,31,41 m 33,32 2    2  (1   )         N  N aplotipi N   aplotipi   aplotipi 
  • 83. 3/7 Formula P( S m  ( H x , H y ) S m 1  ( H i , H j ) )  2 2 (1   )    (1   )  2   se (Hx,Hy)=(Hi,Hj) N aplotipi  N aplotipi    2  (1   )       se |(Hx,Hy)-(Hi,Hj)|=1 N aplotipi N   aplotipi  2      N  se |(Hx,Hy)-(Hi,Hj)|=2  aplotipi 
  • 84. 3/7 Algoritmo • Aggiorna ciascun individuo alla volta, costruendo la serie di aplotipi (presi dal pannello di referenza) che concordano con i genotipi osservati e calcolandone le probabilità 1. Inizia considerando equiprobabile lo stato delle posizioni iniziali (primo marcatore), e poi calcola la probabilità dei dati osservati L L P(G, S)  P( S1 ) P( S j | S j 1 ) P(G j | S j ) j 2 j 1 2. Campiona dei nuovi stati iniziali S in maniera proporzionale a P(G,S) per riniziare la catena
  • 85. 3/7 4. La catena di Markov viene ripetuta per diverse volte (rounds), fino a quando si raggiunge la convergenza Rappresentazione grafica Aplotipi iniziali equiprobabili Probabilità di ciascun stato e calcolo dei genotipi mancanti restart Campionamento degli aplotipi iniziali
  • 86. 3/7 Sampling algorithm: Baum-Welch (forward-backward) Forward: Calcolare cumulativamente fino all’ultimo marcatore le probabilità forward per i genotipi osservati e gli stati Sm Backward: Campiona le assegnazioni degli aplotipi secondo le probabilità forward e le probabilità di transizione P(Sm= (x,y)) = f(x,y),1->M * b(x,y),M->m A T T C G A G C A C T G A C T T
  • 87. 4/7 Lettura dei dati Per ogni individuo, e ad ogni posizione inferita ottengo le probabilità per ogni possibile genotipo. Quindi: Se lo SNP ha alleli A/G, avremo, per ogni individuo, 3 probabilità: P(A/A) , P(A/G) , P(G/G) Come si utilizzano?
  • 88. 4/7 Lettura dei dati 1. Genotipo piú probabile oppure 2. Dosaggio allelico É una quantità che tiene traccia della incertezza dei genotipi gA = 2 * P(A/A) + P(A/G) 0≤gA≤2 Rappresenta il numero atteso di copie dell’allele A
  • 89. 4/7 Pros del dosaggio allelico rispetto al genotipo • Mantiene tutte le possibili configurazioni con le loro probabilità in un unico valore • Files piú piccoli e meno parametri da considerare • Puó facilmente essere incorporato nelle analisi di associazione usando regressioni lineari o logistiche (per tratti quantitativi e discreti) • Considera i genotipi come variabile continua • La qualità puó essere valutata piú accuratamente (prossima slide)
  • 90. 4/7 Come valutare la qualità dei risultati • Se il dosaggio rappresenta il numero atteso di copie dell’allele A, e poiché ogni individuo ha due alleli, la distribuzione che lo modella é una binomiale con probabilità p=frequenza allele A ������������������������������ ������������������������������������������������ – ������ = 2 2������(1−������) – ������ 2 = ������������������(������������������������������������������������)
  • 91. 4/7 Come valutare la qualità dei risultati • Se il dosaggio rappresenta il numero atteso di copie dell’allele A, e poiché ogni individuo ha due alleli, la distribuzione che lo modella é una binomiale con probabilità p=frequenza allele A ������������������������������ ������������������������������������������������ – ������ = 2 Si é stimato in dati reali che un ������ 2 > 0.30 2������(1−������) garantisce l’eliminazione di SNPs di scarsa – ������ 2 = ������������������(������������������������������������������������) qualità. Con questo filtro, ci si aspetta di scartare il 70% di marcatori scarsamente inferiti (accuratezza <80%) e solo 0.50% di quelli bene inferiti (accuratezza > 50%)
  • 92. 5/7 Fattori che migliorano la qualità di inferenza • Alta densità dei marcatori iniziali rispetto al pannello di riferimento • Vicinanza genetica degli individui inclusi nel pannello di riferimento con la popolazione in studio • Aumento del numero di aplotipi nel pannello di riferimento
  • 93. 5/7 Performance per diversi chip Affymetrix Affymetrix N SNPs utili N SNPs inferiti Tasso di errore Chip per inferenza MAF <5% MAF >5% MAF<5% MAF >5% A100K 100,844 259,261 2,086,690 1.80 7.85 A250K (Sty) 195,864 251,807 2,002,214, 1.33 4.12 A250K (Nsp) 216,747 250,364 1,983,146 1.26 3.94 A500K 412,611 234,049 1,809,352 0.93 2.12 A1M 676,182 209,636 1,580,321 0.73 1.23 Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010)
  • 94. 5/7 Huang et al. Genotype-Imputation accuracy across Worldwide Human Populations. AJHG 2009
  • 95. 5/7 Strategie di utilizzo • Supponiamo siano disponibili dati GWAS (300K-1M SNPs) su un campione di studio. Possiamo inferire database pubblici • ~1.5-2 M SNPs da HapMap • ~ 13M SNPs da 1000 Genomes • sequenze Sanger (es. sequenziati per un gene di laboratorio interesse >100 campioni di cui si hanno i dati GWAS) • sequenze intero genoma
  • 96. 6/7 Utilità dell’integrazione tramite inferenza: Diverse strategie per diversi obiettivi. Due esempi.
  • 97. 6/7 1. Scoperta nuovi geni di suscettibilità • centinaia di pubblicazioni esistenti su scoperte effettuate tramite integrazione dei dati HapMap, una decina tramite integrazione dei dati 1000 Genomes • 882 pazienti+872 individui sani • Genotipizzati 1M SNPs (Affymetrix) • Inferenza HapMap & 1000 Genomes • Identificato un gene di suscettibilità per la Sclerosi Multipla Sanna, Pitzalis, Zoledziewska et al. Variants within the immunoregulatory CBLB gene are associated with multiple sclerosis Nature Genetics 2010
  • 98. 6/7 2. Valutazione dettagliata di regioni già identificate tramite i GWAS • sequenziati 256 individui con il Sanger a 5 geni associati con LDL-C • Identificate nuove varianti, tra cui una rara (freq 0.5%) sardo-specifica • Le varianti identificate raddoppiano l’ereditabilità spiegata da questi geni rispetto alle varianti trovate nel GWAS Sanna, Li, Mulas et al. PlosGen 2011 (in press)
  • 99. 7/7 Scoperta e mappaggio fine Due obiettivi raggiungibili con un unico sforzo?
  • 100. 7/7 Progetti in corso Studio su Sclerosi Multipla & Studio delle condizioni legate Diabete di Tipo 1 all’invecchiamento  individui affetti e volontari sani  studia la popolazione da tutta l’isola dell’ogliastra raccogliendo un dettaglio quadro clinico, inclusi immuno-fenotipi ~2500 pazienti MS ~6,000 volontari di 700 ~1500 pazienti T1D famiglie ~2500 volontari sani Studio Longitudinale (visite ogni 3 anni, dal 2001
  • 101. 7/7 Sequenze 2,000 Sardi @ 3x in media Pannello di sequenze di riferimento con for 2,000 Individui Genotipi da arrays Genotipi da arrays per 6,500 individui Inferenza per 6,000 individui (MS & T1D GWAS) Statistica (Studio in Ogliastra) Sequenze virtuali per 12,500 individui
  • 102. 7/7 Risultati preliminari sull’inferenza • Sequenziati+analizzati+costruzione pannello di riferimento: completato per 508 Sardi • Qualità dell’imputazione migliore rispetto ad un pannello di simili dimensioni con individui Europei Reference Panel Imputation Accuracy (r2) IN SARDINIA MAF 1-3% MAF 3-5% MAF >5% 1000G (563) 0.75 0.88 0.94 Sardinia (508) 0.90 0.95 0.97
  • 103. 7/7 Implementazione L’algoritmo discusso é implementato nei software MACH e IMPUTE (autori Abecasis e Marchini) Esistono altri algoritmi piú o meno simili (implementati in Beagle, TUNA, PLINK). Simulazioni e applicazioni su diversi data set indicano che l’algoritmo di MACH e IMPUTE é quello piú accurato. Pei et al. Analyses and Comparison of Accuracy of Different Genotype Imputation Methods. PlosOne 2008
  • 104. Riferimenti e bibliografia • Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes and Unobserved Genotypes. Genetic Epidemiology 34 : 816–834 (2010) • Marchini and Howie. Genotype imputation for genome-wide association studies. Nat Rev Gen 11:499-511 (2010) • Huang et al. Genotype-Imputation accuracy across Worldwide Human Populations. AJHG 84, 235-50, (2009) • Pei et al. Analyses and Comparison of Accuracy of Different Genotype Imputation Methods. PlosOne 3(10):e3551 (2008) • Li, Willer, Sanna e Abecasis. Genotype Imputation. Annu. Rev. Genomics Hum. Genet. 2009. 10:387–406
  • 105. Riferimenti e bibliografia • MACH http://www.sph.umich.edu/csg/abecasis/MACH/ • minimac http://genome.sph.umich.edu/wiki/Minimac • IMPUTE e IMPUTE 2 http://mathgen.stats.ox.ac.uk/impute/impute.html • 1000 Genomes Project • Illumina www.1000genomes.org www.illumina.com • HapMap Project • Affymetrix www.hapmap.org www.affymetrix.com
  • 106. Ringraziamenti CNR-IRGB CRS4 Francesco Cucca Chris Jones Eleonora Porcu Ilenia Zara Maristella Steri Maria Valentini Carlo Sidore (1/2) Frederic Reiner il team “Progenia” (tanti!) Riccardo Berutti Rossano Atzeni University of Michigan Goncalo Abecasis Andrea Angius & GSP group Hyun M Kang Lidia Leoni & HPC group Carlo Sidore (1/2) Gianluigi Zanetti & DC grop Tutti i volontari che partecipano alla ricerca National Institute of Aging (USA) Università degli studi di Cagliari e Sassari Cliniche e ospedali della Sardegna
  • 108. 7/7 Tempi e costi del calcolo • MACH/IMPUTE O(H2 * M * N) – Esempio: 1 settimana per inferire 13 M SNPs su 2000 individui genotipizzati per 500K SNPs, con 120 aplotpi di riferimento, usando 22 macchine da 8 core con 16G di RAM. Se ho il doppio degli aplotipi, il tempo va moltiplicato per 4. (4 settimane) tempi proibitivi nell’era del highthroughput!
  • 109. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studio usando gli SNPs genotipizzati 2. inferenza aploide invece che sui genotipi Implementato in: minimac e IMPUTE v2 Complessità: O(H * M * N)
  • 110. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studio usando gli SNPs genotipizzati Tempi lunghi, ma task unitario 2. inferenza aploide invece che sui genotipi Step da ripetere ad ogni costruzione di pannello di riferimento Implementato in: minimac e IMPUTE v2 Complessità: O(H * M * N)
  • 111. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studio usando gli SNPs genotipizzati Tempi lunghi, ma task unitario 2. inferenza aploide invece che sui genotipi Step da ripetere ad ogni costruzione di pannello di riferimento Implementato in: minimac e IMPUTE v2 Complessità: O(H * M * N) Da ripetere se si hanno nuovi individui o nuovi genotipi! Collaborazione con il gruppo di G. Zanetti del DC group del CRS4 per una nuova implementazione di MACH in Hadoop MapReduce
  • 112.