SlideShare uma empresa Scribd logo
1 de 39
Métodos de alinhamento de
  sequencias biológicas
        DRA. ADRIANA DANTAS
     UERGS, BENTO GONÇALVES, RS
Introdução

                                                ?
- Uma forma rápida de agregar alguma informação sobre
uma sequência desconhecida é compará-la com um
banco de dados de sequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a
par entre as sequências. Isto é, se o banco de dados
possuir 1000 sequências conhecidas serão realizados
1000 alinhamentos
- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)




        Fonte: http://www3.ebi.ac.uk/Services/DBStats/




- Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
Existem vários programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado é o BLAST
Relevância biológica
- Para o biólogo é essencial que esses alinhamentos indiquem uma
real similaridade entre as sequências (estatisticamente significantes)
- Similaridade x Homologia
   - identidade = número que indica a quantidade de nucleotídeos
   alinhados
   - similaridade = considera a probabilidade do alinhamento ter
   ocorrido por acaso (e-value). Considera todos os outros
   possíveis alinhamentos
   - homologia = dividem a mesma ancestralidade com significado
   evolutivo
Outras aplicações

- Reconstruçãoda sequência consensu a partir de sobreposições
de fragmentos de sequências (montagens de sequencias de DNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- Comparação entre proteínas e DNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
Alinhamentos
o    A comparação entre sequências de DNA de organismos
    diferentes é baseada no conceito de que estes organismos
    originaram-se de um ancestral comum.
o   No contexto de evolução as sequências de DNA sofrem
    mutações. Estas modificações locais entre os nucleotídeos
    podem ser :
    o    Inserções : inserção de uma base ou várias bases na
        sequência
    o   Deleções : deleção de uma base ou mais bases na sequência
    o   Substituições : substituição de uma base por outra
o     Portanto um programa de alinhamento de sequências
    biológicas tem que considerar essas mutações
Exemplo :
                                 Gap = -2




       Match = 1      Mismatch = -1



- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que
maximiza o score :
   - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
            = 24 – 4 – 10 = 10
Modelos para alinhamentos
- Alinhamento global
    - útil quando as duas sequências tem tamanhos próximos
    - Exemplo de programa : CLUSTAL


-Alinhamento local
    - útil para alinhamento entre sequências de tamanhos diferentes e também
    para sequências com apenas alguns trechos conservados
    - Exemplo de programa : BLAST E FASTA


-Alinhamento semi-global (ou pontas livres)
    - útil para encontrar sobreposições de fragmentos de sequenciamento
    - Exemplo de programa : PHRAP E CAP3
Alinhamento global
- Alinhamento de GACATTG com GATCAATG

 1a linha e 1a coluna de M são fáceis de computar:
           - G A C A T T G
    -      0      -2     -4 -6 -8 -10 -12 -14
    G     -2
    A     -4       G     GA
    T     -6       -     - -
    C     -8
    A   -10
    A   -12                           Lembre-se, penalidade
                                      de 1 gap = -2 e de dois
    T   -14                           gaps = -4
    G   -16

               http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
-    G      A      C     A      T       T G
         -      0   -2     -4    -6     -8 -10 -12 -14
         G     -2
         A     -4
         T     -6
         C     -8
         A   -10
         A   -12                        [i,j]=p(i,j)
         T   -14
         G   -16

- Para
    um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.
-    G       A        C      A      T       T G
     -        0    -2      -4      -6      -8 -10 -12 -14
     G       -2
     A       -4
     T       -6
     C       -8
     A     -10                  [i-1,j-1] [i-1,j]
     A     -12                     [i,j-1] [i,j] = max([i-1,j] - 2,
     T     -14
                                                p(i,j),
                                                          [i-1,j-1] +
     G     -16                                            [i,j-1] - 2)

-O  valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1]
(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
- Construindo o alinhamento

                           A           G             C
              0          -2            -4            -6

       A     -2           1            -1            -3

       A     -4           -1           0             -2
       A     -6           -3           -2            -1

       C     -8           -5           -4            -1

 No alinhamento global o alinhamento deve ser construído a partir
 do extremo da matriz
Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html

                  -     G        A       C       A         T       T G
        -        0       0       0        0      0         0       0       0
        G        0
        A        0
        T        0
        C        0
        A        0                   [i-1,j-1] [i-1,j]
        A        0                      [i,j-1] [i,j] = max([i-1,j] - 2,
                                                                   [i-1,j-1] +
        T        0                                       p(i,j),
        G        0                                                 [i,j-1] – 2,
                                                                   0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com
zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
No alinhamento local o alinhamento deve ser construído partir do
maior score da matriz e para quando encontrar um score=0
Alinhamento semi-global

- Não penaliza espaços nas extremidades do
  alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC
                   || | | | |
             - - - CAGCGTGG - - - - - - - -
- No global teríamos,
         CAGCA – CTTGGATTCTCGC
         CAGC - - - - - - G - T - - - - - -
- Qual dos dois alinhamentos é mais
  interessante ?
- No alinhamento semi-global a primeira linha e coluna são
inicializadas com zeros. O resto é igual ao alinhamento global
- A abordagem de programação dinâmica é importante pois garante o melhor
alinhamento entre duas seguências, mas ainda temos um problema :
    - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1
    segundo, o alinhamento de sequências de 10 Mpb (genoma de
    Saccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qual
não é garantido encontrar o alinhamento ótimo (heurística) mas é
significantemente mais rápido. Com esse método os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
    - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
    (1990), 3389
    - FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma das
sequências (word size) e depois realiza uma busca exata por essas palavras nas
sequências a serem comparadas, filtrando assim os possíveis candidatos.
Alinhando proteínas




- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
Matrizes de substituição
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )




     - I e V => Hidrofóbicos
     - D e W => D (carga negativa) e W (aromático)
     - C => pontes de sulfeto (estrutural)
-A matriz foi construída a partir de alinhamentos múltiplos globais
de 504 grupos de proteínas




 - BLOSUM 62 : grupos com similaridade >62%

 - BLOSUM 80 : grupos com similaridade >80%
 - BLOSUM 45 : grupos com similaridade >45%
  Query Length   Substitution Matrix
  <35            PAM-30
  35-50          PAM-70
  50-85          BLOSUM-80
  >85            BLOSUM-62                    PNAS 89 (1992), 10915-19919
BLAST
• Basic Local Alignment Search Tool
• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215,
  403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local (linux)
• Consulta de seqüências em BDs biológicos (nt ou proteínas)
• Alinhamento – sobreposição de trechos semelhante de duas
  seqüências (seqs). BLAST traz pontuação e mostra
  alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum
• BDs – nucleotídeos, proteínas, domínios,
  genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
Query       BD Compara Programa
       nt        nt    nt    blastn
   nt (trad)    aa     aa     blastx
      aa        aa     aa    blastp
      aa     nt (trad) aa    tblastn
   nt (trad) nt (trad) aa    tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
BLAST – resultado




        Escolher BD




            http://www.ncbi.nlm.nih.gov/blast/
ERRO!!



    Domínio encontrado
ID facilita busca
Link




       Corte 1e-5
1    64
               query
               subject
1   71   134
BLAST – exemplos
>nucleotídeo 1
GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT
GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT
ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT
TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC
ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA
CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT
ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA
GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA

>proteína 1
MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV
WACAFPAMFV
GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT
FAVGGIWEVLF
ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG
RAFLFFAYP
LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG
GLVIIYTRIA
SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS
FTNQAKWAYGIL
IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG


                                    http://www.ncbi.nlm.nih.gov/blast/
BLAST local
• Pode ser instalado localmente (Linux)
• BDs e atualizações
• Facilidades
  – Velocidade de buscas
  – Maleabilidade
  – Automatização
  – Dados locais
  – Independe de internet
-Download
    - ftp://ftp.ncbi.nih.gov/blast
- Preparação do banco de dados
    - formatdb –i <arquivo fasta db> -p T/F :
        - <arquivo fasta db> é o arquivo que contêm todas as sequências em
        nucleotídeo ou proteína que formarão o banco de dados do blast
        - -p T para arquivo fasta de proteínas e –p F para nucleotídeos
- Comparação via blast
    - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d
    <arquivo fasta db> -o <arquivo de saída> -e 1e-5
        - -i arquivo fasta a ser comparado com o banco <arquivo fasta db>
        - -p tipo de comparação a ser realizada
        - -d banco de dados utilizado na comparação
        - -o arquivo de saída
        - -e evalue de corte
Resumo

- Revisão   BLAST
- PHI-BLAST
- PSI-BLAST
-BLAST2SEQS
Revisão
    Query       BD Compara Programa
       nt        nt    nt    blastn
   nt (trad)    aa     aa     blastx
      aa        aa     aa    blastp
      aa     nt (trad) aa    tblastn
   nt (trad) nt (trad) aa    tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
1    64
               query
               subject
1   71   134
PHI-BLAST
-Éum blastp com a opção de passar uma outra sequência curta ou
um padrão servindo como um vínculo para a consulta




     N - Qualquer nucleotídeo
     N(3) - Uma sequência de três nucleotídeos
                                                 Ex :
     N(2,4) - Uma sequência de 2,3 ou 4
     nucleotídeos                                [CG](5)TG{A}N(1,5)C
     [AC] - pode ser um A ou um C
     {AG} - não pode ser nem A e nem G
PSI-BLAST
-É  um blastp interativo no qual a matriz (BLOSUM), após a primeira
interação, é refeita com base nos alinhamentos entre as proteínas
resultantes da consulta :
        - uma posicão conservada no alinhamento recebe um score
alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
BL2SEQS
- Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn




                              -

Mais conteúdo relacionado

Mais procurados

Nucleotideos - acidos nucleicos
Nucleotideos - acidos nucleicosNucleotideos - acidos nucleicos
Nucleotideos - acidos nucleicos
Carls Tavares
 
Conceitos básicos de genética aula 2 2012.2 eja
Conceitos básicos de genética   aula 2 2012.2 ejaConceitos básicos de genética   aula 2 2012.2 eja
Conceitos básicos de genética aula 2 2012.2 eja
Hélida Mesquita
 
Fisiologia Humana IntroduçãO
Fisiologia Humana   IntroduçãOFisiologia Humana   IntroduçãO
Fisiologia Humana IntroduçãO
wescley20
 
Lei de morgan, linkage, ligação fatorial
Lei de morgan, linkage, ligação fatorialLei de morgan, linkage, ligação fatorial
Lei de morgan, linkage, ligação fatorial
César Milani
 
Introdução a bioinformatica
Introdução a bioinformaticaIntrodução a bioinformatica
Introdução a bioinformatica
UERGS
 
Evolução e classificação
Evolução e classificaçãoEvolução e classificação
Evolução e classificação
Edina Moreira
 

Mais procurados (20)

Adrenergicos e colinergicos
Adrenergicos e colinergicosAdrenergicos e colinergicos
Adrenergicos e colinergicos
 
Nucleotideos - acidos nucleicos
Nucleotideos - acidos nucleicosNucleotideos - acidos nucleicos
Nucleotideos - acidos nucleicos
 
Conceitos básicos de genética aula 2 2012.2 eja
Conceitos básicos de genética   aula 2 2012.2 ejaConceitos básicos de genética   aula 2 2012.2 eja
Conceitos básicos de genética aula 2 2012.2 eja
 
Fisiologia Humana IntroduçãO
Fisiologia Humana   IntroduçãOFisiologia Humana   IntroduçãO
Fisiologia Humana IntroduçãO
 
Aula1 patologia
Aula1 patologiaAula1 patologia
Aula1 patologia
 
Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Reparo
ReparoReparo
Reparo
 
Núcleos da base
Núcleos da baseNúcleos da base
Núcleos da base
 
Lei de morgan, linkage, ligação fatorial
Lei de morgan, linkage, ligação fatorialLei de morgan, linkage, ligação fatorial
Lei de morgan, linkage, ligação fatorial
 
Câncer ( arquivo atualizado)
Câncer ( arquivo atualizado)Câncer ( arquivo atualizado)
Câncer ( arquivo atualizado)
 
Proteinas
ProteinasProteinas
Proteinas
 
Aminoácidos e proteínas
Aminoácidos e proteínasAminoácidos e proteínas
Aminoácidos e proteínas
 
Introdução a bioinformatica
Introdução a bioinformaticaIntrodução a bioinformatica
Introdução a bioinformatica
 
Aula 07 núcleo e cromossomos
Aula 07   núcleo e cromossomosAula 07   núcleo e cromossomos
Aula 07 núcleo e cromossomos
 
Vacinas de DNA
Vacinas de DNAVacinas de DNA
Vacinas de DNA
 
Evolução e classificação
Evolução e classificaçãoEvolução e classificação
Evolução e classificação
 
Aconselhamento genético
Aconselhamento genéticoAconselhamento genético
Aconselhamento genético
 
Antiarritmicos - chrystiano arraes
Antiarritmicos - chrystiano arraesAntiarritmicos - chrystiano arraes
Antiarritmicos - chrystiano arraes
 
ICSA17 - Resposta Imune a infecções
ICSA17 - Resposta Imune a infecçõesICSA17 - Resposta Imune a infecções
ICSA17 - Resposta Imune a infecções
 
Anatomia do Peritônio
Anatomia do PeritônioAnatomia do Peritônio
Anatomia do Peritônio
 

Semelhante a Alinhamentos 2011 2

Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
Angela Machado Verissimo
 
Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
Angela Machado Verissimo
 
Algebra linear lista vi - autovalores e autovetores - unid iii
Algebra linear   lista vi - autovalores e autovetores - unid iiiAlgebra linear   lista vi - autovalores e autovetores - unid iii
Algebra linear lista vi - autovalores e autovetores - unid iii
Denise Oliveira
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmos
Ricardo Bolanho
 
áLgebra linear apostila ii determinantes
áLgebra linear apostila ii   determinantesáLgebra linear apostila ii   determinantes
áLgebra linear apostila ii determinantes
Eng Amb
 
Ita2009 3dia
Ita2009 3diaIta2009 3dia
Ita2009 3dia
cavip
 
Capitulo 1scilab
Capitulo 1scilabCapitulo 1scilab
Capitulo 1scilab
wjunior
 
Aula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfAula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdf
PedroTVSouza
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdf
CianeDias2
 
Determinantes Sistemas Lineares
Determinantes Sistemas LinearesDeterminantes Sistemas Lineares
Determinantes Sistemas Lineares
ISJ
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
ISJ
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
ISJ
 
Funções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasFunções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações Trigonométricas
Everton Moraes
 
Ita2006 3dia
Ita2006 3diaIta2006 3dia
Ita2006 3dia
cavip
 

Semelhante a Alinhamentos 2011 2 (20)

Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
 
Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
 
Aula 4 poe
Aula 4 poeAula 4 poe
Aula 4 poe
 
Algebra linear lista vi - autovalores e autovetores - unid iii
Algebra linear   lista vi - autovalores e autovetores - unid iiiAlgebra linear   lista vi - autovalores e autovetores - unid iii
Algebra linear lista vi - autovalores e autovetores - unid iii
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmos
 
Algoritmo Needleman-Wunsch
Algoritmo Needleman-WunschAlgoritmo Needleman-Wunsch
Algoritmo Needleman-Wunsch
 
Modelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaModelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetria
 
áLgebra linear apostila ii determinantes
áLgebra linear apostila ii   determinantesáLgebra linear apostila ii   determinantes
áLgebra linear apostila ii determinantes
 
Linguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoLinguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio Rufino
 
Ita2009 3dia
Ita2009 3diaIta2009 3dia
Ita2009 3dia
 
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfPC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
 
Capitulo 1scilab
Capitulo 1scilabCapitulo 1scilab
Capitulo 1scilab
 
Introdução ao MATLAB
Introdução ao MATLABIntrodução ao MATLAB
Introdução ao MATLAB
 
Aula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfAula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdf
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdf
 
Determinantes Sistemas Lineares
Determinantes Sistemas LinearesDeterminantes Sistemas Lineares
Determinantes Sistemas Lineares
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
 
Funções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasFunções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações Trigonométricas
 
Ita2006 3dia
Ita2006 3diaIta2006 3dia
Ita2006 3dia
 

Mais de UERGS

Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
UERGS
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
UERGS
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
UERGS
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
UERGS
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
UERGS
 

Mais de UERGS (20)

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenética
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a genetica
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentos
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturas
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frio
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodiesel
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteases
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutas
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutos
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticos
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnética
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - Carboidrases
 
Enzimas
EnzimasEnzimas
Enzimas
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
 

Alinhamentos 2011 2

  • 1. Métodos de alinhamento de sequencias biológicas DRA. ADRIANA DANTAS UERGS, BENTO GONÇALVES, RS
  • 2. Introdução ? - Uma forma rápida de agregar alguma informação sobre uma sequência desconhecida é compará-la com um banco de dados de sequências com funções conhecidas - Esta comparação é feita através de alinhamentos par a par entre as sequências. Isto é, se o banco de dados possuir 1000 sequências conhecidas serão realizados 1000 alinhamentos
  • 3. - Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL) Fonte: http://www3.ebi.ac.uk/Services/DBStats/ - Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
  • 4. Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST
  • 5. Relevância biológica - Para o biólogo é essencial que esses alinhamentos indiquem uma real similaridade entre as sequências (estatisticamente significantes) - Similaridade x Homologia - identidade = número que indica a quantidade de nucleotídeos alinhados - similaridade = considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos - homologia = dividem a mesma ancestralidade com significado evolutivo
  • 6.
  • 7. Outras aplicações - Reconstruçãoda sequência consensu a partir de sobreposições de fragmentos de sequências (montagens de sequencias de DNA) - Alinhamento entre sequências de ESTs e DNA genômico - Comparação entre proteínas e DNA - Construção de mapas físicos - Comparação entre genomas - ...
  • 8. Alinhamentos o A comparação entre sequências de DNA de organismos diferentes é baseada no conceito de que estes organismos originaram-se de um ancestral comum. o No contexto de evolução as sequências de DNA sofrem mutações. Estas modificações locais entre os nucleotídeos podem ser : o Inserções : inserção de uma base ou várias bases na sequência o Deleções : deleção de uma base ou mais bases na sequência o Substituições : substituição de uma base por outra o Portanto um programa de alinhamento de sequências biológicas tem que considerar essas mutações
  • 9. Exemplo : Gap = -2 Match = 1 Mismatch = -1 - Gaps representam as inserções e deleções entre as sequências - O melhor alinhamento entre duas sequências é aquele que maximiza o score : - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2) = 24 – 4 – 10 = 10
  • 10. Modelos para alinhamentos - Alinhamento global - útil quando as duas sequências tem tamanhos próximos - Exemplo de programa : CLUSTAL -Alinhamento local - útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos conservados - Exemplo de programa : BLAST E FASTA -Alinhamento semi-global (ou pontas livres) - útil para encontrar sobreposições de fragmentos de sequenciamento - Exemplo de programa : PHRAP E CAP3
  • 11. Alinhamento global - Alinhamento de GACATTG com GATCAATG 1a linha e 1a coluna de M são fáceis de computar: - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 G GA T -6 - - - C -8 A -10 A -12 Lembre-se, penalidade de 1 gap = -2 e de dois T -14 gaps = -4 G -16 http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
  • 12. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 A -12 [i,j]=p(i,j) T -14 G -16 - Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.
  • 13. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 [i-1,j-1] [i-1,j] A -12 [i,j-1] [i,j] = max([i-1,j] - 2, T -14 p(i,j), [i-1,j-1] + G -16 [i,j-1] - 2) -O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
  • 14. - Construindo o alinhamento A G C 0 -2 -4 -6 A -2 1 -1 -3 A -4 -1 0 -2 A -6 -3 -2 -1 C -8 -5 -4 -1 No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz
  • 15. Alinhamento local (Smith-Waterman) http://bioweb.pasteur.fr/seqanal/interfaces/water.html - G A C A T T G - 0 0 0 0 0 0 0 0 G 0 A 0 T 0 C 0 A 0 [i-1,j-1] [i-1,j] A 0 [i,j-1] [i,j] = max([i-1,j] - 2, [i-1,j-1] + T 0 p(i,j), G 0 [i,j-1] – 2, 0 zero) - No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
  • 16. No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0
  • 17. Alinhamento semi-global - Não penaliza espaços nas extremidades do alinhamento. - Exemplo CAGCA –CTTGGATTCTCGC || | | | | - - - CAGCGTGG - - - - - - - - - No global teríamos, CAGCA – CTTGGATTCTCGC CAGC - - - - - - G - T - - - - - - - Qual dos dois alinhamentos é mais interessante ?
  • 18. - No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global
  • 19. - A abordagem de programação dinâmica é importante pois garante o melhor alinhamento entre duas seguências, mas ainda temos um problema : - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento de sequências de 10 Mpb (genoma de Saccharomyces) leva 377 anos - A abordagem alternativa é conhecida como o método de k-tuplas, no qual não é garantido encontrar o alinhamento ótimo (heurística) mas é significantemente mais rápido. Com esse método os conceitos de alinhamento discutidos acima foram modificados dando origem aos programas de alinhamento local : - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25 (1990), 3389 - FASTA : PNAS 85 (1988), 2444-2448 - Basicamente este método identifica uma série de palavras curtas em uma das sequências (word size) e depois realiza uma busca exata por essas palavras nas sequências a serem comparadas, filtrando assim os possíveis candidatos.
  • 20. Alinhando proteínas - Alinhamento proteína-proteína - Alinhamento nucleotídeo-proteína - Alinhamento proteína-nucleotídeo - Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
  • 21. Matrizes de substituição - BLOSUM (BLOcks of amino acid SUbstitution Matrix ) - I e V => Hidrofóbicos - D e W => D (carga negativa) e W (aromático) - C => pontes de sulfeto (estrutural)
  • 22. -A matriz foi construída a partir de alinhamentos múltiplos globais de 504 grupos de proteínas - BLOSUM 62 : grupos com similaridade >62% - BLOSUM 80 : grupos com similaridade >80% - BLOSUM 45 : grupos com similaridade >45% Query Length Substitution Matrix <35 PAM-30 35-50 PAM-70 50-85 BLOSUM-80 >85 BLOSUM-62 PNAS 89 (1992), 10915-19919
  • 23. BLAST • Basic Local Alignment Search Tool • Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-410) • Implementações: NCBI BLAST e WU-BLAST • Acesso via web / local (linux) • Consulta de seqüências em BDs biológicos (nt ou proteínas) • Alinhamento – sobreposição de trechos semelhante de duas seqüências (seqs). BLAST traz pontuação e mostra alinhamentos. • Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum
  • 24. • BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares • Blastp – prot / prot (distantes) • Blastn – nt / nt (próximos) • Blastx – nt trad / prot (novas seqs) • Tblastn – prot / nt trad (regiões não anotadas) • Tblastx – nt trad / nt trad
  • 25. Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastx Query = formato da seq de entrada. BD = formato das seqs do BD. nt (trad) = seq em nt traduzida pelo programa. Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa). Programa = um dos cinco principais tipos de blast.
  • 26. BLAST – resultado Escolher BD http://www.ncbi.nlm.nih.gov/blast/
  • 27. ERRO!! Domínio encontrado ID facilita busca
  • 28.
  • 29. Link Corte 1e-5
  • 30. 1 64 query subject 1 71 134
  • 31. BLAST – exemplos >nucleotídeo 1 GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA >proteína 1 MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV WACAFPAMFV GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT FAVGGIWEVLF ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG RAFLFFAYP LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG GLVIIYTRIA SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS FTNQAKWAYGIL IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG http://www.ncbi.nlm.nih.gov/blast/
  • 32. BLAST local • Pode ser instalado localmente (Linux) • BDs e atualizações • Facilidades – Velocidade de buscas – Maleabilidade – Automatização – Dados locais – Independe de internet
  • 33. -Download - ftp://ftp.ncbi.nih.gov/blast - Preparação do banco de dados - formatdb –i <arquivo fasta db> -p T/F : - <arquivo fasta db> é o arquivo que contêm todas as sequências em nucleotídeo ou proteína que formarão o banco de dados do blast - -p T para arquivo fasta de proteínas e –p F para nucleotídeos - Comparação via blast - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d <arquivo fasta db> -o <arquivo de saída> -e 1e-5 - -i arquivo fasta a ser comparado com o banco <arquivo fasta db> - -p tipo de comparação a ser realizada - -d banco de dados utilizado na comparação - -o arquivo de saída - -e evalue de corte
  • 34. Resumo - Revisão BLAST - PHI-BLAST - PSI-BLAST -BLAST2SEQS
  • 35. Revisão Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastx Query = formato da seq de entrada. BD = formato das seqs do BD. nt (trad) = seq em nt traduzida pelo programa. Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa). Programa = um dos cinco principais tipos de blast.
  • 36. 1 64 query subject 1 71 134
  • 37. PHI-BLAST -Éum blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta N - Qualquer nucleotídeo N(3) - Uma sequência de três nucleotídeos Ex : N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos [CG](5)TG{A}N(1,5)C [AC] - pode ser um A ou um C {AG} - não pode ser nem A e nem G
  • 38. PSI-BLAST -É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta : - uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo - É útil para encontrar membros distantes de famílias de proteínas
  • 39. BL2SEQS - Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn -