2. Introdução
A bioinformática:
Imprescindível para a manipulação dos dados biológicos.
Definida como uma modalidade que abrange todos os aspectos de
aquisição, processamento, armazenamento, distribuição, análise e
interpretação da informação biológica.
Combinação de procedimentos e técnicas da matemática, estatística
e ciência da computação
Elaboradas várias ferramentas que nos auxiliam a compreender o
significado biológico representado nos dados genômicos.
Criação de bancos de dados com as informações já processadas,
acelera a investigação em outras áreas como a medicina, a
biotecnologia, a agronomia, etc
3. DEFINIÇÕES DE GENOMA
A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘
GENes e cromossOMASGENes e cromossOMAS’
O termo GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi proposta a
criação de uma nova disciplina e de uma nova revista cientifica
Definições:
Coleção de genes de um organismo
Casamento entre a biologia celular coma genética clássica e a adoção da ciência de
computação
Biologia molecular em grande escala
Rol de tecnologias capazes de decodificar a sequencia de DNA de qualquer organismo
Uma nova ciência que estuda todo o genoma
Integra disciplinas tradicionais como citologia, genética mendeliana, quantitativa, de
populações e molecular com novas tecnologias derivadas da informática e de sistemas
robóticos automatizados
4. Bancos de dados Genômicos
Grande quantidade de dados gerados em inúmeros laboratórios
de todo o mundo, faz-se necessário organizá-los de maneira
acessível, de modo a evitar redundância na pesquisa científica e
possibilitar a análise por um maior número possível de cientistas.
A construção de bancos de dados para armazenamento de
informações de sequencias de DNA e genomas inteiros, proteínas e
suas estruturas tridimensionais, bem como vários outros produtos da
era genômica, tem sido um grande desafio, mas simultaneamente
extremamente importante.
5. GenBankGenBank
O NCBI, ou Centro Nacional para Informação Biotecnológica
dos EUA, é considerado o banco de dados central sobre
informações genômicas.
Vários outros bancos de dados similares estão distribuídos por
países da Europa e Japão, mas todos trocam dados em um
intervalo de 24 horas com o NCBI.
O GenBank é o principal banco de dados do NCBI e armazena
todas sequencias disponíveis publicamente de DNA (de
seqüências pequenas a genomas inteiros), RNA e proteínas.
6. Bancos de dados secundários do NCBI
UniGene
agrupa todas as sequencias parciais do transcriptoma de um organismo
em aglomerados ou clusters, onde cada aglomerado representa a
sequencia consenso de um gene.
Banco de dados RefSeq
reúne somente as sequencias de referência, ou seja, a mais
representativa sequencia de um transcrito, editada e inspecionada por
um curador. É, frequentemente, o melhor banco de dados para se
evitar a redundância natural num universo com tantas informações.
OMIM (Online Mendelian Inheritance in Man)
que foi criado para catalogar todos genes e alelos relacionados a
doenças e outras características humanas, bem como proporcionar um
detalhamento técnico e bibliografia referente a cada característica.
7. Ferramentas para analise de dados no GenBank
A ferramenta mais popular de comparação de sequencias de DNA com os bancos
de dados genômicos é o BLASTBLAST ou Basic Local Alignment Search Tool.
Através deste algoritmo podemos comparar uma sequencia de DNA ou proteína
(Query) qualquer com todas sequencias genômicas de domínio público.
O programa BLAST não procura conduzir uma comparação da extensão total dasO programa BLAST não procura conduzir uma comparação da extensão total das
moléculas comparadas, mas apenas identificar, no banco de dados, a presença demoléculas comparadas, mas apenas identificar, no banco de dados, a presença de
uma sequencia suficientemente parecida com a pesquisada.uma sequencia suficientemente parecida com a pesquisada.
Descarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança daDescarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança da
região de homologia detectada até não mais conseguir.região de homologia detectada até não mais conseguir.
O resultado desta busca, que é feita no GenBank ou em várias de suas subdivisões
(pode-se facilmente limitar a pesquisa a sequencias de um dado organismo, por
exemplo), retorna aquelas sequencias (DNA ou proteínas) depositadas (depositadas (Subject)Subject) com
maior homologia.
8. Banco de Genes
Um dos grandes desafios é o desenvolvimento de procedimentos
pelos quais esses dados podem ser “inseridos” e "extraídos" em
bancos de dados secundários.
Ferramentas desenvolvidas recentemente incluem:
Bancos de genes classificados de acordo com sua história evolutiva
(COG-NCBICOG-NCBI),
Algoritmos de comparação de genomas inteiros (ACT - ArtemisACT - Artemis
Comparison ToolComparison Tool),
Ferramentas de busca de similaridade estrutural de proteínas,
independentemente da sequencia primária (VAST-NCBIVAST-NCBI), etc.
9. Mapas genômicos
Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do
sequenciamento da bactériada bactéria Haemophilus influenzaeHaemophilus influenzae utilizando uma
metodologia de “tiro no escuro" (do inglês shotgunshotgun).
Esta estratégia envolve o sequenciamento totalmente ao acaso, para posterior
montagem numa sequencia contígua, ou contigcontig (figura 2)
Tem-se mostrado extremamente útil para o sequenciamento de genomas simples,
como o de bactérias e em genomas complexos, como o da drosófila (Adams et al.
2000) e do homem (Venter et al. 2001).
O sequenciamento executado pelo consórcio público do genoma humano
também teve uma porção shotgun.
Fragmentos grandes de DNA clonados em BAC (cromossomos artificial decromossomos artificial de
bactériabactéria), de cerca de 150 mil pb, previamente mapeados em lugares
específicos dos cromossomos (figura 3).
Enviados para centros de sequenciamento ao redor do planeta e, em cada centro,
fragmentos pequenos eram gerados por quebras físicas e sequenciados no escuro,
com uma cobertura de até dez vezes.
11. Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC
12. Processo Shotgun
Contigs são montados e geram a sequencia do grande fragmento e a informação é
devolvida para a montagem final do genoma.
Processo Shotgun utilizado pela empresa Celera foi diferente:
o genoma é fragmentado em pedaços de 2 mil, 10 mil e 50 mil nucleotídeos,
após são clonados, sequenciados as extremidades das moléculas.
Cada extremidade sequenciada encontra alguma sobreposição com alguma outra
sequencia da coleção, mas sabendo-se a sequencia das outras extremidades destas
duas moléculas, é possível conferir duplamente o resultado das sobreposições.
As moléculas longas funcionam como âncoras, onde as extremidades das moléculas
maiores podem ser utilizadas não apenas para comprovar a montagem mas
também para ligar e ordenar contigs bem como direcionar o sequenciamento para
algumas áreas de descontinuidade entre os contigs.
13.
14. Análise e Montagem das Sequencias
Sequencias shotgun analisadas Phred, Phrap e Consed
Resultado: Sequencias ordenadas com consenso formam um “CONTIG”
15. Obtenção de Sequencias geradas
pelo MegaBace 10
Base calling -Base calling - Dados brutos (medidas analógicas) de saída do seqüênciamento
PHRED:PHRED: Transforma os dados brutos em sequencias de bases, atribuí valores de
qualidade a cada base na sequencia e gera arquivos de saída FASTA e PHD
PHRAP:PHRAP: Leitura Montagem dos pequenos fragmentos de DNA sequenciados em
seqüências maiores: CONTIG
CONSED:CONSED: Visualização e edição das montagens das seqüências de alta
qualidade
16.
17. Base CallingBase Calling
Phred : http://www.phrap.com/phred/
Lê o arquivo do cromatograma da sequencia de DNA e analisa os picos para
descrever as bases, associando um valor de qualidade para cada base descrita
18. Valores de qualidade gerados pelo PHRED
Arquivos de sequencias de DNA analisados pelo phred:
Cada base é assinada um valor de qualidade, o qual é uma estimativa da
probabilidade de erro para essa base.
Bases com um valor de qualidade de 20 são consideradas com um alto valor de
qualidade:
q = -10 log10(pe) onde pe= erro estimado
q20 = 1/100 probabilidade de erro
q30= 1/1000 probabilidade de erro
q40= 1/10000 probabilidade de erro
21. Anotação de Genes
Anotar é postular a
função ao produto de
um ORF
Utilizam-se diversos
programas de
comparação de dados
genéticos conhecidos
22.
23.
24. Montagem de DNA
Ordenação dos
trechos de DNA
sequenciados para
obtenção da
sequencia original
Inclui verificação de
qualidade de bases,
marcação de
vetores,
comparação entre
clones e formação
de contíguos ate se
obter o final
25.
26.
27. Mascaramento de Vetores
Mascaramento das regiões que representam, normalmente, partes dos vetores de
clonagem onde as sequencias de interesse foram inseridas ou pedaços de DNA
adaptadores utilizados durante a construção das bibliotecas
28. Montagem feita pela superposição
Para executar essa montagem feita pela superposição das sequencias dos
vários clones, novas ferramentas da bioinformática foram construídas.
Duas dessas ferramentas, o PHRED e o PHRAPPHRED e o PHRAP, possibilitam a análise das
milhares de sequencias de DNA geradas pelo sequenciador automático
(Figura 4).
PHRED - verifica a qualidade do sequenciamento de cada base das várias
sequencias e junto ao PHRAP faz o alinhamento de todos os clones,
construindo uma sequencia contínua, ou contig.
No final, váriosvários contigscontigs irão compor um grandeirão compor um grande contigcontig que pode ser a fita de
DNA completa de um cromossomo de bactéria, que é na maioria dos casos o
seu genoma completo.
Para a montagem final várias outras ferramentas foram desenvolvidas para
manipulação e ordenamento de grandes contigs, bem como a visualização
do mapa final com toda a anotação funcional (Ex: Mummy e Assembler do
TIGR).
29. Nos eucariotos, cada
cromossomo possui uma
molécula de DNA e, como
humanos têm 24 tipos de
cromossomos (1 a 22, X e Y),
deve-se sequenciar
completamente 24 dessas
moléculas, avançando-se
muitas vezes por longos
trechos de DNA repetitivo,
que são praticamente
impossíveis de sequenciar
com perfeição.
30. Alinhamento de Sequencias
Determinar se as sequencias apresentam similaridade.
Uma similaridade significativa é um forte argumento para homologia.
Definição dos termos :
SimilaridadeSimilaridade : é uma medida da qualidade do alinhamento entre as
sequencias, baseada em algum critério de comparação.
HomologiaHomologia : refere-se à relação evolutiva entre as sequencias.
Genes Homólogos :Genes Homólogos :pode ser divididos em: ortólogos e parálogos
31. Genes Homólogos
Figura 2. Representação dos genes Hox em
drosófila com seu posicionamento no DNA
e seus respectivos locais de expressão
Cada animal possui um "Kit de ferramentas" que, quando unidos, são capazes
de construir um animal. Não importa seu tamanho nem sua complexidade,
todos animais são definidos a partir de um pool gênico compartilhado, com
pequenas alterações, cuja expressão diferencia-se por sua ativação ou
desativação em determinadas espécies, e por pequenas mutações que
podem ocorrer durante a história evolutiva.
33. Anotação
Postular função para produto de gene
Predizer estruturas do genoma e suas funções
Anotam-se:
Genes que codificam proteinas
tRNAs
rRNAs
ORFs hipotéticos
Clusters de GC
Repetições
GCsKew
Codon usage
Promotores
34.
35. Para que serve o pacote BLAST?
São utilizados para buscas por similaridade de sequencias efetuadas contras bancos
de dados de DNA e proteína;
Comparam proteínas com proteínas, DNA com DNA,
Proteína com DNA ou DNA com proteínas;
As sequencias de DNA utilizadas na comparação usualmente são traduzidas antes da
comparação;
Utilizam valores limites (thresholds) que podem ser ajustados para alterar a velocidade e
probabilidade;
O pacote pode utilizar várias matrizes de substituição como Blosum( Blocks Substitution
Matrix) 62 ou PAM (Percent Accept Mutation) 250.
36. BLAST
Basic Local Alignment Search Tool - Ferramenta utilizada para realização
de alinhamento local entre sequencias;
É um algoritmo heurístico baseado no algoritmo de Smith-Waterman;
É a ferramenta mais utilizada para realizar busca de sequencias contra banco de
dados.
• Quais as estratégias utilizadas pelo BLAST ?
Calcula similaridade de sequencias;
Executa alinhamento local;
Utiliza busca por palavras (“words”) ao invés de buscas por caracteres individuais (N ou P);
Utiliza cálculos estatísticos para validação do resultado.
37. Anotação BLAST
Basic Local Aligment Search Tool
Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410)
Implementações: NCBIBLAST e WU-BLAST
Acesso via web / local
Consulta de sequencias em BDs biológicos
Alinhamento, similaridade e homologia
38. Bancos de dados BLAST
www.ncbi.nlm.nih.gov/BLAST/
De acordo com o tipo de dados em que se esteja interessado existem vários
bancos de dados contra os quais a sequencia de busca pode ser comparada :
Sequencias caracterizadas de DNA ou proteína;
Sub-DBs especializados;
Genomas completos ou cromossomos;
DBs definidos pelo usuário (cópia local).
39. BLASTBLAST
Várias regiões de DNA podem ser anotadas através do BLAST, cujo resultado
pode servir para atribuir uma função a qualquer segmento de DNA que
apresenta homologia significativa a outras sequencias de DNA ou proteínas
previamente depositadas no GenBank com função conhecida
experimentalmente (figura 1).
Figura 1 - Resultado da busca por similaridade
com o programa BLAST. O segmento de DNA
sequenciado (Query) demonstrou alta
homologia (100%) com o gene da Insulina
humana (Sbjct).
40. BLASTBLAST
É interessante verificar que se utilizássemos um nucleotídeo, "A" por
exemplo, para pesquisar sequencias humanas, a chance de
encontrarmos uma região homóloga seria igual a 1 (100%).
Se a nossa sequencia pesquisada fosse mais complexa, 144 bases
por exemplo, a chance de encontrarmos uma sequencia
perfeitamente idêntica seria pequena.
O valor de "E"O valor de "E" , um parâmetro calculado pelo BLAST, expressa essa
dificuldade e, quanto menor seu valor, menor a chance de tal
comparação ter sido encontrada por pura coincidência.
41. Modalidades de BLAST
A mais curiosa e de grande importância na descoberta gênica é aquela onde
tanto a Query como a base de dados (Subject) são sequencias detanto a Query como a base de dados (Subject) são sequencias de
nucleotídios.nucleotídios.
Antes de verificar a homologia, são feitas as seis traduções possíveis de cada
sequencia de nucleotídeos, ou seja, tanto a sequencia pesquisada quanto
cada uma das presentes na base de dados são transformadas em seis
proteínas (iniciando pela base 1, 2 ou 3 de cada fita).
tBLASTxtBLASTx, permite que seja retornado o par proteína Query - proteína Subject e é
muito válida pois as proteínas de dois organismos são mais parecidas entre si
que os nucleotídios que as codificam.
Nesta análise, apenas uma das seis leituras é de significado biológico, as demais
geram resultados que são desprezados. conservadas.
42. Modalidades do BLAST
tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como por
exemplo na identificação da subunidade catalítica da telomerase
humana assim que tal enzima foi identificada no protozoário Euplotes
(Meyerson et al. 1997).
BLASTn,BLASTn, buscam homologia entre sequencias de nucleotídeos
BLASTpBLASTp, buscam homologia entre sequencias de proteínas
BLASTxBLASTx, Buscam homologia entre sequencias de nucleotídeos e proteínas
PSI-BLASTPSI-BLAST, que em uma primeira busca encontra as proteínas mais
homólogas à pesquisada - Query; procede identificando as regiões
conservadas dentre os melhores resultados da pesquisa e, em buscas
subsequentes, mascara as regiões não conservadas da Query e pesquisa
levando em conta apenas as regiões conservadas.
43. Anotação BLAST
BDs – nucleotídeos, proteínas, domínios, genomas,
específicos, dados particulares
BLASTp – proteina / proteina (distantes)
Blastn – nt / nt (próximos)
Blastx – nt traduzido / proteínas (novas sequencias)
Tblastn – proteína / nt traduzido( regiões não anotadas)
Tblastx – nt trad / nt traduzido (ESTs)
44. Modalidades do BLAST
Input (Entrada do Programa)
Query sequence (sequencia de busca)
Subject (Banco de dados de sequencias biológicas)
• Output (Saída do Programa)
Uma lista ordenada de “hits” contendo sequencias do banco de
dados que possuem similaridade local com a
sequencia de busca (da qual a função desconhecida da
sequencia de busca pode ser inferida).
Significância estatística de cada “hit”
45. Query= formato da seq de entrada;
BD= formato das seqs do BD;
nt (trad)= seq em nt traduzida pelo programa;
Compara= o que é comparado, nt (nucleotídeo) ou aa (aminoácido);
Programa= um dos cinco principais tipos de blast.
46. Anotação BLAST nts (nucleotídeos)
Vs. ntVs. nt
MEGABLAST – identifica as sequencias
BLASTn – identifica a sequencia ou encontra similaridade
Tblastx – comparação de proteínas (nts traduzidos)
Vs. ProteínaVs. Proteína
Blastx – comparação de proteinas (nts traduzidas)
Pequenas sequencias de nt
Search for short, nearly exact matches – busca para primers ou
motivos
47. Anotação BLAST aas (aminoácidos)
Vs. ProteínasVs. Proteínas
Blastp – identifica a sequencia ou encontra similares
PSI-BLAST – encontra membros da família da proteína
PHI-BLAST – encontra proteínas similares a padrão
Domínio ConservadoDomínio Conservado
CD-search – encontra query
CDART – encontra query e busca outras
48. Anotação BLAST aas (aminoácidos)
Vs. ntVs. nt
Tblastn – busca proteínas similares
Pequenas sequencia s de proteínas
Search for short, nearly exact matches – busca para
motivos
Especializadas (nt ou proteínas)Especializadas (nt ou proteínas)
Blast 2 sequences
BDs específicos (genomas)
49. PSI-BLAST
Position-Specific Iterated BLAST
Executa um BLAST normal para encontrar no DB um conjunto de sequencias
relacionadas (um critério de corte de E-value é utilizado);
Alinha essas sequencias para criar uma nova matriz de substituição P1 que é
chamada de “Position Specific Scoring Matrices” (PSSMs);
Depois utiliza interativamente a nova matriz para encontrar novas seqüências, construir
uma matriz P2 e executar a etapa 2 novamente;
O número de iterações é definido pelo usuário.
50. PHI-BLAST (Pattern-Hit Initiated BLAST)
Pesquisa que combina a busca por expressões regulares com
alinhamento local em torno da expressão regular encontrada.
– Procura por sequencias em um banco de dados que contenham o
motivo estrutural dado pela expressão e, ao mesmo tempo, são
homólogas à sequencia query nas vizinhas do motivo estrutural.
– Muito similar ao PSI-BLAST, exceto que a sequencia query é primeiro
pesquisada por um padrão fornecido pelo pesquisador.
51. Anotação BLAST Alinhamentos
Query / subject
Low escore filter
Gráfico
Lista de alinhamentos
Score e E-value
Alinhamentos
Identities
Posição de inicio e fim
59. Anotação de tRNAs
Programa tRNAscan-SE
tRNAscan – COVE
Show Structure
TRNAscan-SE
Servidor Web: http://www.genetics.wustl.edu/eddy/tRNAscan-SE/
Lowe, T.M. & Eddy, S.R. (1997). tRNAscan-SE: a program for improved detection of
transfers RNA genes in genomic sequence. Nucleic Acids Research 25: 955-964.
61. Anotação repetições
Programa Tandem Repeat FinderPrograma Tandem Repeat Finder
Programa REPuter
Foward vs. Foward (F) – tandem
Forward vs. Reverse (R)
Forward vs. Complemt (C)
Forward vs. Reverse complemet (P)
62. Anotação Conteúdo GC
GC
Clusters de GC
Porcentagem de GC
GC skew – (G-c) / (G + C)
GC skew cumulativo
63. Anotação Genômica e Predição de GenesAnotação Genômica e Predição de Genes
O processo de anotação genômica envolve a atribuição de
funções e identificação de padrões e de genes na sequencia
linear do DNA obtida do sequenciamento.
Para se fazer a predição de genes vários parâmetros podem
ser avaliados tais como a existência de sequencias no DNA
que possam funcionar como promotores seguidas por
sequencias que possam gerar uma proteína funcional, ou que
tenham similaridade com genes conhecidos, etc.
64. Anotação Genômica e PrediçãoAnotação Genômica e Predição
de Genesde Genes
Diferentes algoritmos (Ex: GenScan) empregam processos estatísticos diversos para se fazer
a busca por ORFsORFs (Open Reading Frames) ou fases de leitura aberta do código genético,
identificadas por um códon iniciador e um terminador, que correspondem a sequencias
com possíveis regiões codificadoras.
Oorrência no genoma de ORFs superiores a 100 bases é um evento raro, já que um dos 64
códons (ATG) abre a fase de leitura e três são os terminadores (TAA, TAG e TGA), com alta
probabilidade (3/64)
Programas que detectam o uso não aleatório de códons (codon usagecodon usage), o qual é típico
para cada organismo.
Nos projetos de análise do transcriptoma frequentemente o códon iniciador nãonão está
presente e programas de análise do codon usage podem auxiliar no reconhecimento da
fase de leitura da porção codificadora.
O programa ESTScan é um dos mais usados para esses fins.
65. Genes Hipotéticos
O conhecimento prévio da proteína e a sua função em qualquer outra espécie
facilita bastante o processo de anotação de genes.
Grande parte dos genes são ainda hipotéticos, isto é, não se conhece a funçãonão se conhece a função
biológica destas sequencias.biológica destas sequencias.
Exemplo, na bactéria Escherichia coli, na planta Arabidopsis thaliana e na mosca
das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados não
possuem produto gênico ou função conhecida.
Muitos dos supostos "genes hipotéticos" serão futuramente descartados enquanto
outros segmentos gênicos serão identificados após terem passado
desapercebidos pelos atuais algoritmos de predição gênica.
Aparente paradoxo resulta do fato de que não existe umaAparente paradoxo resulta do fato de que não existe uma
identificação inequívoca de um gene.identificação inequívoca de um gene.
66. Genoma Humano
Para o genoma humano acreditava-se até bem pouco
tempo em um número estimado ao redor de 70-100 mil genes
que foi reduzido para 30-40 mil genes com a publicação dos
primeiros rascunhos de nosso genoma em 2001 (Lander et al.
2001 e Venter et al. 2001).
Para facilitar a identificação e classificação funcional dos
genes foi criado o consórcio Gene OntologyGene Ontology que pretende
fornecer um vocabulário padronizado para a descrição dos
produtos gênicos.
67.
68. Análise de Transcriptomas
O estudo do transcriptoma de cada organismo é de grande importância para a
identificação de genes, mas também incorpora informações sobre o
funcionamento do seu genoma.
As sequencias produzidas pelos projetos de sequenciamento do transcriptoma
constituem-se em evidência direta da existência de genes com sua determinada
ordem de éxons.
A análise de transcriptomas de diferentes espécies, inclusive a humana, tem
evidenciado uma altíssima frequência de processamentos (splicing) diferenciaisaltíssima frequência de processamentos (splicing) diferenciais
dos transcritos primários.dos transcritos primários.
Neste caso, um gene pode apresentar uma grande variação funcional devido
simplesmente ao sorteio de éxons promovido pelo processamento diferencial.
69. Análise de Transcriptomas
É necessário sequenciar completamente todos os genes de um tecido ou
organismo.
Grande parte dos genes podem ser identificados através da análise deGrande parte dos genes podem ser identificados através da análise de
pequenas sequencias que funcionam como etiquetas.pequenas sequencias que funcionam como etiquetas.
Chamadas ESTs, ou Expressed Seqüence Tags, são resultado do sequenciamento
parcial de cDNAs (figura 6).
O objetivo das ESTsESTs é identificar a presença de genes expressos em um
transcriptoma, associando a etiqueta ao gene (e sua função) através um
programa tal como o BLAST que faz busca por homologias.
As sequencias parciais (ESTs) se originam de ambas as extremidades do cDNA,
embora alguns projetos prefiram a extremidade 3' por facilitar a geração de
sequencias consenso através do agrupamento de vários ESTs, enquanto outros
escolhem a extremidade 5' por estar mais próxima da região codificadora da
proteína, o que facilita a identificação por homologia.
70. ORESTES, deORESTES, de Open Reading frames ESTsOpen Reading frames ESTs
Tecnologia desenvolvida no Brasil (Dias-Neto et al. 2000) permite o
sequenciamento da região central dos mRNAs.sequenciamento da região central dos mRNAs.
A tecnologia, denominada ORESTES, de Open Reading frames ESTsORESTES, de Open Reading frames ESTs (figura 6)
baseia-se na amplificação de cDNAs por PCR aleatório cujos produtos são
utilizados para gerar uma biblioteca.
O sequenciamento desta biblioteca, contendo fragmentos aleatórios derivados
de diferentes regiões de cada mRNA, favorece o reconhecimento da função do
transcrito por pesquisa de homologia, pois incorpora mais frequentemente a ORF
no transcrito do que as ESTs convencionais (figura 6).
Os ORESTES foram responsáveis pela identificação de 219 novos genes no
cromossomo 22 humano (Souza et al. 2000) que não haviam sido detectados
previamente por outras análises bioinformáticas.
Agrupamento de sequencias para geração de consensos é facilitado quando
são utilizados ESTs convencionais associados aos ORESTES.
71. O transcriptoma pode revelar padrões
distintos de expressão gênica.
Uma das maneiras de se evidenciar a
expressão gênica diferencial é analisar
a freqüência de ocorrência de um
determinado transcrito numa
preparação de cDNA de um tecido ou
fase de desenvolvimento.
Apesar da construção de bibliotecas
de cDNA sempre trazer um viés,
incorrendo na redundância de alguns
transcritos, a análise de várias
bibliotecas permite alguma
aproximação do padrão de expressão
de um tecido ou fase de
desenvolvimento de um organismo.
72. Microarranjos
Todavia, nada se compara à inversão introduzida pelos microarranjos
(microarrays ou biochips) na análise da expressão gênica.
Em uma lâmina de microscópio podem ser depositados por um robô cerca de
10 a 100 mil sequencias de genes conhecidos.
Sondas com fluorescências distintas podem ser preparadas a partir de mRNA
isolado de duas populações de células, normais ou transformadas por
exemplo, e através da análise da intensidade de hibridização pode-se
comparar a expressão gênica diferencial desses múltiplos genes em um tempo
extremamente reduzido.
Ferramentas bioinformáticas, voltadas ao processamento de imagens em uma
escala micro e nanométrica, estão surgindo para analisar a expressão conjunta
de genes, detectadas em microarranjos.
73. SAGE
Metodologia que incorpora um nova técnica de biologia molecular e
ferramentas de bioinformática para análise de expressão gênica diferencial.
O SAGE, ou Serial Analysis of Gene ExpressionSAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), se
baseia no uso de pequenas sequencias chamadas tagschamadas tags (10 a 14 pb), únicas
de cada gene, que são obtidas por etapas de clivagens e ligações com o
cDNA e posteriormente co-amplificadas por PCR, formando um
concatâmero de tags.
A quantificação da expressão gênica se dá pela análise do
sequenciamento dos concatâmeros através ferramentas específicas de
bioinformática.
Desta forma puderam ser identificados vários genes provavelmente
relacionados ao processo de transformação celular nos tumores.
74. RNA-seq
RNA-seq é uma abordagem recentemente desenvolvida,
para analisar o perfil de transcriptoma, que utiliza
tecnologias de deep-sequencing.
O transcriptoma é o conjunto completo de transcritos
(RNAs) em uma célula, e sua quantidade, para um
estágio de desenvolvimento específico ou condição
fisiológica.
* deep-sequencing = indica que a cobertura do processo é muito maior que o
comprimento da sequencia em estudo.
75. O entendimento do transcriptoma é essencialO entendimento do transcriptoma é essencial
para:para:
Interpretar os elementos funcionais do genoma
Revelar os constituintes moleculares de células e tecidos nos
diferentes estágios de desenvolvimento
Compreender os elementos presentes no desenvolvimento
de doenças
O transcriptoma pretende catalogar todos os tipos de
transcritos:
mRNAs
RNAs não codificadores
pequenos RNAs.
76. Porquê estudar o transcriptoma?
Para determinar a estrutura transcripcional dos genes, em termos de
seus sítios de início 5’ e final 3’;
Padrões de splicing e outras modificações pós-traducionais;
Quantificar os níveis de mudanças de expressão de cada transcrito
durante o desenvolvimento e sob condições diferentes.
Encontrar microRNAs que possuem função reguladora
Metagenômica
* Splicing = é um processo que remove os íntrons e junta os éxons depois
da transcrição do RNA. O splicing só ocorre em células eucarióticas, já
que o DNA das células eucarióticas não possui íntrons.
77. Criação da BibliotecaCriação da Biblioteca
Pode-se utilizar:
Todo o RNA da célula
Possui 90-95% de rRNA
Apenas mRNA selecionado pela cauda de poli-A
Perde-se microRNAs e mRNAs sem poli-A
Retirando o rRNA
Por hibridização com sequencias específicas ligadas a biotina que
são retiradas com esferas ligadas a streptovidina
Quebra por uma exonuclease que age sobre RNAs que possuem
fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato)
A remoção de rRNAs aumenta a detecção e a montagem de transcritos
raros.
Mas se o objetivo do estudo é a quantificação, é necessário uma
biblioteca não depletada.
78. Criação da BibliotecaCriação da Biblioteca
Para a criação da biblioteca o RNA é transformado em cDNA
por uma transcriptase reversa
Para não se perder a direcionalidade do transcrito podem ser
acrescentados adaptadores a uma extremidade do RNA
isso é muito importante no estudo de espécies de
genoma muito compactado onde o transcrito pode se
sobrepor em fitas opostas
O RNA pode ser fragmentado antes da formação de cDNA
evitando a formação de estrutura secundária
79.
80. Cada molécula de cDNA, com ou sem amplificação, é
então sequenciada com um método de alto rendimento
para obter sequências curtas de um final (sequenciamento
single-end) ou de ambos os lados (sequenciamento pair-
end).
As leituras são tipicamente 30 – 400 bp, dependendo da
tecnologia usada para sequenciamento do DNA.
Para esse método tem se usado plataformas tipo: Illumina IG,
SOLiD e 454.
81. Considerações Prioritárias na montagemConsiderações Prioritárias na montagem
Para garantir uma alta qualidade na montagem do
transcriptoma, cuidados particulares devem ser
tomados nos experimentos de RNA-Seq.
• Na fase de análise de dados, as leituras curtas são pré-
processadas para remover erros de sequenciamento e
outros artefatos.
• As leituras são subsequentemente montadas nos RNAs
originais e então sua abundância é avaliada.
82.
83. Para evitar erros na montagem de RNA, é necessário
retirar o passo de amplificação por PCR
Na etapa de amplificação por PCR alguns fragmentos
podem ser melhor amplificados que outros prejudicando os
dados
Já é possível fazer o sequenciamento sem amplificação
usando as plataformas Helicos e Pacific Biosciences,
O sequenciamento através de uma única molécula é
possível, porém essas tecnologias ainda sofrem com a
alta taxa de erro
84. Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma
Baseado em três categorias :
- Etratégia baseada em referência
- Estratégia de novo
- Estratégia combinada
85. Estratégia baseada em ReferênciaEstratégia baseada em Referência
Quando existe um genoma de referência o transcriptoma pode ser
construido a partir dele.
Esse método inclui três passos:
Alinhamento das leituras sobre o genoma de referência
As leituras sobrepostas em cada locus são agrupadas para
construir um gráfico de todas as isoformas possíveis.
O gráfico é analisado para resolver isoformas individuais.
Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
86.
87.
88. Após as leituras serem alinhadas ao genoma, dois métodos são
usados para a construção dos gráficos:
- Cufflinks - cria um gráfico de sobreposição de todas as leituras
que alinham com um único locus para montar isoformas
encontrando o mínimo de transcritos que explicam os introns
dentro da leitura.
- é mais conservativo na escolha de quais os transcritos são re-
construidos
- Scripture - cria um gráfico que une cada base de um
cromossomo e adiciona nas laterais (conexões) entre as bases se
existe uma leitura que liga duas bases.
- pode produzir um grande conjunto de transcritos de um locus.
89. Vantagens
Pode montar transcritos de baixa abundância;
Pode usar computação paralela
Pode ser feita em máquinas com poucos gb de RAM;
Descobrir novos transcritos que não estão em anotações já
existentes;
Descarta artefatos e contaminantes (que não alinham)
Usado para transcriptomas simples:
bactérias, archeaeal, eucarióticos simples
com poucos introns
pouco splicing alternativo
90. Desvantagens
Não é possível sem um genoma de referência;
Depende da qualidade do genoma de referência ;
Genomas podem não ser completos, ter regiões não agrupadas e
parcialmente montadas.
Genes que se encontram muito próximos ou sobrepostos podem
ser interpretados com um único transcrito
Não une leituras que esteja muito distantes no genoma ou em
cromossomos diferentes
91. EstratégiaEstratégia de novode novo
Não utiliza um genoma de referência;
Se utiliza da redundância das leituras para encontrar sobreposições
entre as leituras
Programas usam o gráfico De Brujin para reconstruir transcritos de
uma ampla faixa de níveis de expressão e então processar a
montagem de contigs e remover redundancias.
Semelhante à montagem de genoma
92.
93.
94. Vantagens
Não depende de um genoma de referência;
Pode providenciar um novo conjunto de dados de transcritos para
genomas que não apresenta alta qualidade;
Pode ser usado para encontrar transcritos exógenos ou que estão
faltando no genoma;
Não é influenciado por longos introns
Encontra transcritos trans-spliced, resultantes de rearranjos
cromossomais
Pode ser utilizado para o transcriptoma de organismos complexos
95. Desvantagens
A montagem de organismos eucariotos complexos pode consumir muita
memória RAM
Grande quantidade de dados
Complexidade dos gráficos de Brujin nescessários para analizar os possíveis
splicings
Consome dias ou semanasde processamento
Exige maior cobertura(30x)
Suscetível a erros de leitura, pode não diferenciar um erro do
sequenciamento de um splicing
Trechos similares(como parálogos) ainda podem ser considerados um só
transcrito
96. Estratégia combinadaEstratégia combinada
• A combinação dos dois métodos pode ser utilizada
• O alinhamento tem a vantagem da sensibilidade
• O De Novo para encontrar transcritos novos e trans-spliced
• Realizando o alinhamento primeiro podemos descartar as sequências já
conhecidas
• Fazendo a montagem De Novo com uma quantidade muito menor de dados
• Quando o genoma de referência tem baixa qualidade a montagem De
Novo pode ser feita primeiro
• Os contigs e singlets são alinhados no genoma e as lacunas podem ser
preenchidas com informações do genoma
97.
98. Uma questão importante é a cobertura da sequência ou
a porcentagem dos transcritos pesquisados, os quais
implicam no custo.
Grandes coberturas requerem mais sequenciamento.
Em transcriptomas simples, como da levedura S.
cerevisiae, que não tem evidência de splicing
alternativo, 30 milhões de leituras de 35 nucleotídeos são
suficientes para observar a transcrição de mais de 90%
dos genes de células em crescimento sob uma condição
unica
99. RNA-seqRNA-seq
RNA-Seq revela a localização precisa dos limites da transcrição,
com a resolução base a base.
Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra
informação como 2 exons estão conectados, enquanto leituras
longas ou leituras curtas por pair-ends poderiam revelar
conectividade entre exons múltiplos.
Os resultados de RNA-Seq também mostram alto nível de
reprodutibilidade, para ambas as técnicas e replicatas biológicas.
100. Aplicações
Descoberta de pequenos RNAs
Quantificação da expressão em diferentes
momentos
Fusão de genes em câncer
Identificação de mutações
Metagenômica
102. Melhorias para o futuroMelhorias para o futuro
Melhorias na anotação automática
Embora não seja possível nem desejável eliminar a anotação
manual. Há alguns passos que podem ser melhorados na
anotação automática:
Deteção de erros ortográficos comuns por exemplo ou inclusão de mais
informação disponível ou anotação com os termos GO
Novos tipos de dados
Dados de expressão de micro-arrays e RNA-Seq.
Melhorias nos sofwares que permitam a visualização e
integração de todos estes dados são fundamentais.
Notes de l'éditeur
A diagram displaying the processes that can lead to, and define, orthologs and paralogs. Gene duplication and speciation events create complex evolutionary relationships between genes.