Anotação molecular

AnotaçãoAnotação
MolecularMolecular
DRA. ADRIANA DANTAS | BIOINFORMÁTICADRA. ADRIANA DANTAS | BIOINFORMÁTICA

Introdução
 A bioinformática:
 Imprescindível para a manipulação dos dados biológicos.
 Definida como uma modalidade que abrange todos os aspectos de
aquisição, processamento, armazenamento, distribuição, análise e
interpretação da informação biológica.
 Combinação de procedimentos e técnicas da matemática, estatística
e ciência da computação
 Elaboradas várias ferramentas que nos auxiliam a compreender o
significado biológico representado nos dados genômicos.
 Criação de bancos de dados com as informações já processadas,
acelera a investigação em outras áreas como a medicina, a
biotecnologia, a agronomia, etc

DEFINIÇÕES DE GENOMA
 A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘
GENes e cromossOMASGENes e cromossOMAS’
 O termo GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi proposta a
criação de uma nova disciplina e de uma nova revista cientifica
 Definições:
 Coleção de genes de um organismo
 Casamento entre a biologia celular coma genética clássica e a adoção da ciência de
computação
 Biologia molecular em grande escala
 Rol de tecnologias capazes de decodificar a sequencia de DNA de qualquer organismo
 Uma nova ciência que estuda todo o genoma
 Integra disciplinas tradicionais como citologia, genética mendeliana, quantitativa, de
populações e molecular com novas tecnologias derivadas da informática e de sistemas
robóticos automatizados

Bancos de dados Genômicos
 Grande quantidade de dados gerados em inúmeros laboratórios
de todo o mundo, faz-se necessário organizá-los de maneira
acessível, de modo a evitar redundância na pesquisa científica e
possibilitar a análise por um maior número possível de cientistas.
 A construção de bancos de dados para armazenamento de
informações de sequencias de DNA e genomas inteiros, proteínas e
suas estruturas tridimensionais, bem como vários outros produtos da
era genômica, tem sido um grande desafio, mas simultaneamente
extremamente importante.

GenBankGenBank
 O NCBI, ou Centro Nacional para Informação Biotecnológica
dos EUA, é considerado o banco de dados central sobre
informações genômicas.
 Vários outros bancos de dados similares estão distribuídos por
países da Europa e Japão, mas todos trocam dados em um
intervalo de 24 horas com o NCBI.
 O GenBank é o principal banco de dados do NCBI e armazena
todas sequencias disponíveis publicamente de DNA (de
seqüências pequenas a genomas inteiros), RNA e proteínas.

Bancos de dados secundários do NCBI
 UniGene
 agrupa todas as sequencias parciais do transcriptoma de um organismo
em aglomerados ou clusters, onde cada aglomerado representa a
sequencia consenso de um gene.
 Banco de dados RefSeq
 reúne somente as sequencias de referência, ou seja, a mais
representativa sequencia de um transcrito, editada e inspecionada por
um curador. É, frequentemente, o melhor banco de dados para se
evitar a redundância natural num universo com tantas informações.
 OMIM (Online Mendelian Inheritance in Man)
 que foi criado para catalogar todos genes e alelos relacionados a
doenças e outras características humanas, bem como proporcionar um
detalhamento técnico e bibliografia referente a cada característica.

Ferramentas para analise de dados no GenBank
 A ferramenta mais popular de comparação de sequencias de DNA com os bancos
de dados genômicos é o BLASTBLAST ou Basic Local Alignment Search Tool.
 Através deste algoritmo podemos comparar uma sequencia de DNA ou proteína
(Query) qualquer com todas sequencias genômicas de domínio público.
 O programa BLAST não procura conduzir uma comparação da extensão total dasO programa BLAST não procura conduzir uma comparação da extensão total das
moléculas comparadas, mas apenas identificar, no banco de dados, a presença demoléculas comparadas, mas apenas identificar, no banco de dados, a presença de
uma sequencia suficientemente parecida com a pesquisada.uma sequencia suficientemente parecida com a pesquisada.
 Descarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança daDescarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança da
região de homologia detectada até não mais conseguir.região de homologia detectada até não mais conseguir.
 O resultado desta busca, que é feita no GenBank ou em várias de suas subdivisões
(pode-se facilmente limitar a pesquisa a sequencias de um dado organismo, por
exemplo), retorna aquelas sequencias (DNA ou proteínas) depositadas (depositadas (Subject)Subject) com
maior homologia.

Banco de Genes
 Um dos grandes desafios é o desenvolvimento de procedimentos
pelos quais esses dados podem ser “inseridos” e "extraídos" em
bancos de dados secundários.
 Ferramentas desenvolvidas recentemente incluem:
 Bancos de genes classificados de acordo com sua história evolutiva
(COG-NCBICOG-NCBI),
 Algoritmos de comparação de genomas inteiros (ACT - ArtemisACT - Artemis
Comparison ToolComparison Tool),
 Ferramentas de busca de similaridade estrutural de proteínas,
independentemente da sequencia primária (VAST-NCBIVAST-NCBI), etc.

Mapas genômicos
 Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do
sequenciamento da bactériada bactéria Haemophilus influenzaeHaemophilus influenzae utilizando uma
metodologia de “tiro no escuro" (do inglês shotgunshotgun).
 Esta estratégia envolve o sequenciamento totalmente ao acaso, para posterior
montagem numa sequencia contígua, ou contigcontig (figura 2)
 Tem-se mostrado extremamente útil para o sequenciamento de genomas simples,
como o de bactérias e em genomas complexos, como o da drosófila (Adams et al.
2000) e do homem (Venter et al. 2001).
 O sequenciamento executado pelo consórcio público do genoma humano
também teve uma porção shotgun.
 Fragmentos grandes de DNA clonados em BAC (cromossomos artificial decromossomos artificial de
bactériabactéria), de cerca de 150 mil pb, previamente mapeados em lugares
específicos dos cromossomos (figura 3).
 Enviados para centros de sequenciamento ao redor do planeta e, em cada centro,
fragmentos pequenos eram gerados por quebras físicas e sequenciados no escuro,
com uma cobertura de até dez vezes.

Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC

Processo Shotgun
 Contigs são montados e geram a sequencia do grande fragmento e a informação é
devolvida para a montagem final do genoma.
 Processo Shotgun utilizado pela empresa Celera foi diferente:
 o genoma é fragmentado em pedaços de 2 mil, 10 mil e 50 mil nucleotídeos,
após são clonados, sequenciados as extremidades das moléculas.
 Cada extremidade sequenciada encontra alguma sobreposição com alguma outra
sequencia da coleção, mas sabendo-se a sequencia das outras extremidades destas
duas moléculas, é possível conferir duplamente o resultado das sobreposições.
 As moléculas longas funcionam como âncoras, onde as extremidades das moléculas
maiores podem ser utilizadas não apenas para comprovar a montagem mas
também para ligar e ordenar contigs bem como direcionar o sequenciamento para
algumas áreas de descontinuidade entre os contigs.

Análise e Montagem das Sequencias
Sequencias shotgun analisadas Phred, Phrap e Consed
 Resultado: Sequencias ordenadas com consenso formam um “CONTIG”

Obtenção de Sequencias geradas
pelo MegaBace 10
 Base calling -Base calling - Dados brutos (medidas analógicas) de saída do seqüênciamento
 PHRED:PHRED: Transforma os dados brutos em sequencias de bases, atribuí valores de
qualidade a cada base na sequencia e gera arquivos de saída FASTA e PHD
 PHRAP:PHRAP: Leitura Montagem dos pequenos fragmentos de DNA sequenciados em
seqüências maiores: CONTIG
 CONSED:CONSED: Visualização e edição das montagens das seqüências de alta
qualidade

Base CallingBase Calling
Phred : http://www.phrap.com/phred/
 Lê o arquivo do cromatograma da sequencia de DNA e analisa os picos para
descrever as bases, associando um valor de qualidade para cada base descrita

Valores de qualidade gerados pelo PHRED
 Arquivos de sequencias de DNA analisados pelo phred:
 Cada base é assinada um valor de qualidade, o qual é uma estimativa da
probabilidade de erro para essa base.
 Bases com um valor de qualidade de 20 são consideradas com um alto valor de
qualidade:
 q = -10 log10(pe) onde pe= erro estimado
 q20 = 1/100 probabilidade de erro
 q30= 1/1000 probabilidade de erro
 q40= 1/10000 probabilidade de erro

Anotação de Genes
 Anotar é postular a
função ao produto de
um ORF
 Utilizam-se diversos
programas de
comparação de dados
genéticos conhecidos

Montagem de DNA
 Ordenação dos
trechos de DNA
sequenciados para
obtenção da
sequencia original
 Inclui verificação de
qualidade de bases,
marcação de
vetores,
comparação entre
clones e formação
de contíguos ate se
obter o final

Mascaramento de Vetores
 Mascaramento das regiões que representam, normalmente, partes dos vetores de
clonagem onde as sequencias de interesse foram inseridas ou pedaços de DNA
adaptadores utilizados durante a construção das bibliotecas

Montagem feita pela superposição
 Para executar essa montagem feita pela superposição das sequencias dos
vários clones, novas ferramentas da bioinformática foram construídas.
 Duas dessas ferramentas, o PHRED e o PHRAPPHRED e o PHRAP, possibilitam a análise das
milhares de sequencias de DNA geradas pelo sequenciador automático
(Figura 4).
 PHRED - verifica a qualidade do sequenciamento de cada base das várias
sequencias e junto ao PHRAP faz o alinhamento de todos os clones,
construindo uma sequencia contínua, ou contig.
 No final, váriosvários contigscontigs irão compor um grandeirão compor um grande contigcontig que pode ser a fita de
DNA completa de um cromossomo de bactéria, que é na maioria dos casos o
seu genoma completo.
 Para a montagem final várias outras ferramentas foram desenvolvidas para
manipulação e ordenamento de grandes contigs, bem como a visualização
do mapa final com toda a anotação funcional (Ex: Mummy e Assembler do
TIGR).

 Nos eucariotos, cada
cromossomo possui uma
molécula de DNA e, como
humanos têm 24 tipos de
cromossomos (1 a 22, X e Y),
deve-se sequenciar
completamente 24 dessas
moléculas, avançando-se
muitas vezes por longos
trechos de DNA repetitivo,
que são praticamente
impossíveis de sequenciar
com perfeição.

Alinhamento de Sequencias
 Determinar se as sequencias apresentam similaridade.
 Uma similaridade significativa é um forte argumento para homologia.
 Definição dos termos :
 SimilaridadeSimilaridade : é uma medida da qualidade do alinhamento entre as
sequencias, baseada em algum critério de comparação.
 HomologiaHomologia : refere-se à relação evolutiva entre as sequencias.
 Genes Homólogos :Genes Homólogos :pode ser divididos em: ortólogos e parálogos

Genes Homólogos
Figura 2. Representação dos genes Hox em
drosófila com seu posicionamento no DNA
e seus respectivos locais de expressão
Cada animal possui um "Kit de ferramentas" que, quando unidos, são capazes
de construir um animal. Não importa seu tamanho nem sua complexidade,
todos animais são definidos a partir de um pool gênico compartilhado, com
pequenas alterações, cuja expressão diferencia-se por sua ativação ou
desativação em determinadas espécies, e por pequenas mutações que
podem ocorrer durante a história evolutiva.

Distinção entre ortólogos e parólogosDistinção entre ortólogos e parólogos
Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.

Anotação
 Postular função para produto de gene
 Predizer estruturas do genoma e suas funções
 Anotam-se:
 Genes que codificam proteinas
 tRNAs
 rRNAs
 ORFs hipotéticos
 Clusters de GC
 Repetições
 GCsKew
 Codon usage
 Promotores

Para que serve o pacote BLAST?
 São utilizados para buscas por similaridade de sequencias efetuadas contras bancos
de dados de DNA e proteína;
 Comparam proteínas com proteínas, DNA com DNA,
 Proteína com DNA ou DNA com proteínas;
 As sequencias de DNA utilizadas na comparação usualmente são traduzidas antes da
comparação;
 Utilizam valores limites (thresholds) que podem ser ajustados para alterar a velocidade e
probabilidade;
 O pacote pode utilizar várias matrizes de substituição como Blosum( Blocks Substitution
Matrix) 62 ou PAM (Percent Accept Mutation) 250.

BLAST
Basic Local Alignment Search Tool - Ferramenta utilizada para realização
de alinhamento local entre sequencias;
 É um algoritmo heurístico baseado no algoritmo de Smith-Waterman;
 É a ferramenta mais utilizada para realizar busca de sequencias contra banco de
dados.
 • Quais as estratégias utilizadas pelo BLAST ?
 Calcula similaridade de sequencias;
 Executa alinhamento local;
 Utiliza busca por palavras (“words”) ao invés de buscas por caracteres individuais (N ou P);
 Utiliza cálculos estatísticos para validação do resultado.

Anotação BLAST
Basic Local Aligment Search Tool
 Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410)
 Implementações: NCBIBLAST e WU-BLAST
 Acesso via web / local
 Consulta de sequencias em BDs biológicos
 Alinhamento, similaridade e homologia

Bancos de dados BLAST
www.ncbi.nlm.nih.gov/BLAST/
 De acordo com o tipo de dados em que se esteja interessado existem vários
bancos de dados contra os quais a sequencia de busca pode ser comparada :
 Sequencias caracterizadas de DNA ou proteína;
 Sub-DBs especializados;
 Genomas completos ou cromossomos;
 DBs definidos pelo usuário (cópia local).

BLASTBLAST
 Várias regiões de DNA podem ser anotadas através do BLAST, cujo resultado
pode servir para atribuir uma função a qualquer segmento de DNA que
apresenta homologia significativa a outras sequencias de DNA ou proteínas
previamente depositadas no GenBank com função conhecida
experimentalmente (figura 1).
Figura 1 - Resultado da busca por similaridade
com o programa BLAST. O segmento de DNA
sequenciado (Query) demonstrou alta
homologia (100%) com o gene da Insulina
humana (Sbjct).

BLASTBLAST
 É interessante verificar que se utilizássemos um nucleotídeo, "A" por
exemplo, para pesquisar sequencias humanas, a chance de
encontrarmos uma região homóloga seria igual a 1 (100%).
 Se a nossa sequencia pesquisada fosse mais complexa, 144 bases
por exemplo, a chance de encontrarmos uma sequencia
perfeitamente idêntica seria pequena.
 O valor de "E"O valor de "E" , um parâmetro calculado pelo BLAST, expressa essa
dificuldade e, quanto menor seu valor, menor a chance de tal
comparação ter sido encontrada por pura coincidência.

Modalidades de BLAST
 A mais curiosa e de grande importância na descoberta gênica é aquela onde
tanto a Query como a base de dados (Subject) são sequencias detanto a Query como a base de dados (Subject) são sequencias de
nucleotídios.nucleotídios.
 Antes de verificar a homologia, são feitas as seis traduções possíveis de cada
sequencia de nucleotídeos, ou seja, tanto a sequencia pesquisada quanto
cada uma das presentes na base de dados são transformadas em seis
proteínas (iniciando pela base 1, 2 ou 3 de cada fita).
 tBLASTxtBLASTx, permite que seja retornado o par proteína Query - proteína Subject e é
muito válida pois as proteínas de dois organismos são mais parecidas entre si
que os nucleotídios que as codificam.
 Nesta análise, apenas uma das seis leituras é de significado biológico, as demais
geram resultados que são desprezados. conservadas.

Modalidades do BLAST
 tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como por
exemplo na identificação da subunidade catalítica da telomerase
humana assim que tal enzima foi identificada no protozoário Euplotes
(Meyerson et al. 1997).
 BLASTn,BLASTn, buscam homologia entre sequencias de nucleotídeos
 BLASTpBLASTp, buscam homologia entre sequencias de proteínas
 BLASTxBLASTx, Buscam homologia entre sequencias de nucleotídeos e proteínas
 PSI-BLASTPSI-BLAST, que em uma primeira busca encontra as proteínas mais
homólogas à pesquisada - Query; procede identificando as regiões
conservadas dentre os melhores resultados da pesquisa e, em buscas
subsequentes, mascara as regiões não conservadas da Query e pesquisa
levando em conta apenas as regiões conservadas.

Anotação BLAST
 BDs – nucleotídeos, proteínas, domínios, genomas,
específicos, dados particulares
 BLASTp – proteina / proteina (distantes)
 Blastn – nt / nt (próximos)
 Blastx – nt traduzido / proteínas (novas sequencias)
 Tblastn – proteína / nt traduzido( regiões não anotadas)
 Tblastx – nt trad / nt traduzido (ESTs)

Modalidades do BLAST
 Input (Entrada do Programa)
 Query sequence (sequencia de busca)
 Subject (Banco de dados de sequencias biológicas)
 • Output (Saída do Programa)
 Uma lista ordenada de “hits” contendo sequencias do banco de
dados que possuem similaridade local com a
 sequencia de busca (da qual a função desconhecida da
sequencia de busca pode ser inferida).
 Significância estatística de cada “hit”

 Query= formato da seq de entrada;
 BD= formato das seqs do BD;
 nt (trad)= seq em nt traduzida pelo programa;
 Compara= o que é comparado, nt (nucleotídeo) ou aa (aminoácido);
 Programa= um dos cinco principais tipos de blast.

Anotação BLAST nts (nucleotídeos)
 Vs. ntVs. nt
 MEGABLAST – identifica as sequencias
 BLASTn – identifica a sequencia ou encontra similaridade
 Tblastx – comparação de proteínas (nts traduzidos)
 Vs. ProteínaVs. Proteína
 Blastx – comparação de proteinas (nts traduzidas)
 Pequenas sequencias de nt
 Search for short, nearly exact matches – busca para primers ou
motivos

Anotação BLAST aas (aminoácidos)
 Vs. ProteínasVs. Proteínas
 Blastp – identifica a sequencia ou encontra similares
 PSI-BLAST – encontra membros da família da proteína
 PHI-BLAST – encontra proteínas similares a padrão
 Domínio ConservadoDomínio Conservado
 CD-search – encontra query
 CDART – encontra query e busca outras

Anotação BLAST aas (aminoácidos)
 Vs. ntVs. nt
 Tblastn – busca proteínas similares
 Pequenas sequencia s de proteínas
 Search for short, nearly exact matches – busca para
motivos
 Especializadas (nt ou proteínas)Especializadas (nt ou proteínas)
 Blast 2 sequences
 BDs específicos (genomas)

PSI-BLAST
Position-Specific Iterated BLAST
 Executa um BLAST normal para encontrar no DB um conjunto de sequencias
relacionadas (um critério de corte de E-value é utilizado);
 Alinha essas sequencias para criar uma nova matriz de substituição P1 que é
chamada de “Position Specific Scoring Matrices” (PSSMs);
 Depois utiliza interativamente a nova matriz para encontrar novas seqüências, construir
uma matriz P2 e executar a etapa 2 novamente;
 O número de iterações é definido pelo usuário.

PHI-BLAST (Pattern-Hit Initiated BLAST)
 Pesquisa que combina a busca por expressões regulares com
alinhamento local em torno da expressão regular encontrada.
 – Procura por sequencias em um banco de dados que contenham o
motivo estrutural dado pela expressão e, ao mesmo tempo, são
homólogas à sequencia query nas vizinhas do motivo estrutural.
 – Muito similar ao PSI-BLAST, exceto que a sequencia query é primeiro
pesquisada por um padrão fornecido pelo pesquisador.

Anotação BLAST Alinhamentos
 Query / subject
 Low escore filter
 Gráfico
 Lista de alinhamentos
 Score e E-value
 Alinhamentos
 Identities
 Posição de inicio e fim

Anotação de tRNAs
 Programa tRNAscan-SE
 tRNAscan – COVE
 Show Structure
 TRNAscan-SE
 Servidor Web: http://www.genetics.wustl.edu/eddy/tRNAscan-SE/
 Lowe, T.M. & Eddy, S.R. (1997). tRNAscan-SE: a program for improved detection of
transfers RNA genes in genomic sequence. Nucleic Acids Research 25: 955-964.

Anotação rRNAs
rRNAs
Blast n
Estrutura secundaria

Anotação repetições
 Programa Tandem Repeat FinderPrograma Tandem Repeat Finder
 Programa REPuter
 Foward vs. Foward (F) – tandem
 Forward vs. Reverse (R)
 Forward vs. Complemt (C)
 Forward vs. Reverse complemet (P)

Anotação Conteúdo GC
 GC
 Clusters de GC
 Porcentagem de GC
 GC skew – (G-c) / (G + C)
 GC skew cumulativo

Anotação Genômica e Predição de GenesAnotação Genômica e Predição de Genes
 O processo de anotação genômica envolve a atribuição de
funções e identificação de padrões e de genes na sequencia
linear do DNA obtida do sequenciamento.
 Para se fazer a predição de genes vários parâmetros podem
ser avaliados tais como a existência de sequencias no DNA
que possam funcionar como promotores seguidas por
sequencias que possam gerar uma proteína funcional, ou que
tenham similaridade com genes conhecidos, etc.

Anotação Genômica e PrediçãoAnotação Genômica e Predição
de Genesde Genes
 Diferentes algoritmos (Ex: GenScan) empregam processos estatísticos diversos para se fazer
a busca por ORFsORFs (Open Reading Frames) ou fases de leitura aberta do código genético,
identificadas por um códon iniciador e um terminador, que correspondem a sequencias
com possíveis regiões codificadoras.
 Oorrência no genoma de ORFs superiores a 100 bases é um evento raro, já que um dos 64
códons (ATG) abre a fase de leitura e três são os terminadores (TAA, TAG e TGA), com alta
probabilidade (3/64)
 Programas que detectam o uso não aleatório de códons (codon usagecodon usage), o qual é típico
para cada organismo.
 Nos projetos de análise do transcriptoma frequentemente o códon iniciador nãonão está
presente e programas de análise do codon usage podem auxiliar no reconhecimento da
fase de leitura da porção codificadora.
 O programa ESTScan é um dos mais usados para esses fins.

Genes Hipotéticos
 O conhecimento prévio da proteína e a sua função em qualquer outra espécie
facilita bastante o processo de anotação de genes.
 Grande parte dos genes são ainda hipotéticos, isto é, não se conhece a funçãonão se conhece a função
biológica destas sequencias.biológica destas sequencias.
 Exemplo, na bactéria Escherichia coli, na planta Arabidopsis thaliana e na mosca
das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados não
possuem produto gênico ou função conhecida.
 Muitos dos supostos "genes hipotéticos" serão futuramente descartados enquanto
outros segmentos gênicos serão identificados após terem passado
desapercebidos pelos atuais algoritmos de predição gênica.
 Aparente paradoxo resulta do fato de que não existe umaAparente paradoxo resulta do fato de que não existe uma
identificação inequívoca de um gene.identificação inequívoca de um gene.

Genoma Humano
 Para o genoma humano acreditava-se até bem pouco
tempo em um número estimado ao redor de 70-100 mil genes
que foi reduzido para 30-40 mil genes com a publicação dos
primeiros rascunhos de nosso genoma em 2001 (Lander et al.
2001 e Venter et al. 2001).
 Para facilitar a identificação e classificação funcional dos
genes foi criado o consórcio Gene OntologyGene Ontology que pretende
fornecer um vocabulário padronizado para a descrição dos
produtos gênicos.

Análise de Transcriptomas
 O estudo do transcriptoma de cada organismo é de grande importância para a
identificação de genes, mas também incorpora informações sobre o
funcionamento do seu genoma.
 As sequencias produzidas pelos projetos de sequenciamento do transcriptoma
constituem-se em evidência direta da existência de genes com sua determinada
ordem de éxons.
 A análise de transcriptomas de diferentes espécies, inclusive a humana, tem
evidenciado uma altíssima frequência de processamentos (splicing) diferenciaisaltíssima frequência de processamentos (splicing) diferenciais
dos transcritos primários.dos transcritos primários.
 Neste caso, um gene pode apresentar uma grande variação funcional devido
simplesmente ao sorteio de éxons promovido pelo processamento diferencial.

Análise de Transcriptomas
 É necessário sequenciar completamente todos os genes de um tecido ou
organismo.
 Grande parte dos genes podem ser identificados através da análise deGrande parte dos genes podem ser identificados através da análise de
pequenas sequencias que funcionam como etiquetas.pequenas sequencias que funcionam como etiquetas.
 Chamadas ESTs, ou Expressed Seqüence Tags, são resultado do sequenciamento
parcial de cDNAs (figura 6).
 O objetivo das ESTsESTs é identificar a presença de genes expressos em um
transcriptoma, associando a etiqueta ao gene (e sua função) através um
programa tal como o BLAST que faz busca por homologias.
 As sequencias parciais (ESTs) se originam de ambas as extremidades do cDNA,
embora alguns projetos prefiram a extremidade 3' por facilitar a geração de
sequencias consenso através do agrupamento de vários ESTs, enquanto outros
escolhem a extremidade 5' por estar mais próxima da região codificadora da
proteína, o que facilita a identificação por homologia.

ORESTES, deORESTES, de Open Reading frames ESTsOpen Reading frames ESTs
 Tecnologia desenvolvida no Brasil (Dias-Neto et al. 2000) permite o
sequenciamento da região central dos mRNAs.sequenciamento da região central dos mRNAs.
 A tecnologia, denominada ORESTES, de Open Reading frames ESTsORESTES, de Open Reading frames ESTs (figura 6)
baseia-se na amplificação de cDNAs por PCR aleatório cujos produtos são
utilizados para gerar uma biblioteca.
 O sequenciamento desta biblioteca, contendo fragmentos aleatórios derivados
de diferentes regiões de cada mRNA, favorece o reconhecimento da função do
transcrito por pesquisa de homologia, pois incorpora mais frequentemente a ORF
no transcrito do que as ESTs convencionais (figura 6).
 Os ORESTES foram responsáveis pela identificação de 219 novos genes no
cromossomo 22 humano (Souza et al. 2000) que não haviam sido detectados
previamente por outras análises bioinformáticas.
 Agrupamento de sequencias para geração de consensos é facilitado quando
são utilizados ESTs convencionais associados aos ORESTES.

 O transcriptoma pode revelar padrões
distintos de expressão gênica.
 Uma das maneiras de se evidenciar a
expressão gênica diferencial é analisar
a freqüência de ocorrência de um
determinado transcrito numa
preparação de cDNA de um tecido ou
fase de desenvolvimento.
 Apesar da construção de bibliotecas
de cDNA sempre trazer um viés,
incorrendo na redundância de alguns
transcritos, a análise de várias
bibliotecas permite alguma
aproximação do padrão de expressão
de um tecido ou fase de
desenvolvimento de um organismo.

Microarranjos
 Todavia, nada se compara à inversão introduzida pelos microarranjos
(microarrays ou biochips) na análise da expressão gênica.
 Em uma lâmina de microscópio podem ser depositados por um robô cerca de
10 a 100 mil sequencias de genes conhecidos.
 Sondas com fluorescências distintas podem ser preparadas a partir de mRNA
isolado de duas populações de células, normais ou transformadas por
exemplo, e através da análise da intensidade de hibridização pode-se
comparar a expressão gênica diferencial desses múltiplos genes em um tempo
extremamente reduzido.
 Ferramentas bioinformáticas, voltadas ao processamento de imagens em uma
escala micro e nanométrica, estão surgindo para analisar a expressão conjunta
de genes, detectadas em microarranjos.

SAGE
 Metodologia que incorpora um nova técnica de biologia molecular e
ferramentas de bioinformática para análise de expressão gênica diferencial.
 O SAGE, ou Serial Analysis of Gene ExpressionSAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), se
baseia no uso de pequenas sequencias chamadas tagschamadas tags (10 a 14 pb), únicas
de cada gene, que são obtidas por etapas de clivagens e ligações com o
cDNA e posteriormente co-amplificadas por PCR, formando um
concatâmero de tags.
 A quantificação da expressão gênica se dá pela análise do
sequenciamento dos concatâmeros através ferramentas específicas de
bioinformática.
 Desta forma puderam ser identificados vários genes provavelmente
relacionados ao processo de transformação celular nos tumores.

RNA-seq
 RNA-seq é uma abordagem recentemente desenvolvida,
para analisar o perfil de transcriptoma, que utiliza
tecnologias de deep-sequencing.
 O transcriptoma é o conjunto completo de transcritos
(RNAs) em uma célula, e sua quantidade, para um
estágio de desenvolvimento específico ou condição
fisiológica.
 * deep-sequencing = indica que a cobertura do processo é muito maior que o
comprimento da sequencia em estudo.

O entendimento do transcriptoma é essencialO entendimento do transcriptoma é essencial
para:para:
 Interpretar os elementos funcionais do genoma
 Revelar os constituintes moleculares de células e tecidos nos
diferentes estágios de desenvolvimento
 Compreender os elementos presentes no desenvolvimento
de doenças
 O transcriptoma pretende catalogar todos os tipos de
transcritos:
 mRNAs
 RNAs não codificadores
 pequenos RNAs.

Porquê estudar o transcriptoma?
 Para determinar a estrutura transcripcional dos genes, em termos de
seus sítios de início 5’ e final 3’;
 Padrões de splicing e outras modificações pós-traducionais;
 Quantificar os níveis de mudanças de expressão de cada transcrito
durante o desenvolvimento e sob condições diferentes.
 Encontrar microRNAs que possuem função reguladora
 Metagenômica
* Splicing = é um processo que remove os íntrons e junta os éxons depois
da transcrição do RNA. O splicing só ocorre em células eucarióticas, já
que o DNA das células eucarióticas não possui íntrons.

Criação da BibliotecaCriação da Biblioteca
Pode-se utilizar:
Todo o RNA da célula
Possui 90-95% de rRNA
Apenas mRNA selecionado pela cauda de poli-A
Perde-se microRNAs e mRNAs sem poli-A
Retirando o rRNA
Por hibridização com sequencias específicas ligadas a biotina que
são retiradas com esferas ligadas a streptovidina
Quebra por uma exonuclease que age sobre RNAs que possuem
fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato)
A remoção de rRNAs aumenta a detecção e a montagem de transcritos
raros.
Mas se o objetivo do estudo é a quantificação, é necessário uma
biblioteca não depletada.

Criação da BibliotecaCriação da Biblioteca
 Para a criação da biblioteca o RNA é transformado em cDNA
por uma transcriptase reversa
 Para não se perder a direcionalidade do transcrito podem ser
acrescentados adaptadores a uma extremidade do RNA
isso é muito importante no estudo de espécies de
genoma muito compactado onde o transcrito pode se
sobrepor em fitas opostas
 O RNA pode ser fragmentado antes da formação de cDNA
evitando a formação de estrutura secundária

 Cada molécula de cDNA, com ou sem amplificação, é
então sequenciada com um método de alto rendimento
para obter sequências curtas de um final (sequenciamento
single-end) ou de ambos os lados (sequenciamento pair-
end).
 As leituras são tipicamente 30 – 400 bp, dependendo da
tecnologia usada para sequenciamento do DNA.
 Para esse método tem se usado plataformas tipo: Illumina IG,
SOLiD e 454.

Considerações Prioritárias na montagemConsiderações Prioritárias na montagem
Para garantir uma alta qualidade na montagem do
transcriptoma, cuidados particulares devem ser
tomados nos experimentos de RNA-Seq.
• Na fase de análise de dados, as leituras curtas são pré-
processadas para remover erros de sequenciamento e
outros artefatos.
• As leituras são subsequentemente montadas nos RNAs
originais e então sua abundância é avaliada.

 Para evitar erros na montagem de RNA, é necessário
retirar o passo de amplificação por PCR
 Na etapa de amplificação por PCR alguns fragmentos
podem ser melhor amplificados que outros prejudicando os
dados
 Já é possível fazer o sequenciamento sem amplificação
usando as plataformas Helicos e Pacific Biosciences,
 O sequenciamento através de uma única molécula é
possível, porém essas tecnologias ainda sofrem com a
alta taxa de erro

Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma
 Baseado em três categorias :
- Etratégia baseada em referência
- Estratégia de novo
- Estratégia combinada

Estratégia baseada em ReferênciaEstratégia baseada em Referência
 Quando existe um genoma de referência o transcriptoma pode ser
construido a partir dele.
 Esse método inclui três passos:
 Alinhamento das leituras sobre o genoma de referência
 As leituras sobrepostas em cada locus são agrupadas para
construir um gráfico de todas as isoformas possíveis.
 O gráfico é analisado para resolver isoformas individuais.
 Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP

 Após as leituras serem alinhadas ao genoma, dois métodos são
usados para a construção dos gráficos:
- Cufflinks - cria um gráfico de sobreposição de todas as leituras
que alinham com um único locus para montar isoformas
encontrando o mínimo de transcritos que explicam os introns
dentro da leitura.
- é mais conservativo na escolha de quais os transcritos são re-
construidos
- Scripture - cria um gráfico que une cada base de um
cromossomo e adiciona nas laterais (conexões) entre as bases se
existe uma leitura que liga duas bases.
- pode produzir um grande conjunto de transcritos de um locus.

Vantagens
 Pode montar transcritos de baixa abundância;
 Pode usar computação paralela
 Pode ser feita em máquinas com poucos gb de RAM;
 Descobrir novos transcritos que não estão em anotações já
existentes;
 Descarta artefatos e contaminantes (que não alinham)
 Usado para transcriptomas simples:
 bactérias, archeaeal, eucarióticos simples
 com poucos introns
 pouco splicing alternativo

Desvantagens
 Não é possível sem um genoma de referência;
 Depende da qualidade do genoma de referência ;
 Genomas podem não ser completos, ter regiões não agrupadas e
parcialmente montadas.
 Genes que se encontram muito próximos ou sobrepostos podem
ser interpretados com um único transcrito
 Não une leituras que esteja muito distantes no genoma ou em
cromossomos diferentes

EstratégiaEstratégia de novode novo
 Não utiliza um genoma de referência;
 Se utiliza da redundância das leituras para encontrar sobreposições
entre as leituras
 Programas usam o gráfico De Brujin para reconstruir transcritos de
uma ampla faixa de níveis de expressão e então processar a
montagem de contigs e remover redundancias.
 Semelhante à montagem de genoma

Vantagens
Não depende de um genoma de referência;
Pode providenciar um novo conjunto de dados de transcritos para
genomas que não apresenta alta qualidade;
Pode ser usado para encontrar transcritos exógenos ou que estão
faltando no genoma;
Não é influenciado por longos introns
Encontra transcritos trans-spliced, resultantes de rearranjos
cromossomais
Pode ser utilizado para o transcriptoma de organismos complexos

Desvantagens
 A montagem de organismos eucariotos complexos pode consumir muita
memória RAM
 Grande quantidade de dados
 Complexidade dos gráficos de Brujin nescessários para analizar os possíveis
splicings
 Consome dias ou semanasde processamento
 Exige maior cobertura(30x)
 Suscetível a erros de leitura, pode não diferenciar um erro do
sequenciamento de um splicing
 Trechos similares(como parálogos) ainda podem ser considerados um só
transcrito

Estratégia combinadaEstratégia combinada
• A combinação dos dois métodos pode ser utilizada
• O alinhamento tem a vantagem da sensibilidade
• O De Novo para encontrar transcritos novos e trans-spliced
• Realizando o alinhamento primeiro podemos descartar as sequências já
conhecidas
• Fazendo a montagem De Novo com uma quantidade muito menor de dados
• Quando o genoma de referência tem baixa qualidade a montagem De
Novo pode ser feita primeiro
• Os contigs e singlets são alinhados no genoma e as lacunas podem ser
preenchidas com informações do genoma

 Uma questão importante é a cobertura da sequência ou
a porcentagem dos transcritos pesquisados, os quais
implicam no custo.
 Grandes coberturas requerem mais sequenciamento.
 Em transcriptomas simples, como da levedura S.
cerevisiae, que não tem evidência de splicing
alternativo, 30 milhões de leituras de 35 nucleotídeos são
suficientes para observar a transcrição de mais de 90%
dos genes de células em crescimento sob uma condição
unica

RNA-seqRNA-seq
RNA-Seq revela a localização precisa dos limites da transcrição,
com a resolução base a base.
Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra
informação como 2 exons estão conectados, enquanto leituras
longas ou leituras curtas por pair-ends poderiam revelar
conectividade entre exons múltiplos.
Os resultados de RNA-Seq também mostram alto nível de
reprodutibilidade, para ambas as técnicas e replicatas biológicas.

Aplicações
 Descoberta de pequenos RNAs
 Quantificação da expressão em diferentes
momentos
 Fusão de genes em câncer
 Identificação de mutações
 Metagenômica

Nova Geração de Sequenciadores de DNA

Melhorias para o futuroMelhorias para o futuro
 Melhorias na anotação automática
 Embora não seja possível nem desejável eliminar a anotação
manual. Há alguns passos que podem ser melhorados na
anotação automática:
 Deteção de erros ortográficos comuns por exemplo ou inclusão de mais
informação disponível ou anotação com os termos GO
 Novos tipos de dados
 Dados de expressão de micro-arrays e RNA-Seq.
 Melhorias nos sofwares que permitam a visualização e
integração de todos estes dados são fundamentais.

Anotação molecular

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Anotação molecular

Similaire à Anotação molecular (20)

Plus de UERGS

Plus de UERGS (20)

Dernier

Dernier (20)

Anotação molecular

Notes de l'éditeur