1. O documento discute os principais bancos de dados biológicos e como acessar e recuperar informações deles.
2. É explicado como os bancos de dados primários armazenam e organizam sequências de ácidos nucleicos e proteínas.
3. São apresentados exemplos de como pesquisar e acessar informações em bancos de dados como NCBI, Ensembl, SGD e TAIR.
2. Introdução
• Tipos de dados relacionados a moléculas pra suporte a
pesquisa e aplicações em biologia, agricultura e
tecnologias entre outras.
• Conhecer a infraestrutura básica da bioinformática, em
termos dos sítios na web
• Conceitos básicos de recuperação de informação,
concluindo como formular consultas a banco de dados
• Desenvolver habilidades com os instrumentos de
pesquisa na web e em sítios específicos
• Aprender a pesquisar por informações especificas sobre
sequencias, estruturas, vias metabólicas, e realizar analise
com dados recuperados.
3. Como acessar e recuperar
informações dos bancos de dados?
• Todo banco de dados é composto por entradas (pacotes discretos e
coerentes de informação)
• Um software de recuperação de informação identifica entradas
relevantes para o seu interesse
• Para que a pesquisa seja bem-sucedida, seja o mais específico possível
• Se você procura uma albumina de galinha..
• Busque por Chicken AND albumin
• Se você for procurar primeiro por Chicken vão aparecer entradas que
não contêm informação sobre as albuminas (perda de tempo)
• Se você procurar por albumin vão aparecer entradas contendo a
informação sobre albuminas que não são necessariamente de galinha
(perda de informação)
4. Saiba o quê e aonde você está
pesquisando....
• Entrada: E. coli Escherichia coli
• E. Coli – Elisabetta ColiElisabetta Coli, pesquisadora do departamento de
psiquiatria, farmacologia, neurobiologia e biotecnologia.
5. Sede por conhecimento
• Talvez você não encontre o que você busca, mas se
encontrar.....
• Se encontrou provavelmente vai querer saber mais
• Exemplos:
• Achar genes homólogos ao que você buscou
• Referências bibliográficas sobre o gene
• Estrutura da proteína codificada por esse gene
6. Conexão entre os bancos de dados
(Interatividade)
• Achar genes homólogos ao que você buscou
•Conexão entre entradas do mesmo banco
(banco de dados de genes)
• Referências bibliográficas sobre o gene
•Conexão entre banco de dados de genes e banco
de referências
• Estrutura da proteína codificada por esse gene
•Conexão entre banco de dados de genes e banco
de estruturas de proteínas
7. Bancos de dados e o crescimento da informaçãoBancos de dados e o crescimento da informação
• Informação aumenta, os genes evoluem e os bancos
devem se adequar...e ..evoluir
• Aumento do recurso computacional para o arquivamento
e interpretação dos dados
• Aumento do número de bancos especializados
(“boutiques”)
• Surgimento dos sites “guarda-chuva” – tipo portal
• Aumento da interatividade
8. Exemplos de bancos de dados públicos
para biologia molecular
• Bancos de dados primários (sequencias de nucleotídeos)
• NCBI, EMBL, DDBJ
• Meta-databases
• ENTREZ
• Bancos de dados genômicos
• Ensembl, SGD, TAIR
• Bancos de dados de proteínas
• UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY
• Bancos de dados de estrutura de proteínas
• PDB
• Bancos de domínios e motivos proteicos
• PFAM, SMART, PROSITE, PRODOM, PRINTS
• Bancos de vias metabólicas
• KEGG, BioCyc
• Bancos de dados de expressão gênica
• ArrayExpress, GEO
• Bancos de ontologia
• Gene Ontology
9. Bando de Dados Primários
• Sequencias de ácidos nucleicos, incluindo genmas
completos
• Sequencias de aminoácidos de proteínas
• Estruturas de proteínas e ácidos nucleicos
• Estruturas cristalográficas de pequenas moléculas
• Funções de proteínas
• Padrões de expressão de genes
• Vias metabólicas e redes de interação e controle
• Publicações
10. 1. Bancos de dados primários
(sequencias de nucleotídeos)
• Arquivamento mundial de sequencias de ácidos nucleicos é uma parceria
entre:
• GenBank (National Center for Biotechnology Information - NCBI)(EUA)
• DDBJ (DNA Data Bank of Japan)
• EMBL Nucleotide DB (European Molecular Biology Laboratory - EBI)
• Consórcio International Nucleotide Sequence Database (INSD)
• Armazenam sequencias de nucleotídeos (DNA e RNA) coeltados de projetos
de genomas, publicções cientificas e depósitos de patentes
• Eles trocam informação e são fontes para outros bancos de dados
• http://www.ddbj.nig.ac.jp/
• http://www.ebi.ac.uk/embl/
• http://www.ncbi.nlm.nih.gov/
11. Banco de dados de ácidos nucleicos
• São coleções de registros ou entradas
• Cada entrada tem a forma de um arquivo texto contendo
dados e anotações para uma sequencia contigua única.
• Muitas entradas são reunidas a partir de diversos artigos
publicados que descrevem o fragmento sobreposto de
uma sequencia completa.
• Outras sequencias são genomas completos.
• As entradas tem um ciclo de vida no banco de dados, ou
seja, antes mesmo que esteja completa e verificada já é
depositada.
• Classes de entradas:
• Não anotada →Preliminar → Não revisada →Padrão
16. Tabela de características para o
gene do inibidor da tripsina
pancreática bovina
• FT (feature tables) – componente de
anotação específica para regiões
especificas, ex. sequencia
codificadoras (CDS):
• Tabela indica regiões:
• Executam ou afetam funções
• Interagem com outras moléculas
• Afetam replicação
• Estão envolvidas na recombinação
• São uma unidade repetitiva
• Possuem estrutura secundaria e terciaria
• São revisadas ou concluídas
17. National Center for BiotechnologyNational Center for Biotechnology
Information (ncbi)Information (ncbi)
OO NCBINCBI fornece acesso afornece acesso a
genomas completos de maisgenomas completos de mais
de 5.700 organismos.de 5.700 organismos.
Genomas significam tantoGenomas significam tanto
sequências completas desequências completas de
organismos quanto os queorganismos quanto os que
estão em processo deestão em processo de
sequenciamento.sequenciamento.
http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov
18. Acesso a Banco de Dados
• Bando de Dados de ácidos nucleicos e proteínas mantém recursos para
uma ampla variedade de mecanismos de recuperação de informação e
realização de analises
• 1. Categoria de possibilidades
• Recuperação de sequencias em banco de dados . Sequencias podem ser
convocadas com base nas características de suas anotações
• 2. Comparação de sequencias – pesquisa sobre homologias
• 3. Tradução das sequencias de DNA em sequencias de proteínas
• 4. Tipos simples de analise e predição de estruturas – ex. métodos
estatísticos para predição de estrutura secundaria de proteínas a partir
somente de sequencias
• 5. Reconhecimento de padrões – é possível pesquisar todas as sequencias
contendo um padrão , sitio de reconhecimento para enzimas.
• 6. Gráficos moleculares - mapeamento
19. ENTREZ
• O NCBI, mantém o sistema ENTREZ oferece acesso por meio das
seguintes divisões de banco de dados:
• PROTEINA
• PEPTIDEO
• Nucleotídeo
• GENE
• ESTRUTURA
• GENOMA
• POPSET – INFORMAÇÕES SOBRE POPULAÇÕES
• OMIM – ON LINE MEDELINA INHERITANCE IN MAN
• Pontos fortes dos sistema NCBI são as conexões entre os vários
banco de dados.
• Recuperação das sequencias e estrutura é chamado de Entrez.
20.
21.
22.
23. GenBank
• Genbank, ddBJ, EMBL
• Identificadores
• gI, accession number
• Formatos
• FASTA, GenBank
• http://www.ncbi.nlm.nih.g
ov/nuccore/187830767?
report=genbank&log$=seq
view
• >gi|187830767|ref|NM_000546.4| Homo sapiens
tumor protein p53 (TP53), transcript variant
1, mRNA
• GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAG
TTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGT
AGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG
CTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTG
CCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCG
TCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAAC
TACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAA
TGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCA
CTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)
>gi|187830767 numero geninfo, identificador atribuído
pelo NCBI para cada sequencia do seu bancode dados
ENTREZ,
O NCBI coleta sequencias a partir de varias fontes,
incluindo coleções de arquivos de dados primários e
pedidos de patentes.
Seus números gi fornecem um identificador, dotipo
guarda-chuva, comum econsistente, para as sequencias,
sobrepondo as diferente convenções dos bancos de dados
fonte.
sp|P00435 indica que o banco de dados fonteé o
SWISS-PROT, e o numero de entrada é P00435
24. BLAST databases
• Pept i de Sequence Dat abases
• Nr: Al l non- r edundant GenBank CDS t r ansl at i ons + Ref Seq Pr ot ei ns + PDB + Swi ssPr ot + PI R
+ PRF
• Ref seq: Ref Seq pr ot ei n sequences f r om NCBI ' s Ref er ence Sequence Pr oj ect .
• Swi ssprot : Last maj or r el ease of t he SWI SS- PROT pr ot ei n sequence dat abase ( no updat es) .
• Pat : Pr ot ei ns f r om t he Pat ent di vi si on of GenPept .
• Pdb: Sequences der i ved f r om t he 3- di mensi onal st r uct ur e f r om Br ookhaven Pr ot ei n Dat a
Bank.
• Mont h: Al l new or r evi sed GenBank CDS t r ansl at i on+PDB+Swi ssPr ot +PI R+PRF r el eased i n t he
l ast 30 days.
• env_nr: Pr ot ei n sequences f r om envi r onment al sampl es.
• Nucl eot i de Sequence Dat abases
• Nr: Al l GenBank + Ref Seq Nucl eot i des + EMBL + DDBJ + PDB sequences ( excl udi ng HTGS0, 1, 2,
EST, GSS, STS, PAT, WGS) . No l onger " non- r edundant " .
• ref seq_rna, ref seq_genomi c
• Est : Dat abase of GenBank + EMBL + DDBJ sequences f r om EST Di vi si ons
• est _human, est _mouse, est _ot hers
• gss: Genome Sur vey Sequence, i ncl udes si ngl e- pass genomi c dat a, exon- t r apped sequences,
and Al u PCR sequences.
• Pat : Nucl eot i des f r om t he Pat ent di vi si on of GenBank.
• Mont h: Al l new or r evi sed GenBank + EMBL + DDBJ + PDB sequences r el eased i n t he l ast 30
days.
• Dbst s: Dat abase of GenBank+EMBL+DDBJ sequences f r om STS Di vi si ons .
• Chromosome: A dat abase wi t h compl et e genomes and chr omosomes f r om t he NCBI Ref er ence
Sequence pr oj ect . .
• Wgs: A dat abase f or whol e genome shot gun sequence ent r i es.
• env_nt : Nucl eot i de sequences f r om envi r onment al sampl es, i ncl udi ng t hose f r om Sar gasso
Sea and Mi ne Dr ai nage pr oj ect s.
25. RefSeq
• Banco de dados de
sequências de referência
para genomas
• Apresenta uma única cópia
para cada gene no genoma
• É o verdadeiro NR
• Dividido em genoma, cDNA
e proteína (NC, NM e NP)
• Contém sequências de
splicing alternativo
28. UniGene
• Contém clusters de ESTs formados a
partir de similaridades usando o
algoritmo megaBLAST
• Reúne variantes de splicing no
mesmo identificador
• Cataloga variantes de splicing por
tecido
• Organização das sequências do
GenBank em um conjunto de
aglomerados
• Cada aglomerado do UniGene
contém as sequências que
representam um gene único
• E também informações
relacionadas, como em que tecidos
o gene é expresso, etc.
• E também onde está mapeado
32. 3 - Bancos de dados genômicos
• Coleção de informações sobre determinados genomas (quase
sempre organimos modelo).
• Dados de anotação vinculados a genome browse
• Iniciativa conjunta ente o EBI e o Sanger Center.
• Coleta e anotação de sequencias disponíveis de eucariotos,
tendo como foco principal o Homo sapiens.
33.
34.
35.
36. Busca por região no cromossomo 16Busca por região no cromossomo 16
37.
38. Ensembl fornece:Ensembl fornece:
-- Genomas completos de diversos
- Anotação de SNPs
- Alinhamento com sequencias homólogas de outros organismo
- Correlações com outros bancos de dados
39. SGD fornece:SGD fornece:
--Genoma completoGenoma completo
--Fenótipos de mutantes específicos paraFenótipos de mutantes específicos para
cada genecada gene
--Dados de expressão gênicaDados de expressão gênica
40.
41. TAIR fornece:TAIR fornece:
--Genoma completoGenoma completo
--Localização das inserções de T-DNALocalização das inserções de T-DNA
--Dados de expressão gênicaDados de expressão gênica
42. 4 - Bancos de proteínas
• Consórcio que visa fornecer anotação relevante e
curada de proteínas.
• Baseiam-se em dados de proteômica (principalmente),
genômica e transcriptômica.
43. Banco de dados de sequencias de
proteínas
• Três bancos de dados de proteínas
• Protein Information Resource National Biomedical
Research Foundation da Georgetown, University Medical
Center em Washington, DC, EUA;
• SWISS-PROT, Swiss Institute of Bioinformatics, Genebra
• TrEMBL, European Bioinformatics Institute em Hinxton,
Reino Unido.
• Como funciona:
• Proteínas anotadas são incluídas no UniProtKB-
SwissProt
• Traduções de genes depositados no EBI são incluídos
no UniProt-TrEMBL
44.
45.
46. Enzyme DB armazena as seguintes
informações:
• Numero EC:Numero EC: identificador numérico designado pela
Comissão de Enzimas (autorizada pela União
Internacional de Bioquímica e Biologia Molecular-
IUBMB)
• Nome recomendado; Nomes alternativos;
Atividade catalítica;Co-fatores; Ponteiros para
SWISS-PROT e outros banco de dados; Ponteiro
para doenças associadas coma deficiência da
enzima.
• Caracteres:Caracteres:
• ID = identificação (identification)
• DE = descrição (description) = nome oficial
• NA = Nome alternativo (alternative names)
• CA = atividade catalítica (Catalytic activity)
• CF = co-fatores (cofactor(s))
• CC = Comentários (Comments)
• DR = Referencia de dados (Database reference para
o SWISS-PROT)
47.
48. Anotação da sequencia
Vant agens do Uni Prot :Vant agens do Uni Prot :
- banco curado manual ment e
- cont ém mui t a i nf ormação sobre as
prot eí nas ( gl i cosi l ação, pont es
di ssul f et o, Sí t i os t ransmembrana)
- conect ado a out ros bancos de dados
de prot eí nas
49. PIR e os bancos de dados associados:PIR e os bancos de dados associados:
PIR-PSD -PIR-PSD -principal banco de dados deprincipal banco de dados de
sequencias de proteínas;sequencias de proteínas;
iProClassiProClass – fornece informações– fornece informações
abrangentes das propriedades deabrangentes das propriedades de
proteínas presentes no SwissProt;proteínas presentes no SwissProt;
PIRSF:PIRSF: bando de dados de anotação ebando de dados de anotação e
similaridade da entrada é conectada asimilaridade da entrada é conectada a
uma lista de sequencias similares comuma lista de sequencias similares com
base em relações evolucionárias quebase em relações evolucionárias que
permite a anotação de funçõespermite a anotação de funções
biológicas especificas e de funçõesbiológicas especificas e de funções
bioquímicas genéricas;bioquímicas genéricas;
RESID:RESID: banco de dados de modificaçõesbanco de dados de modificações
covalentes na estrutura de proteínas (ex.covalentes na estrutura de proteínas (ex.
ponte de dissulfeto (característicaponte de dissulfeto (característica
estrutural importante em proteínas)estrutural importante em proteínas)
50. Ferramentas de recuperação de
infromação do PIR
• Recuperar entradas especificas de
banco de dados
• Alinhamento par a par de sequencias
• PIRSF Scan: Compara uma sequencia
sonda com bando de dados PIRSF de
famílias de proteínas organizadas e
anotadas
• Text Search: pesquisa por texto em
banco de dados
• Peptide Search: pesquisa por
pequenos peptídeos (3 a 30 resíduos)
• Pattern Search: reconhecimento dos
padrões
• Related Sequences: identificação de
homologias
51. Expasy –Expasy – Expert Protein Analysis SystemExpert Protein Analysis System
• Sistema de análise e recuperação de informação de proteínas.
• Produz as anotações para o UniProtKB/SwissProt
• Possui uma série de ferramentas para análise de proteínas
• Conexão com SRS (sequence retrieval system) – sistema
integrado para recuperar informações de muitos banco de
dados de sequencias diferente e pata utilizar as sequencias
como entradas de ferramentas analíticas, como comparação e
alinhamento de sequencias.
• SRS pode pesquisas em torno de 140 banco de daos de
sequencias de proteínas e nucleotídeos, vias metabólicas,
estruturas 3D e funções, genomas, doenças e informações
sobre o fenótipo.
52.
53.
54.
55. 5 - Bancos de estruturas de proteínas e outras
macromoléculas
• Anota, cataloga e distribui conjuntos de coordenadas
atômicas de macromoléculas
• Principal banco é Protein Data Bank (PDB) fornece:
• Detalhes experimentais sobre a geração da estrutura
• Estrutura de proteínas, ácidos nucleicos e carboidratos. -
• Atribuições da estrutura
• - Coordenações atômicas
• Links para outros bancos de dados
56.
57.
58.
59.
60. Informações que incluem na entrada
do Protein Data Bank
• Que proteína é o assunto da entrada, e a qual espécie ela pertence
• Quem determinou a estrutura, referencias para publicações
• Detalhes experimentais, qualidade dos resultados NMR
(Ressonância Magnética Nuclear) difração de raio X e estatísticas
estereoquímicas
• A sequencia dos aminoácidos
• Que moléculas adicionais aparecem na estrutura, incluindo co-
fatores, inibidores e solvente, como moléculas de água
• Atribuições de estrutura secundaria: hélice, folha
• Pontes de dissulfetos
• Coordenadas atômicas
61. 6 - Bancos de domínios proteicos
• Anotam e catalogam domínios ou motivos proteicos.
Fazem comparações entre sequencia de consulta e
banco de dados.
62.
63.
64.
65.
66. Famílias protéicas
• A maioria das proteínas pode ser agrupada em
famílias com base na similaridade entre suas
sequências
• Similaridade intra-espécies
• Evidência de ancestralidade comum
• Proteínas da mesma família costumam ter funções
moleculares e biológicas semelhantes → inferência
biológica
• Inferência de função
• Similaridade de sequência
• Análise filogenética
67.
68. Interpro
• Portal que inclui vários bancos de dados de domínios e
de estrutura de proteínas
69. Assinaturas ou domínios protéicos
• Obtidos através da análise de regiões que se mantém
constantes em grupos de sequências similares alinhadas
• Distingue membros de famílias dos não-membros
• Auxilia a atribuição de funcionalidades moleculares e biológicas
70.
71.
72.
73. 7 - Bancos de vias metabólicas
• Kyoto Encyclopedia of genes and Genome (KEEG) arquiva genomas individuais, produtos de
genes e suas funções, mas o seu diferencial principal esta na sua integração de informações
bioquímicas e genéticas.
• KEGG se concentra nas interações: associações de moléculas e redes metabólicas e
reguladoras
• Organiza em 5 tipos de dados :
• 1. Catálogos de compostos químicos em células vivas
• 2. Catálogo de genes
• Informações sobre moléculas ou sequencias especificas
• 3. Mapas de genomas
• Integra os genes de acordo com suas localização cromossômica
• 4. Mapas de vias
• Descrevem redes em potencial de atividades moleculares, tanto metabólicas como
reguladoras, possíveis cascatas metabólicas, alinha proteínas com enzimas dentro das
vias de referencias.
• 5. Tabelas de ortólogos
• Liga enzimas presentes em outros organismos, permite analise das relações entre as
vias metabólicas de diferentes organismos.
74.
75.
76. 8 - Bancos de dados de expressão
gênica
• - Banco de dados de depósito de dados de expressão
gênica em larga escala (ArrayExpress – somente
microarranjos)
• GEO database - Contém dados de experimentos de
microarray
77. COG
• Cluster of Orthologous Groups
• 66 genomas bacterianos
• Best Hits cruzados entre 3 organismos
• Genes bacterianos agrupados por função biológica
• KOG, eucariotos
78. Conclusões
• Há bancos de dados em bioinformática para
praticamente qualquer tipo de abordagem em
biologia molecular
• Stein, 2009
• O papel central da bioinformática na pesquisa
genômica moderna
• É preciso conhecer os serviços, mais cedo ou mais
tarde, você pode precisar