2. NCBI
NATIONAL CENTER FOR
BIOTECHNOLOGY
INFORMATION
Fue creado en 1988 con el fin de desarrollar
sistemas de información para la biología
molecular. Este centro contiene 35 bases de datos
que juntas mantienen 3.6 millones de registros.
Cada base de datos apoya el texto utilizando la
descarga en varios formatos y enlazando las bases
de datos usando palabras relacionadas.
3. Bases de datos sobre literatura
P U B M E D
C E N T R A L
Artículos completos.
7325415
registros
P U B M E D
Referencias/resume
nes científicos y
médicos.
33027761
registros
N L M
C A T A L O G
índice de colecciones
de NLM
1629799
registros
B O O K S H E L F
Libros y reportes
892126 registros
M E S H
Ontología utilizada
para los índices de
PubMed.
348370 registros
1 2 3 4 5
4. Bases de datos de
genomas y su
número de registros
4 D E S E P T I E M B R E D E L 2 0 2 1
La base de datos Nucleotide
almacena secuencias del GenBank y
RefSeq, mientras que BioSample tiene
descripciones de material de origen
biológico. Las funciones de estas bases
de datos incluyen clasificaciones
taxonómicas, información sobre
ensamblaje de genomas, proyectos de
secuenciación, etc.
N
u
c
l
e
o
t
i
d
e
B
i
o
S
a
m
p
l
e
S
R
A
T
a
x
o
n
o
m
y
A
s
s
e
m
b
l
y
B
i
o
p
r
o
j
e
c
t
500,000,000
400,000,000
300,000,000
200,000,000
100,000,000
0
5. Bases de datos de
genes
D E L N C B I
GEO Profiles
Perfiles de expresión de genes y su abundancia molecular
Gene
Colecciona información sobre los loci de los genes.
GEO DataSets
Estudios de genónmica funcional
PopSet
Secuencias de estudios filogenéticos o de población.
HomoloGene
Colección de genes homólogos para organismos
seleccionados.
6. Bases de datos de
proteínas
D E L N C B I
Secuencias de proteínas
agrupadas por identidad.
Secuencias de proteínas
agrupadas en clusters basados
en similitud.
Protein
Secuencias de proteínas del
GenBank y RefSeq
Identical Protein Groups
Protein Clusters
Estructuras biomoleculares
determinadas
experimentalmente.
Structure
Arquitecturas de dominios
conservados, HMMs y
BlastRules
Protein Family Models
Dominios conservados de
proteinas.
Conserved Domains
7. Bases de datos
clínicos
dbSNP: variaciones genéticas cortas.
dbVar: Estudios de variación estructural
del genoma.
ClinVar: Variaciones humanas de
significado clínico.
ClinicTrials.gov: Registro de estudios
clínicos y base de datos de resultados.
Bases de datos
de químicos
PubChem Substance: Sustancias
depositadas e información química.
PubChem Compound: Información
química con estructuras, información y
links.
PubChem BioAssay: Estudios de
bioactividad.
8. RefSeq database
Esta base de datos ha servido para almacenar genomas
de referencia anotados, que sean estables y validados,
además de transcritos y proteínas para organismos ya sea
virus, microbios, organelos, eucariotas....
Esto ha permitido a los investigadores enfocarse en las
secuencias representativas en contraste con la información
redundante que proporciona GenBank, y proporciona
secuencias específicas de referencia sin ambigüedad.
Los datos de RefSeq pueden encontrarse en otras bases
de datos como Nucleotide, Protein y BLAST, utilizando esa
palabra clave.
9. Es una base de datos pública de secuencias
nucleotídicas apoyada en información bibliográfica y
por anotación biológica.
Le asigna a cada registro un número de acceso que
puede ser utilizado en varias bases de datos. Este
permanece constante.
Esta base de datos divide las secuencias según su
origen taxonómico usado para extraer la
información.
GenBank database
10. ¿Por qué usar cada uno?
S E G Ú N E L O R G A N I S M O Q U E S E D E S E A I N V E S T I G A R E S I M P O R T A N T E E L E G I R L A B A S E
D E D A T O S I N D I C A D A .
GenBank contiene secuencias de un amplio número de organismos. Se pueden encontrar secuencias
de cualquier organismo que esté registrado (121,461 especies)
RefSeq está limitado a organismos que tienen información suficiente disponible (aprox 504 mil
especies).
GenBank almacena secuencias redundantes (secuencias idénticas con distintos números de registro)
mientras que RefSeq no.
Se puede decir que RefSeq tiene información más estable, pero si se busca información sobre un
organismo que no sea popular o de importancia biotecnológica, es posible que GenBank sea la mejor
opción.
11. Literatura consultada
Coordinators, N. R. (2016). Database resources of the national
center for biotechnology information. Nucleic acids research,
44(Database issue), D7.
O'Leary, N. A., Wright, M. W., Brister, J. R., Ciufo, S., Haddad, D.,
McVeigh, R., ... & Pruitt, K. D. (2016). Reference sequence (RefSeq)
database at NCBI: current status, taxonomic expansion, and
functional annotation. Nucleic acids research, 44(D1), D733-D745.
Sayers, E. W., Cavanaugh, M., Clark, K., Ostell, J., Pruitt, K. D., &
Karsch-Mizrachi, I. (2019). GenBank. Nucleic acids research, 47(D1),
D94-D99.