Este documento proporciona información sobre fuentes de datos para genes y proteínas. Describe algunas de las bases de datos biológicas más importantes como GenBank, EMBL y Swiss-Prot, las cuales almacenan secuencias nucleotídicas y de proteínas. También explica los formatos utilizados para almacenar secuencias de ADN y proteínas, incluyendo los campos de encabezado, características y la secuencia en sí.
1. Fuentes de información para genes y proteínas Felipe Riveroll Aguirre Departamento de Bioquimica Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional Plantel Zacatenco friveroll@cinvestav.mx
4. Información biológica Cientos de miles de especies. Millones de artículos en revistas científicas Información genética Nombre de genes Fenotipo de mutantes Ubicación de los genes/mutaciones en cromosomas Linkage (distancia entre genes) friveroll@cinvestav.mx
5. In 1981 the EMBL NucleotideSequence Data Library iscreated. Version 2 wascomposed of 811 secuences, around 1 million bases introducedbyhand.
6. ¿Qué es una base de datos? Una colección de datos: Estructurada Que puede explorarse (indexada) ->Tabla de contenidos Periódicamente actualizada ->nueva edición Referencias cruzadas ->links con otras db Incluye también herramientas asociadas (software) necesarias para el acceso/búsqueda, actualización, inserción de información, borrado de información. friveroll@cinvestav.mx
7. ¿Porqué bases de datos biológicas? Crecimiento exponencial de los datos biológicos. Datos (secuencias de ácidos nucléicos (ADN, ARN), estructuras 3D, geles 2D, analisis MS, microarreglos, interaccion proteína-proteína...) ya no son publicados de forma convencional, pero son mandados a db. Herramientas convencionales, para la investigación biológica. friveroll@cinvestav.mx
10. Las 10 bases de datos más importantes* GenBank/DDJB/EMBL www.ncbi.nlm.nih.govNucleotidesequences Ensemblwww.ensembl.orgHuman/mouse genome PubMedwww.ncbi.nlm.nih.govLiteraturereferences NR (entrez protein) www.ncbi.nlm.nih.govProteinsequences Swiss-Protwww.expasy.orgProteinsequences InterProwww.ebi.ac.ukProteindomains OMIM www.ncbi.nlm.nih.govGeneticdiseases Enzymeswww.expasy.orgEnzymes PDB www.rcsb.org/pdb/Proteinstructures KEGG www.genome.ad.jpMetabolicpathways friveroll@cinvestav.mx *De acuerdo a “Bioinformatics for Dummies”
11. Tipos de bases de datos biológicas Primarias (all-inclusive): Contienen resultados experimentales de las secuencias (nucleótidos o proteínas), junto anotaciones (información relativa a su función, bibliografía, referencias cruzadas a otras bases de datos, etc.). Secundarias o bases de datos de familias de proteínas: Resumen los resultados de análisis de bases de datos primarias para proveer información adicional no presente en las fuentes primarias. friveroll@cinvestav.mx
13. Contenido mínimo ideal para la entrada de una secuencia en una DB Secuencias Número de acceso (AC) (identificador único) Datos taxonómicos Referencias ANNOTATION/CURATION Palabras clave Referencias cruzadas Documentación
14.
15.
16. ¿Quéesunasecuencia? Secuencia de ADN, de doblecadena, antiparalela Escritaconvencionalmente de 5’ a 3’ 5’-ATGAGTACCG CTAAATTAGT TAAATCAAAA-3’ 3’-TACTCATGGC GATTTAATCA ATTTAGTTTT-5’ Secuencia de ARN, una sola cadena, U en vez de T 5’-AUGAGUACCG CUAAAUUAGU UAAAUCAAAA-3’ Secuencia de proteína Escritaconvencionalmente de N-terminal a C-terminal Código de 3 letras: Met Ser Thr Ala Lys Leu Código de 1 letra: MSTAKLVKSKATN Las secuenciasusualmente son escritas en tipografías de anchofijo, tales como Courier. Times Courier AGCGGGCGG AGCGGGCGG ATCGTTCTG ATCGTTCTG
18. Número de acceso (AC) Aunque las secuencias primarias son las mismas para las tres bases de datos, cada base de datos es libre de almacenarlas, clasificarlas y presentarlas como mejor le acomode. Para facilitar el intercambio y acceso a las secuencias entre las diferentes bases de datos, la INSDC estableció que cada secuencia tuviera un Número de Acceso único e inmutable. El número de acceso es un identificador único para una secuencia determinada que no cambia y se mantiene entre todas las bases de datos. El número de acceso generalmente está compuesto por una letra y cinco dígitos (A12345) o 2 letras y 6 dígitos (AB123456).
19. La agitada vida de una secuencia cDNA's, EST's, genes, genomas, ... EMBL GeneBank DDBJ http://www.insdc.org/
20. EMBL/GenBank/DDBJ Sirven como archivos Contienen todas las secuencias públicas derivadas de: Proyectos genoma Centros de secuenciación Científicos Oficinas de patentes Actualmente 1.6 X 109 secuencias, ~ 2.7 X 1011 Secuencias de >80,000 especies distintas
21. >80,000 especies, pero... Humano/Ratón/Rata Organismos con mayor redundancia Nuevos proyectos: Secuencias ambientales (sin información taxonómica) http://www.ebi.ac.uk/embl/Services/DBStats/
22. Formato de las bases de datos de DNA Las secuencias de DNA almacenadas en las tres bases de datos tienen un formato diferente, aunque en general, todas las secuencias se componen de dos partes diferentes: Comentarios Secuencia propiamente dicha Aunque la información que se ofrece de una secuencia en las tres bases de datos es la misma, la forma en que esta se organiza difiere.
23. FASTA Diseñado por William Pearson, como un fomatotexto simple, parasecuencias de ADN y proteínas. El formato FASTA esahora universal paratodaslas bases de datos y software paramanejo de secuencias. El encabezado incluye una línea con “>” precediendo a la descripción de la entrada y las líneas siguientes con la secuencia en particular. >URO1 uro1.seq Length: 2018 November 9, 2000 11:50 Type: N Check: 3854 .. CGCAGAAAGAGGAGGCGCTTGCCTTCAGCTTGTGGGAAATCCCGAAGATGGCCAAAGAAACTCAACTGTTCGTTGCTTCCAGGGCCTGCTGATTTTTGGAAATGTGATTATTGGTTGTTGCGGCATTGCCCTGACTGCGGAGTGCATCTTCTTTGTATCTGACCAACACAGCCTCTACCCACTGCTTGAAGCCACCGACAACGATGACATCTATGGGGCTGCCTGGATCGGCATATTTGTGGGCATCTGCCTCTTCTGCCTGTCTGTTCTAGGCATTGTAGGCATCATGAAGTCCAGCAGGAAAATTCTTCTGGCGTATTTCATTCTGATGTTTATAGTATATGCCTTTGAAGTGGCATCTTGTATCACAGCAGCAACACAACAAGACTTTTTCACACCCAACCTCTTCCTGAAGCAGATGCTAGAGAGGTACCAAAACAACAGCCCTCCAAACAATGATGACCAGTGGAAAAACAATG
24. Campos de un registro de GenBank El formato de GenBank (GBFF) es el formato más ampliamente utilizado para la distribución de las secuencias biológicas, ya que es el formato que se utiliza para el intercambio diario de secuencias entre las tres bases de datos. Además, el formato que ha adoptado el DDBJ es idéntico al de GenBank. Una entrada cualquiera de GenBank/EMBL consta de tres partes bien diferenciadas: Encabezado ("Header"), que contiene la información (descripción) del contenido del documento Características ("Features") que describen la localización de las partes más importantes de la secuencia desde el punto de vista biológico Secuencia propiamente dicha. friveroll@cinvestav.mx
25. Encabezado (Header) Es la parte más variable entre los distintos formatos, ya que las bases de datos no están obligadas a contener la misma información, aunque se están haciendo esfuerzos para aunar el contenido de las tres. Todas las entradas del GenBank empiezan con la línea LOCUS. La siguiente línea es DEFINITION, en la que se intenta sumarizar de forma concisa la información sobre el origen biológico de la muestra. Esta es la línea que aparece en las fichas que generan los programas de búsqueda, como FASTA o BLAST, por lo que la información contenida debe ser lo más representativa posible. friveroll@cinvestav.mx
26. …Encabezado La línea VERSION contiene dos números diferentes, uno similar al número de acceso y otro denominado gi (geninfoidentifier). Con este número se pretende acomodar los cambios o correcciones que se introducen en una secuencia, para poder identificar si se trata de la entrada original o ha sido modificada posteriormente. Si la secuencia cambia (por revisiones posteriores o corrección de errores), el número de acceso permanece igual pero el gi cambia para identificar una nueva versión de la misma secuencia. Además, se añade la VERSION, con el formato siguiente: Acceso.version friveroll@cinvestav.mx
27. …Encabezado La línea KEYWORDS es una línea histórica, que en muchos casos se usa incorrectamente y en la que se deben incluir palabras clave representativas de la secuencia que ayuden a encontrar nuestra secuencia cuando se hacen búsquedas en las bases de datos. Sin embargo, la adición de palabras clave a la secuencia en muchas ocasiones es poco útil ya que las palabras clave elegidas por los autores son incorrectas, por lo que poco a poco se tiende a abandonar el uso de esta línea. A continuación encontramos SOURCE/ORGANISM, donde se incluye en nombre común del organismo o su nombre científico, incluyendo la descripción taxonómica completa: friveroll@cinvestav.mx
28. …Encabezado Más abajo se encuentran una serie de líneas que hacen referencia a la cita bibliográfica donde se ha publicado la información correspondiente a la secuencia (que puede ser enviado para su publicación o sin publicar). Estas líneas son REFERENCE, AUTHORS, TITLE, JOURNAL y MEDLINE -PUBMED en el caso de que haya sido publicada. Cada secuencia puede tener más de una entrada bibliográfica completa, y por lo general en la última de ellas se incluye la dirección postal completade la persona o laboratorio responsable del trabajo. friveroll@cinvestav.mx
29. …Encabezado La sección de encabezamiento concluye con COMMENT, donde el autor puede incluir todos aquellos comentarios que considere relevantesy no tengan cabida en ninguna de las otras líneas (Los centros de secuenciación genómica incluyen aquí coordenadas del segmento o agradecimientos). friveroll@cinvestav.mx
30. Tabla de caracteristicas ("features") En este apartado describen con detalle todaslas características de relevancia biológica de la secuencia, como son las regiones codificantes, coordenadas de exones e intrones, secuencias del promotor…. El formato que se utiliza en este apartado es indicar en primer lugar el tipo de característica a la que hace referencia (comenzando con el símbolo / ) seguido bien por un número, bien por dos números separados por dos puntos para indicar un rango de nucleótidos (como 76..876, lo que significa desde 76 hasta 876) o bien por grupos de números separados por comas (join 33..56, 102..223, 345..998) para indicar regiones que se deben unir. friveroll@cinvestav.mx
31. Tabla de caracteristicas ("features") A continuación se indican algunas de las características más comunes. Source: es la única característica que debe estar presente en todas las secuencias, ya que todas las secuencias tienen un origen(aunque sea sintético, como en el caso de vectores de clonación) e incluye el organismo (/organism=). Además se pueden añadir una serie de calificativos ("qualifiers") que incluyen posición en el mapa, cromosoma, tejido, clon o información de la librería de origen. RNA features: sirve para indicar los diversos RNAs estructurales que puedan estar presentes en la secuencia, como tRNA, mRNA, rRNA, ya que representan entidades biológicas de gran importancia en la célula friveroll@cinvestav.mx
32. Tabla de caracteristicas ("features") CDS: en este apartado se incluyen las instrucciones al lector para que pueda identificar las regiones con importancia biológica, o cómo se ensamblan los diferentes exones para dar lugar a la proteína. Las referencias cruzadas a otras bases de datos con información sobre la misma secuencia se indican dentro de CDS con el calificativo /db_xref= o /protein_id= seguido del número de acceso y versión, en la forma /protein_id=AAA12345.1; /product= para indicar la función del gen si se conoce y finalmente, también se incluye la secuencia de la proteína resultante en el apartado/translation=. friveroll@cinvestav.mx
34. Tabla de caracteristicas ("features") Las características importantes de la secuencia de proteínas pueden ser indicadas utilizando misc_feature e indicando las coordenadas en la secuencia de DNA en las que se localiza dicha región. friveroll@cinvestav.mx
36. Secuencia friveroll@cinvestav.mx La parte final de cada entrada del GenBank es la secuencia propiamente dicha, que comienza con la línea BASE COUNT, donde se describen el número de cada una de las bases y termina incluyendo la secuencia (con numeración para facilitar la localización de las características descritas en la sección anterior).
37. Campos de un registro de EMBL Una vez conocido el formato de las entradas de GenBank, vamos a ver la correspondencia de cada una de las líneas con las del EMBL, en que el nombre completo de cada línea es sustituido por dos letras nada más. En la siguiente tabla encontrarás una correlación entre ambos formatos (si quieres ver una explicación más detallada de cada uno de los campos puedes acudir al documento original de EMBL. friveroll@cinvestav.mx
38.
39. LOCUS HUMPRP0A 2420 bpmRNA linear PRI 13-JUL-1994 DEFINITION Human prion protein 27-30 mRNA, complete cds. ACCESSION M13667 VERSION M13667.1 GI:190469 KEYWORDS amyloid; prion protein; sialoglycoprotein. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2420) AUTHORS Liao,Y.C., Lebo,R.V., Clawson,G.A. and Smuckler,E.A. TITLE Human prion proteincDNA: molecular cloning, chromosomalmapping, and biologicalimplications JOURNAL Science 233 (4761), 364-367 (1986) PUBMED 3014653 COMMENT Original sourcetext: Human, cDNAtomRNA, clones lambda [3,6,7]. A single prion protein gene isfoundonchromosome 20 per haploid genome. FEATURES Location/Qualifiers source 1..2420 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" gene 1..2420 /gene="PRNP" mRNA <1..2420 /gene="PRNP" /product="PrPmRNA" CDS 77..814 /gene="PRNP" /note="prion protein" /codon_start=1 /protein_id="AAA19664.1" /db_xref="GI:190470" /translation="MLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPP QGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNM KHMAGAAAGAVVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDE YSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYY QRGSSMVLFSSPPVILLISFLIFLIVG" ORIGIN 171 bpupstream of SmaIsite; chromosome 20. 1 cgagcagccaaggttcgccataatgactgctctcggtcgtgaggagaggagaagctcgcg 61 gcgccgcggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctg 121 caagaagcgcccgaagcctggaggatggaacactgggggcagccgatacccggggcaggg ... 2341 tgcatgttcttgttttgttatataaaaaaattgtaaatgtttaatatctgactgaaatta 2401 aacgagccaagatgagcacc // GeneBank
44. Secuencias ambientales (ENV) Propósito Secuenciar todo el ADN presente en una muestra, sin saber de que especie se deriva. Mar del sargasso Fluidos humanos Tierra
45.
46.
47. Problemas de las BD's de nt Archivo: Muy redundante. La similarida de las secuencias no es obvia. La autoridad de los autores: nivel variable de la calidad de anotación. Nivel variable de la calidad de la secuencia. Calidad de secuenciamiento. Calidad de predicción de genes.
48. La segunda generación de BD's de nt Gene-centricdatabases. Toda la información de la secuencia es relevante a un gen dado accesibles de inmediato p.eEntrezGene/RefSeq Genom-centricdatabases Información acerca de la secuencia de los genes, su posición relativa, la orientación de la cadena, funciones bioquímicas. Sistemas de manejo de información que son capaces de conectar a la colección especializada de secuencias y herramientas de búsqueda. p.eEnsembl, TIGR
49. EntrezGene / RefSeq (NCBI) Base de datos con información específica de genes, enfocada en los genomas que han sido secuenciados por completo, que la comunidad científica contribuye activamente para ampliar la información específica de genes. O que son agendadaspara un análisis de secuencia intenso. El contenido de esta base de datos representa el resultado de la curación e integración automática de datos del proyecto NCBI ReferenceSequence (RefSeq) y de la coolabolaboraciónde las bases de datos de organismos modelo, y muchas otras bases de datos disponibles en NCBI. La secuencias correspondientes están disponibles gracias a cross-links a BD's de RefSeq y otras BD's de secuencias
50.
51.
52.
53.
54.
55. Links a RefSeq Links a todas las secuencias encontradas en EMBL/GenBank/DDBJ Correspondientes a este gen
56. Entrez Gene está altamente vinculado a RefSeq RefSeq: TheReferenceSequence (RefSeq), esta colección pretende proveer un conjunto de secuencias, comprensivo, integrado y no redundante, incluyendo ADN Genómico, ARN transcrito, y productos protéicos, para los principales organismos de interés. Accessionnumbers for RNA (NM_) forgenomic (NT_) forprotein (NP_)
57.
58.
59. La agitada vida de una proteína cDNA's, EST's, genes, genomas, ... Con o sin CDS's anotados EMBLGeneBank DDBJ Secuencias derivadas de artículos publicados CoDingSequences (authors & gene prediction) CoDingSequences (authors) PFR, PIR TrEMBL Genpept RefSeq PFR Anotadas manualmente Swiss-Prot UniProt: Swiss-Prot + TrEMBL + (PIR) NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF
60.
61.
62. En una entrada UniProtKB/Swiss-Prot se puede encontrar: Todos los nombres de una proteína dada (y su gen). Su origen biológico con los links a sus BD's. Una selección de referencias. Un resumen de todo lo que se conoce de la proteína: función, PTM, productos altenativos, expresión en tejidos, enfermedades, etc... Numerosas referencias cruzadas. Palabras clave seleccionadas. Una descripción de las características importantes de la secuencia: Dominios, PTM's, variaciones, etc... Una secuencia de proteína y la descripción de varias. isoformas/variantes.
63.
64. Calidad de una secuencia - > 1 gen / 1 especie = 1 entrada Swiss-Prot Para humano: ~4.7 distintos reportes independientes / gen ¿Polimorfismos? ¿Mismo gen? ¿Splicingaltenativo? ¿Edición de ARN? ¿Iniciación alternativa? ¿Selenocisteína? ¿Uso de un promotor alternativo? ¿Errores de secuenciación? ¿Fragmento? - > Identificación y anotación de todas las secuencias distintas
65.
66. «Base de Datos NR», Entrez http://www.ncbi.nlm.nih.gov/sites/entrez?db=Protein