1. INSTITUTO TECNOLÓGICO
SUPERIOR DE LERDO
Ensayo:
“Formatos de archivos de secuencia”
Primer corte
Datos del trabajo
Alumno: Erick Rodríguez
Número de control: 10231006
Grupo: 3O4B
Carrera: Ingeniería en Informática
Materia: Administración y organización
de datos
Titular de la materia: Ing. Ricardo de Jesús
Bustamante González
Cd. Lerdo, Durango. 9 de Febrero 2012
2. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012
Introducción
En el ámbito de la Informática, el término de archivo digital se define como la
encapsulación de una cadena finita de bits en una entidad lógica, la cual se
almacena en el sistema de archivos de un dispositivo de memoria secundaria
(disco duro, memoria USB, disco compacto, etc.) con la finalidad de ser utilizada
posteriormente. Los archivos guardados en un dispositivo de almacenamiento se
organizan mediante la utilización de carpetas y unidades lógicas, recibiendo cada
archivo un identificador (nombre y extensión) que lo diferencia de los demás.
La extensión de un archivo permite asociarlo a un tipo determinado de aplicación
informática, a través de la cual será posible realizar operaciones básicas sobre el
documento, tales como la creación, consulta, actualización, etc. Y la extensión
dependerá del tipo de contenido que posea el archivo, es decir si es de música,
fotos, video, texto simple, texto normal, animaciones, etc.
De manera general, existen dos tipos de archivos informáticos: los archivos
binarios y los archivos ASCII. En la clasificación de los archivos binarios se
encuentran los archivos de imagen, archivos de audio, archivos de video, archivos
de compresión y los archivos ejecutables de aplicaciones informáticas. Pero en el
caso de los archivos ASCII, existen los archivos de texto plano, archivos de
intercambio y loar archivos de fuente. Sin embargo, en esta último tipo de archivos
se encuentra otra clasificación que se utiliza para fines más específicos y
enfocados al área de la bioinformática, es decir, los archivos de secuencia.
Existente diferentes formatos de archivos de secuencia en la actualidad, los cuales
sirven para diferentes usos y que presentan características que los hacen
diferentes unos de otros. El propósito del presente ensayo es presentar al lector
una definición clara sobre lo qué son los archivos de secuencia, cuáles son sus
usos, qué formatos existen en la actualidad y las características que pueden
observarse en cada uno de ellos.
INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 2
3. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012
Desarrollo
Un archivo de secuencia es un fichero lógico que permite almacenar de manera
ordenada y sucesiva una colección de caracteres, siguiendo un principio
preestablecido para ello. Como se mencionó anteriormente, los archivos de
secuencia forman parte de la clasificación de archivos ASCII. La principal
característica con la que cuentan los archivos ASCII es que el contenido que
poseen son conjuntos de cadenas de caracteres (letras, números y secuencias de
escape como retorno de carro y el espacio) que pueden ser fácilmente
interpretados por cualquier persona a simple vista.
Los archivos de secuencia se pueden clasificar a su vez dependiendo del número
de líneas o secuencias que pueda contener, por lo que existen archivos de
secuencia única y de secuencia múltiple. Los archivos de secuencia única son
aquellos que solamente pueden manejar una secuencia por archivo creado,
mientras que archivos de secuencia múltiple son los que pueden soportar una o
varias secuencias por archivo creado. En esta última clasificación, los datos
contenidos en las cadenas de caracteres pueden manipularse de forma secuencial
o mediante intervalos. En la forma secuencial, cada cadena que es ingresada en el
archivo se escribe de manera completa antes de que pueda ingresar una nueva
cadena. En la forma intercalada, es posible llevar a cabo la escritura más de una
cadena a la vez.
Los archivos de secuencias se encuentran conformados básicamente por una o
varias cadenas de caracteres que se encuentran ordenados siguiendo una lógica
determinada, la cual depende de la naturaleza de información que se esté
manejando. Sin ser una regla formal, se incluyen anotaciones, cadenas de
identificación o indicaciones a manera de comentario. Un ejemplo de ello es el que
se presenta a continuación:
>ABCD Comentario
ttcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgc
agctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcg
cccagatcaaggctcatgtagcctcactggagggcatt
Los archivos de secuencias son utilizados para aplicaciones muy específicas, un
ejemplo de ello es dentro del ámbito científico, más explícitamente en el campo de
investigaciones de la bioinformática, los cuales suelen crearse para manejar
información referente al alineamiento de las proteínas en la hemoglobina o la
estructura de aminoácidos y el ADN, por citar algún ejemplos. Para llevar a cabo
las operaciones más básicas (creación, consulta, actualización, compresión, etc.)
sobre estos archivos, se suelen desarrollar aplicaciones de software que sean
INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 3
4. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012
capaces de entender su contenido y manipularlo. Algunos ejemplos de programas
de software que permiten el manejo de archivos de secuencias son SeqVerter
(conversión entre formatos), ClustalW2 (manejo de información del ADN y
proteínas), ModelTest (creación de modelos de nucleótidos), entre otros
Debido a que en la actualidad existe una gran cantidad de programas informáticos
desarrollados para el manejo de secuencia, también existe una variedad de
formatos de archivos de secuencia ya que de manera general cada uno de los
programas cuenta con su propio formato para trabajar de manera nativa con esta
clase de archivos. A continuación se describen algunos de los formatos más
comunes de archivos de secuencias.
Clustal. Es uno de los formatos más difundidos y almacena información referente
a nucleótidos y aminoácidos, representándolos mediante el código de letras. Al
inicio del archivo se escribe la palabra “Clustal”. Ejemplo:
CLUSTAL W(1.60) multiple sequence alignment
YVKE1 SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSES
YVKE2 KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSAS
Phylip. Al igual al anterior formato, este se utiliza para manipular información
referente nucleótidos y aminoácidos, sirviendo de entrada para diferentes
programas de análisis de frecuencias. Al iniciar el archivo es necesario indicar
mediante números en primera instancia el número de secuencias que analizará el
programa y enseguida el número de caracteres de nucleótidos o aminoácidos
separados por espacios en blanco. Ejemplo:
6 39
Archaeopt CGATGCTTAC CGCCGATGCT
Hesperorn CGTTACTCGT TGTCTCTGCC
Baluchith TAATGTTAAT TGTCGATGCT
FASTA. Es uno de los formatos de archivos de secuencia más populares
actualmente y el más simple. Cada una de las secuencias que contiene un archivo
de este formato comienza con el carácter “>” seguido del identificador de dicha
secuencia. Es posible incluir además una descripción. Ejemplo:
>sec_1 descripción
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
>sec_2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 4
5. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012
RSF. Es un formato de archivo que puede contener una o más secuencias, el cual
puede ser creado mediante la aplicación NetFech. Ejemplo:
!!RICH_SEQUENCE 1.0
..
{
name DQ160058
descrip Taraxacum officinale TO52-2 (To52-2) mRNA, partial cds.
Staden. Es un formato que es exclusivo de la suite de análisis biológico Staden,
en cuyo contenido únicamente se almacena la secuencia a manipular. Ejemplo:
GGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCATTA
CGACGTAGATGCTAGCTGACTCGATGCAGTACGTAGTAGCTGCTG
CTACGTGCGCTAGCTAGTACGTCACGACGTAGATGCTAGCTGACT
CGATGC
Gcg. Al igual que el formato anterior, este es exclusivo de una suite de análisis
biológico, llamada GCG. Posee por características que la primer línea debe de
estar escrita en mayúscula, cuenta con líneas de descripción que detallan las
secuencias y líneas que se encargan de dividir el contenido introduciendo el
número de residuos en cada secuencia. Ejemplo:
!!NA_SEQUENCE 1.0
test.seq Length: 5390 April 22, 1999 13:50 Type: N Check:
8167 ..
1 ttatataaaa aatgctgaaa acaggatcaa ggaggaagat ttaaatatag
51 atataatata tgggaagaaa cataaaaacg aaataagaac agctaaatat
ABI. Este formato es utilizado por el secuenciador aplicado conocido como
BioSystem. Posee la característica de guardar una única secuencia y ser de sólo
lectura.
EMBL. Es un formato por el cual se generan una serie de reportes acerca de
secuencias de nucleótidos y proteínas, el cual se encuentra respaldado por el
Laboratorio Europeo de Biología Molecular (EMBL por sus siglas en inglés). Para
utilizarse en otros programas como el GCG, es necesario realizar su conversión
en una primera instancia. Ejemplo:
ID ECGOR standard; DNA; PRO; 1500 BP.
AC M13141;
SV M13141.1
NI g146247
DT 19-SEP-1987 (Rel. 13, Created)
INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 5
6. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012
Conclusión
En base a lo anteriormente expuesto, se llega a la conclusión de que los archivos
de secuencias forman parte de la clasificación de archivos ASCII, los cuales se
caracteriza por contener caracteres que pueden ser legibles por el ser humano
cuando son consultados o abiertos. Además, los archivos de secuencias a su vez
pueden dividirse en archivos de secuencia única y múltiple (según su contenido) o
también en archivos secuenciales (permiten la escritura de una secuencia a la
vez) e intercalado (permite la escritura de varias secuencias a la vez).
Los archivos de secuencias permiten almacenar cadenas de caracteres que
poseen un ordenamiento o patrón lógico, el cual está condicionado a la
información que es manejada en el mismo. Estos archivos son utilizados
principalmente para aplicaciones científicas y un ejemplo muy claro de ello son los
estudios realizados en el área de la bioinformática con respecto a aminoácidos y
nucleótidos.
Para poder realizar las operaciones más básicas sobre estos archivos es
necesaria la utilización de aplicaciones de software especializadas que sean
capaces de entender su contenido, hablando tanto de las secuencias como de otro
texto adicional (explicaciones, indicaciones, etc.). Debido a la gran cantidad de
aplicaciones que permiten el manejo de archivos de secuencias, existe a la vez
una gran variedad de formatos que en ocasiones son exclusivos de una suite
determinada o que pueden ser compatibles entre aplicaciones de software
diferentes.
INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 6
7. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012
Referencias bibliográfica
• Bazinet, Adam. molecularevolution.org, file formats [en línea]. Recuperado el 8 de
febrero del 2012, de http://molecularevolution.org/resources/fileformats.
• European Bioinformatics Institute. EMBL – EBI site, Sequence Formats. Recuperado
el 8 de febrero de 2012, de http://www.ebi.ac.uk/2can/tutorials/formats.html.
• Computational Biology Research Group (2011, 18 de Noviembre). Bioinformatics
FAQ, Examples of common sequence file formats. Recuperado el 8 de febrero de
2012, de
http://www.compbio.ox.ac.uk/bioinformatics_faq/format_examples.shtml.
• GeneStudio.com. GeneStudio site. Sequence file format notes. Recuperado el 8 de
febrero de 2012, de http://www.genestudio.com/formats.
• Blanca, José y Cañizares, Joaquín (2012, 30 de Enero). Bioinformatics at COMAV,
Sequence file formats. Recuperado el 8 de febrero de 2012, de
http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.ht
ml.
• Hernández, Héctor y Gutiérrez, Javier. Preguntas frecuentes, Tipos de archivos y
archivos de secuencias. Recuperado el 8 de febrero de 2012, de
http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html.
INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 7