SlideShare une entreprise Scribd logo
1  sur  7
Télécharger pour lire hors ligne
INSTITUTO TECNOLÓGICO
         SUPERIOR DE LERDO

                           Ensayo:
         “Formatos de archivos de secuencia”




                         Primer corte



Datos del trabajo
Alumno:                     Erick Rodríguez
Número de control:          10231006
Grupo:                      3O4B
Carrera:                    Ingeniería en Informática
Materia:                    Administración y organización
                            de datos
Titular de la materia:      Ing. Ricardo de Jesús
                            Bustamante González

                                Cd. Lerdo, Durango. 9 de Febrero 2012
[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Introducción
En el ámbito de la Informática, el término de archivo digital se define como la
encapsulación de una cadena finita de bits en una entidad lógica, la cual se
almacena en el sistema de archivos de un dispositivo de memoria secundaria
(disco duro, memoria USB, disco compacto, etc.) con la finalidad de ser utilizada
posteriormente. Los archivos guardados en un dispositivo de almacenamiento se
organizan mediante la utilización de carpetas y unidades lógicas, recibiendo cada
archivo un identificador (nombre y extensión) que lo diferencia de los demás.

La extensión de un archivo permite asociarlo a un tipo determinado de aplicación
informática, a través de la cual será posible realizar operaciones básicas sobre el
documento, tales como la creación, consulta, actualización, etc. Y la extensión
dependerá del tipo de contenido que posea el archivo, es decir si es de música,
fotos, video, texto simple, texto normal, animaciones, etc.

De manera general, existen dos tipos de archivos informáticos: los archivos
binarios y los archivos ASCII. En la clasificación de los archivos binarios se
encuentran los archivos de imagen, archivos de audio, archivos de video, archivos
de compresión y los archivos ejecutables de aplicaciones informáticas. Pero en el
caso de los archivos ASCII, existen los archivos de texto plano, archivos de
intercambio y loar archivos de fuente. Sin embargo, en esta último tipo de archivos
se encuentra otra clasificación que se utiliza para fines más específicos y
enfocados al área de la bioinformática, es decir, los archivos de secuencia.

Existente diferentes formatos de archivos de secuencia en la actualidad, los cuales
sirven para diferentes usos y que presentan características que los hacen
diferentes unos de otros. El propósito del presente ensayo es presentar al lector
una definición clara sobre lo qué son los archivos de secuencia, cuáles son sus
usos, qué formatos existen en la actualidad y las características que pueden
observarse en cada uno de ellos.




                   INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez   2
[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Desarrollo
Un archivo de secuencia es un fichero lógico que permite almacenar de manera
ordenada y sucesiva una colección de caracteres, siguiendo un principio
preestablecido para ello. Como se mencionó anteriormente, los archivos de
secuencia forman parte de la clasificación de archivos ASCII. La principal
característica con la que cuentan los archivos ASCII es que el contenido que
poseen son conjuntos de cadenas de caracteres (letras, números y secuencias de
escape como retorno de carro y el espacio) que pueden ser fácilmente
interpretados por cualquier persona a simple vista.

Los archivos de secuencia se pueden clasificar a su vez dependiendo del número
de líneas o secuencias que pueda contener, por lo que existen archivos de
secuencia única y de secuencia múltiple. Los archivos de secuencia única son
aquellos que solamente pueden manejar una secuencia por archivo creado,
mientras que archivos de secuencia múltiple son los que pueden soportar una o
varias secuencias por archivo creado. En esta última clasificación, los datos
contenidos en las cadenas de caracteres pueden manipularse de forma secuencial
o mediante intervalos. En la forma secuencial, cada cadena que es ingresada en el
archivo se escribe de manera completa antes de que pueda ingresar una nueva
cadena. En la forma intercalada, es posible llevar a cabo la escritura más de una
cadena a la vez.

Los archivos de secuencias se encuentran conformados básicamente por una o
varias cadenas de caracteres que se encuentran ordenados siguiendo una lógica
determinada, la cual depende de la naturaleza de información que se esté
manejando. Sin ser una regla formal, se incluyen anotaciones, cadenas de
identificación o indicaciones a manera de comentario. Un ejemplo de ello es el que
se presenta a continuación:
>ABCD Comentario
ttcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgc
agctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcg
cccagatcaaggctcatgtagcctcactggagggcatt


Los archivos de secuencias son utilizados para aplicaciones muy específicas, un
ejemplo de ello es dentro del ámbito científico, más explícitamente en el campo de
investigaciones de la bioinformática, los cuales suelen crearse para manejar
información referente al alineamiento de las proteínas en la hemoglobina o la
estructura de aminoácidos y el ADN, por citar algún ejemplos. Para llevar a cabo
las operaciones más básicas (creación, consulta, actualización, compresión, etc.)
sobre estos archivos, se suelen desarrollar aplicaciones de software que sean

                   INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez   3
[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

capaces de entender su contenido y manipularlo. Algunos ejemplos de programas
de software que permiten el manejo de archivos de secuencias son SeqVerter
(conversión entre formatos), ClustalW2 (manejo de información del ADN y
proteínas), ModelTest (creación de modelos de nucleótidos), entre otros

Debido a que en la actualidad existe una gran cantidad de programas informáticos
desarrollados para el manejo de secuencia, también existe una variedad de
formatos de archivos de secuencia ya que de manera general cada uno de los
programas cuenta con su propio formato para trabajar de manera nativa con esta
clase de archivos. A continuación se describen algunos de los formatos más
comunes de archivos de secuencias.

Clustal. Es uno de los formatos más difundidos y almacena información referente
a nucleótidos y aminoácidos, representándolos mediante el código de letras. Al
inicio del archivo se escribe la palabra “Clustal”. Ejemplo:

CLUSTAL W(1.60) multiple sequence alignment

YVKE1    SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSES
YVKE2    KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSAS

Phylip. Al igual al anterior formato, este se utiliza para manipular información
referente nucleótidos y aminoácidos, sirviendo de entrada para diferentes
programas de análisis de frecuencias. Al iniciar el archivo es necesario indicar
mediante números en primera instancia el número de secuencias que analizará el
programa y enseguida el número de caracteres de nucleótidos o aminoácidos
separados por espacios en blanco. Ejemplo:
6 39
Archaeopt CGATGCTTAC CGCCGATGCT
Hesperorn CGTTACTCGT TGTCTCTGCC
Baluchith TAATGTTAAT TGTCGATGCT


FASTA. Es uno de los formatos de archivos de secuencia más populares
actualmente y el más simple. Cada una de las secuencias que contiene un archivo
de este formato comienza con el carácter “>” seguido del identificador de dicha
secuencia. Es posible incluir además una descripción. Ejemplo:
>sec_1 descripción
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
>sec_2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG




                   INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez   4
[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

RSF. Es un formato de archivo que puede contener una o más secuencias, el cual
puede ser creado mediante la aplicación NetFech. Ejemplo:
!!RICH_SEQUENCE 1.0
..
{
name DQ160058
descrip    Taraxacum officinale TO52-2 (To52-2) mRNA, partial cds.


Staden. Es un formato que es exclusivo de la suite de análisis biológico Staden,
en cuyo contenido únicamente se almacena la secuencia a manipular. Ejemplo:
GGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCATTA
CGACGTAGATGCTAGCTGACTCGATGCAGTACGTAGTAGCTGCTG
CTACGTGCGCTAGCTAGTACGTCACGACGTAGATGCTAGCTGACT
CGATGC


Gcg. Al igual que el formato anterior, este es exclusivo de una suite de análisis
biológico, llamada GCG. Posee por características que la primer línea debe de
estar escrita en mayúscula, cuenta con líneas de descripción que detallan las
secuencias y líneas que se encargan de dividir el contenido introduciendo el
número de residuos en cada secuencia. Ejemplo:
!!NA_SEQUENCE 1.0

 test.seq Length: 5390 April 22, 1999 13:50 Type: N Check:
 8167 ..

 1 ttatataaaa aatgctgaaa acaggatcaa ggaggaagat ttaaatatag
 51 atataatata tgggaagaaa cataaaaacg aaataagaac agctaaatat



ABI. Este formato es utilizado por el secuenciador aplicado conocido como
BioSystem. Posee la característica de guardar una única secuencia y ser de sólo
lectura.

EMBL. Es un formato por el cual se generan una serie de reportes acerca de
secuencias de nucleótidos y proteínas, el cual se encuentra respaldado por el
Laboratorio Europeo de Biología Molecular (EMBL por sus siglas en inglés). Para
utilizarse en otros programas como el GCG, es necesario realizar su conversión
en una primera instancia. Ejemplo:

ID        ECGOR              standard;         DNA;       PRO;       1500      BP.
AC                                                                         M13141;
SV                                                                        M13141.1
NI                                                                         g146247
DT    19-SEP-1987 (Rel. 13, Created)
                    INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez   5
[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Conclusión
En base a lo anteriormente expuesto, se llega a la conclusión de que los archivos
de secuencias forman parte de la clasificación de archivos ASCII, los cuales se
caracteriza por contener caracteres que pueden ser legibles por el ser humano
cuando son consultados o abiertos. Además, los archivos de secuencias a su vez
pueden dividirse en archivos de secuencia única y múltiple (según su contenido) o
también en archivos secuenciales (permiten la escritura de una secuencia a la
vez) e intercalado (permite la escritura de varias secuencias a la vez).

Los archivos de secuencias permiten almacenar cadenas de caracteres que
poseen un ordenamiento o patrón lógico, el cual está condicionado a la
información que es manejada en el mismo. Estos archivos son utilizados
principalmente para aplicaciones científicas y un ejemplo muy claro de ello son los
estudios realizados en el área de la bioinformática con respecto a aminoácidos y
nucleótidos.

Para poder realizar las operaciones más básicas sobre estos archivos es
necesaria la utilización de aplicaciones de software especializadas que sean
capaces de entender su contenido, hablando tanto de las secuencias como de otro
texto adicional (explicaciones, indicaciones, etc.). Debido a la gran cantidad de
aplicaciones que permiten el manejo de archivos de secuencias, existe a la vez
una gran variedad de formatos que en ocasiones son exclusivos de una suite
determinada o que pueden ser compatibles entre aplicaciones de software
diferentes.




                   INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez   6
[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Referencias bibliográfica
  •   Bazinet, Adam. molecularevolution.org, file formats [en línea]. Recuperado el 8 de
      febrero del 2012, de http://molecularevolution.org/resources/fileformats.
  •   European Bioinformatics Institute. EMBL – EBI site, Sequence Formats. Recuperado
      el 8 de febrero de 2012, de http://www.ebi.ac.uk/2can/tutorials/formats.html.
  •   Computational Biology Research Group (2011, 18 de Noviembre). Bioinformatics
      FAQ, Examples of common sequence file formats. Recuperado el 8 de febrero de
      2012,                                                                           de
      http://www.compbio.ox.ac.uk/bioinformatics_faq/format_examples.shtml.
  •   GeneStudio.com. GeneStudio site. Sequence file format notes. Recuperado el 8 de
      febrero de 2012, de http://www.genestudio.com/formats.
  •   Blanca, José y Cañizares, Joaquín (2012, 30 de Enero). Bioinformatics at COMAV,
      Sequence file formats. Recuperado el 8 de febrero de 2012, de
      http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.ht
      ml.
  •   Hernández, Héctor y Gutiérrez, Javier. Preguntas frecuentes, Tipos de archivos y
      archivos de secuencias. Recuperado el 8 de febrero de 2012, de
      http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html.




                    INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez     7

Contenu connexe

Tendances

Administracion de archivos
Administracion de archivosAdministracion de archivos
Administracion de archivoscgviviana
 
A D M I N I S T R A D O R D E A R C H I V O S
A D M I N I S T R A D O R  D E  A R C H I V O SA D M I N I S T R A D O R  D E  A R C H I V O S
A D M I N I S T R A D O R D E A R C H I V O Smartin
 
Sistemas operativos - Sistemas De Archivos - reporte unidad 5
Sistemas operativos - Sistemas De Archivos - reporte unidad 5Sistemas operativos - Sistemas De Archivos - reporte unidad 5
Sistemas operativos - Sistemas De Archivos - reporte unidad 5Dj Mada - Tres Valles, Veracruz
 
Estructura del sistema de archivos de linux
Estructura del sistema de archivos de linuxEstructura del sistema de archivos de linux
Estructura del sistema de archivos de linuxYolanda Mora
 
Gestion de archivos
Gestion de archivos Gestion de archivos
Gestion de archivos kathiuxka
 
Administracion De Archivos Vi
Administracion De Archivos ViAdministracion De Archivos Vi
Administracion De Archivos ViSistemOper
 
La interfaz del servidor de directorios
La interfaz del servidor de directoriosLa interfaz del servidor de directorios
La interfaz del servidor de directoriospaola2545
 
Gestión de almacenamiento
Gestión de almacenamientoGestión de almacenamiento
Gestión de almacenamientoAndreAcevedP
 
Diapositivas 6
Diapositivas 6Diapositivas 6
Diapositivas 6alica
 
Proyecto final Diseño y Programacion SO
Proyecto final Diseño y Programacion SOProyecto final Diseño y Programacion SO
Proyecto final Diseño y Programacion SOJoseOmarParedesGomez
 
Llamadas al sistema de archivos y de ficheros
Llamadas al sistema de archivos y de ficherosLlamadas al sistema de archivos y de ficheros
Llamadas al sistema de archivos y de ficherosCamilo Pacheco
 

Tendances (18)

Administracion de archivos
Administracion de archivosAdministracion de archivos
Administracion de archivos
 
A D M I N I S T R A D O R D E A R C H I V O S
A D M I N I S T R A D O R  D E  A R C H I V O SA D M I N I S T R A D O R  D E  A R C H I V O S
A D M I N I S T R A D O R D E A R C H I V O S
 
Sistemas operativos - Sistemas De Archivos - reporte unidad 5
Sistemas operativos - Sistemas De Archivos - reporte unidad 5Sistemas operativos - Sistemas De Archivos - reporte unidad 5
Sistemas operativos - Sistemas De Archivos - reporte unidad 5
 
Estructura del sistema de archivos de linux
Estructura del sistema de archivos de linuxEstructura del sistema de archivos de linux
Estructura del sistema de archivos de linux
 
Expociion njuand
Expociion njuandExpociion njuand
Expociion njuand
 
Gestion de archivos
Gestion de archivos Gestion de archivos
Gestion de archivos
 
Estructura de directorios de Linux
Estructura de directorios de LinuxEstructura de directorios de Linux
Estructura de directorios de Linux
 
Sistema de Archivos
Sistema de ArchivosSistema de Archivos
Sistema de Archivos
 
Administracion De Archivos Vi
Administracion De Archivos ViAdministracion De Archivos Vi
Administracion De Archivos Vi
 
La interfaz del servidor de directorios
La interfaz del servidor de directoriosLa interfaz del servidor de directorios
La interfaz del servidor de directorios
 
Gestión de almacenamiento
Gestión de almacenamientoGestión de almacenamiento
Gestión de almacenamiento
 
Diapositivas 6
Diapositivas 6Diapositivas 6
Diapositivas 6
 
Proyecto final Diseño y Programacion SO
Proyecto final Diseño y Programacion SOProyecto final Diseño y Programacion SO
Proyecto final Diseño y Programacion SO
 
Gestion de archivos
Gestion de archivosGestion de archivos
Gestion de archivos
 
Llamadas al sistema de archivos y de ficheros
Llamadas al sistema de archivos y de ficherosLlamadas al sistema de archivos y de ficheros
Llamadas al sistema de archivos y de ficheros
 
Trabajo
Trabajo Trabajo
Trabajo
 
Exposicion
ExposicionExposicion
Exposicion
 
Unidad%201
Unidad%201Unidad%201
Unidad%201
 

Similaire à Ensayo de formatos de archivos de secuencias

Pia Programacion Equipo 8.pdf
Pia Programacion Equipo 8.pdfPia Programacion Equipo 8.pdf
Pia Programacion Equipo 8.pdfAdrianLoredo4
 
Guia 1 sistemas de archivos. carrero perez
Guia 1 sistemas de archivos. carrero perezGuia 1 sistemas de archivos. carrero perez
Guia 1 sistemas de archivos. carrero perezcarreroperez
 
modelo osi
modelo osimodelo osi
modelo osiYAIRET
 
Definiciones Basicas
Definiciones BasicasDefiniciones Basicas
Definiciones BasicasFaBro Gs
 
Controladora de perifericos monousuario
Controladora de perifericos monousuarioControladora de perifericos monousuario
Controladora de perifericos monousuarioAngel Carrasco
 
Controladora de perifericos Monousuario
Controladora de perifericos MonousuarioControladora de perifericos Monousuario
Controladora de perifericos Monousuarioangel carrasco
 
Protocolos de red
Protocolos de redProtocolos de red
Protocolos de redsmlc006809
 
Análisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información IIAnálisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información IIFlorez85
 
Redes expo
Redes expoRedes expo
Redes expoPrastoMx
 
Presentacion diseño de archivos
Presentacion diseño de archivosPresentacion diseño de archivos
Presentacion diseño de archivosharoldrm
 
Eje temático 5 Diseño de archivos
Eje temático 5 Diseño de archivosEje temático 5 Diseño de archivos
Eje temático 5 Diseño de archivosNeus Mortis
 
Seguridad en los sistemas de archivos
Seguridad en los sistemas de archivosSeguridad en los sistemas de archivos
Seguridad en los sistemas de archivosANDRES SALAZAR
 
Eje tematico 5
Eje tematico 5Eje tematico 5
Eje tematico 5Angie2222
 
Instrucciones de máquina
Instrucciones de máquinaInstrucciones de máquina
Instrucciones de máquinagiovatovar
 
Actividad no 1
Actividad no 1Actividad no 1
Actividad no 1ALDUYUTA
 
Fundamentos de administracion_oracle_10g
Fundamentos de administracion_oracle_10gFundamentos de administracion_oracle_10g
Fundamentos de administracion_oracle_10gWal
 
Flujos y archivo en java
Flujos y archivo en javaFlujos y archivo en java
Flujos y archivo en javaBelen Gonzalez
 

Similaire à Ensayo de formatos de archivos de secuencias (20)

Pia Programacion Equipo 8.pdf
Pia Programacion Equipo 8.pdfPia Programacion Equipo 8.pdf
Pia Programacion Equipo 8.pdf
 
Mod i, sub 2 gest archdispofim 3
Mod i, sub 2 gest archdispofim   3Mod i, sub 2 gest archdispofim   3
Mod i, sub 2 gest archdispofim 3
 
SISTEMAS DE ARCHIVOS
SISTEMAS DE ARCHIVOSSISTEMAS DE ARCHIVOS
SISTEMAS DE ARCHIVOS
 
Guia 1 sistemas de archivos. carrero perez
Guia 1 sistemas de archivos. carrero perezGuia 1 sistemas de archivos. carrero perez
Guia 1 sistemas de archivos. carrero perez
 
modelo osi
modelo osimodelo osi
modelo osi
 
Definiciones Basicas
Definiciones BasicasDefiniciones Basicas
Definiciones Basicas
 
Controladora de perifericos monousuario
Controladora de perifericos monousuarioControladora de perifericos monousuario
Controladora de perifericos monousuario
 
Controladora de perifericos Monousuario
Controladora de perifericos MonousuarioControladora de perifericos Monousuario
Controladora de perifericos Monousuario
 
Protocolos de red
Protocolos de redProtocolos de red
Protocolos de red
 
Análisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información IIAnálisis y diseño de sistemas de información II
Análisis y diseño de sistemas de información II
 
Redes expo
Redes expoRedes expo
Redes expo
 
Presentacion diseño de archivos
Presentacion diseño de archivosPresentacion diseño de archivos
Presentacion diseño de archivos
 
Eje temático 5 Diseño de archivos
Eje temático 5 Diseño de archivosEje temático 5 Diseño de archivos
Eje temático 5 Diseño de archivos
 
Seguridad en los sistemas de archivos
Seguridad en los sistemas de archivosSeguridad en los sistemas de archivos
Seguridad en los sistemas de archivos
 
Eje tematico 5
Eje tematico 5Eje tematico 5
Eje tematico 5
 
Instrucciones de máquina
Instrucciones de máquinaInstrucciones de máquina
Instrucciones de máquina
 
Actividad no 1
Actividad no 1Actividad no 1
Actividad no 1
 
Fundamentos de administracion_oracle_10g
Fundamentos de administracion_oracle_10gFundamentos de administracion_oracle_10g
Fundamentos de administracion_oracle_10g
 
CapíTulo 8
CapíTulo 8CapíTulo 8
CapíTulo 8
 
Flujos y archivo en java
Flujos y archivo en javaFlujos y archivo en java
Flujos y archivo en java
 

Dernier

10°8 - Avances tecnologicos del siglo XXI
10°8 - Avances tecnologicos del siglo XXI10°8 - Avances tecnologicos del siglo XXI
10°8 - Avances tecnologicos del siglo XXIantoniopalmieriluna
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxinfor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxgustavovasquezv56
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...axelv9257
 
Generaciones de las Computadoras..pdf...
Generaciones de las Computadoras..pdf...Generaciones de las Computadoras..pdf...
Generaciones de las Computadoras..pdf...solanocortezluisalfr
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfpresentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfaxelv9257
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 

Dernier (15)

10°8 - Avances tecnologicos del siglo XXI
10°8 - Avances tecnologicos del siglo XXI10°8 - Avances tecnologicos del siglo XXI
10°8 - Avances tecnologicos del siglo XXI
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxinfor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...
 
Generaciones de las Computadoras..pdf...
Generaciones de las Computadoras..pdf...Generaciones de las Computadoras..pdf...
Generaciones de las Computadoras..pdf...
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfpresentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 

Ensayo de formatos de archivos de secuencias

  • 1. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO Ensayo: “Formatos de archivos de secuencia” Primer corte Datos del trabajo Alumno: Erick Rodríguez Número de control: 10231006 Grupo: 3O4B Carrera: Ingeniería en Informática Materia: Administración y organización de datos Titular de la materia: Ing. Ricardo de Jesús Bustamante González Cd. Lerdo, Durango. 9 de Febrero 2012
  • 2. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 Introducción En el ámbito de la Informática, el término de archivo digital se define como la encapsulación de una cadena finita de bits en una entidad lógica, la cual se almacena en el sistema de archivos de un dispositivo de memoria secundaria (disco duro, memoria USB, disco compacto, etc.) con la finalidad de ser utilizada posteriormente. Los archivos guardados en un dispositivo de almacenamiento se organizan mediante la utilización de carpetas y unidades lógicas, recibiendo cada archivo un identificador (nombre y extensión) que lo diferencia de los demás. La extensión de un archivo permite asociarlo a un tipo determinado de aplicación informática, a través de la cual será posible realizar operaciones básicas sobre el documento, tales como la creación, consulta, actualización, etc. Y la extensión dependerá del tipo de contenido que posea el archivo, es decir si es de música, fotos, video, texto simple, texto normal, animaciones, etc. De manera general, existen dos tipos de archivos informáticos: los archivos binarios y los archivos ASCII. En la clasificación de los archivos binarios se encuentran los archivos de imagen, archivos de audio, archivos de video, archivos de compresión y los archivos ejecutables de aplicaciones informáticas. Pero en el caso de los archivos ASCII, existen los archivos de texto plano, archivos de intercambio y loar archivos de fuente. Sin embargo, en esta último tipo de archivos se encuentra otra clasificación que se utiliza para fines más específicos y enfocados al área de la bioinformática, es decir, los archivos de secuencia. Existente diferentes formatos de archivos de secuencia en la actualidad, los cuales sirven para diferentes usos y que presentan características que los hacen diferentes unos de otros. El propósito del presente ensayo es presentar al lector una definición clara sobre lo qué son los archivos de secuencia, cuáles son sus usos, qué formatos existen en la actualidad y las características que pueden observarse en cada uno de ellos. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 2
  • 3. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 Desarrollo Un archivo de secuencia es un fichero lógico que permite almacenar de manera ordenada y sucesiva una colección de caracteres, siguiendo un principio preestablecido para ello. Como se mencionó anteriormente, los archivos de secuencia forman parte de la clasificación de archivos ASCII. La principal característica con la que cuentan los archivos ASCII es que el contenido que poseen son conjuntos de cadenas de caracteres (letras, números y secuencias de escape como retorno de carro y el espacio) que pueden ser fácilmente interpretados por cualquier persona a simple vista. Los archivos de secuencia se pueden clasificar a su vez dependiendo del número de líneas o secuencias que pueda contener, por lo que existen archivos de secuencia única y de secuencia múltiple. Los archivos de secuencia única son aquellos que solamente pueden manejar una secuencia por archivo creado, mientras que archivos de secuencia múltiple son los que pueden soportar una o varias secuencias por archivo creado. En esta última clasificación, los datos contenidos en las cadenas de caracteres pueden manipularse de forma secuencial o mediante intervalos. En la forma secuencial, cada cadena que es ingresada en el archivo se escribe de manera completa antes de que pueda ingresar una nueva cadena. En la forma intercalada, es posible llevar a cabo la escritura más de una cadena a la vez. Los archivos de secuencias se encuentran conformados básicamente por una o varias cadenas de caracteres que se encuentran ordenados siguiendo una lógica determinada, la cual depende de la naturaleza de información que se esté manejando. Sin ser una regla formal, se incluyen anotaciones, cadenas de identificación o indicaciones a manera de comentario. Un ejemplo de ello es el que se presenta a continuación: >ABCD Comentario ttcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgc agctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcg cccagatcaaggctcatgtagcctcactggagggcatt Los archivos de secuencias son utilizados para aplicaciones muy específicas, un ejemplo de ello es dentro del ámbito científico, más explícitamente en el campo de investigaciones de la bioinformática, los cuales suelen crearse para manejar información referente al alineamiento de las proteínas en la hemoglobina o la estructura de aminoácidos y el ADN, por citar algún ejemplos. Para llevar a cabo las operaciones más básicas (creación, consulta, actualización, compresión, etc.) sobre estos archivos, se suelen desarrollar aplicaciones de software que sean INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 3
  • 4. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 capaces de entender su contenido y manipularlo. Algunos ejemplos de programas de software que permiten el manejo de archivos de secuencias son SeqVerter (conversión entre formatos), ClustalW2 (manejo de información del ADN y proteínas), ModelTest (creación de modelos de nucleótidos), entre otros Debido a que en la actualidad existe una gran cantidad de programas informáticos desarrollados para el manejo de secuencia, también existe una variedad de formatos de archivos de secuencia ya que de manera general cada uno de los programas cuenta con su propio formato para trabajar de manera nativa con esta clase de archivos. A continuación se describen algunos de los formatos más comunes de archivos de secuencias. Clustal. Es uno de los formatos más difundidos y almacena información referente a nucleótidos y aminoácidos, representándolos mediante el código de letras. Al inicio del archivo se escribe la palabra “Clustal”. Ejemplo: CLUSTAL W(1.60) multiple sequence alignment YVKE1 SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSES YVKE2 KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSAS Phylip. Al igual al anterior formato, este se utiliza para manipular información referente nucleótidos y aminoácidos, sirviendo de entrada para diferentes programas de análisis de frecuencias. Al iniciar el archivo es necesario indicar mediante números en primera instancia el número de secuencias que analizará el programa y enseguida el número de caracteres de nucleótidos o aminoácidos separados por espacios en blanco. Ejemplo: 6 39 Archaeopt CGATGCTTAC CGCCGATGCT Hesperorn CGTTACTCGT TGTCTCTGCC Baluchith TAATGTTAAT TGTCGATGCT FASTA. Es uno de los formatos de archivos de secuencia más populares actualmente y el más simple. Cada una de las secuencias que contiene un archivo de este formato comienza con el carácter “>” seguido del identificador de dicha secuencia. Es posible incluir además una descripción. Ejemplo: >sec_1 descripción GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT >sec_2 ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 4
  • 5. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 RSF. Es un formato de archivo que puede contener una o más secuencias, el cual puede ser creado mediante la aplicación NetFech. Ejemplo: !!RICH_SEQUENCE 1.0 .. { name DQ160058 descrip Taraxacum officinale TO52-2 (To52-2) mRNA, partial cds. Staden. Es un formato que es exclusivo de la suite de análisis biológico Staden, en cuyo contenido únicamente se almacena la secuencia a manipular. Ejemplo: GGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCATTA CGACGTAGATGCTAGCTGACTCGATGCAGTACGTAGTAGCTGCTG CTACGTGCGCTAGCTAGTACGTCACGACGTAGATGCTAGCTGACT CGATGC Gcg. Al igual que el formato anterior, este es exclusivo de una suite de análisis biológico, llamada GCG. Posee por características que la primer línea debe de estar escrita en mayúscula, cuenta con líneas de descripción que detallan las secuencias y líneas que se encargan de dividir el contenido introduciendo el número de residuos en cada secuencia. Ejemplo: !!NA_SEQUENCE 1.0 test.seq Length: 5390 April 22, 1999 13:50 Type: N Check: 8167 .. 1 ttatataaaa aatgctgaaa acaggatcaa ggaggaagat ttaaatatag 51 atataatata tgggaagaaa cataaaaacg aaataagaac agctaaatat ABI. Este formato es utilizado por el secuenciador aplicado conocido como BioSystem. Posee la característica de guardar una única secuencia y ser de sólo lectura. EMBL. Es un formato por el cual se generan una serie de reportes acerca de secuencias de nucleótidos y proteínas, el cual se encuentra respaldado por el Laboratorio Europeo de Biología Molecular (EMBL por sus siglas en inglés). Para utilizarse en otros programas como el GCG, es necesario realizar su conversión en una primera instancia. Ejemplo: ID ECGOR standard; DNA; PRO; 1500 BP. AC M13141; SV M13141.1 NI g146247 DT 19-SEP-1987 (Rel. 13, Created) INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 5
  • 6. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 Conclusión En base a lo anteriormente expuesto, se llega a la conclusión de que los archivos de secuencias forman parte de la clasificación de archivos ASCII, los cuales se caracteriza por contener caracteres que pueden ser legibles por el ser humano cuando son consultados o abiertos. Además, los archivos de secuencias a su vez pueden dividirse en archivos de secuencia única y múltiple (según su contenido) o también en archivos secuenciales (permiten la escritura de una secuencia a la vez) e intercalado (permite la escritura de varias secuencias a la vez). Los archivos de secuencias permiten almacenar cadenas de caracteres que poseen un ordenamiento o patrón lógico, el cual está condicionado a la información que es manejada en el mismo. Estos archivos son utilizados principalmente para aplicaciones científicas y un ejemplo muy claro de ello son los estudios realizados en el área de la bioinformática con respecto a aminoácidos y nucleótidos. Para poder realizar las operaciones más básicas sobre estos archivos es necesaria la utilización de aplicaciones de software especializadas que sean capaces de entender su contenido, hablando tanto de las secuencias como de otro texto adicional (explicaciones, indicaciones, etc.). Debido a la gran cantidad de aplicaciones que permiten el manejo de archivos de secuencias, existe a la vez una gran variedad de formatos que en ocasiones son exclusivos de una suite determinada o que pueden ser compatibles entre aplicaciones de software diferentes. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 6
  • 7. [FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 Referencias bibliográfica • Bazinet, Adam. molecularevolution.org, file formats [en línea]. Recuperado el 8 de febrero del 2012, de http://molecularevolution.org/resources/fileformats. • European Bioinformatics Institute. EMBL – EBI site, Sequence Formats. Recuperado el 8 de febrero de 2012, de http://www.ebi.ac.uk/2can/tutorials/formats.html. • Computational Biology Research Group (2011, 18 de Noviembre). Bioinformatics FAQ, Examples of common sequence file formats. Recuperado el 8 de febrero de 2012, de http://www.compbio.ox.ac.uk/bioinformatics_faq/format_examples.shtml. • GeneStudio.com. GeneStudio site. Sequence file format notes. Recuperado el 8 de febrero de 2012, de http://www.genestudio.com/formats. • Blanca, José y Cañizares, Joaquín (2012, 30 de Enero). Bioinformatics at COMAV, Sequence file formats. Recuperado el 8 de febrero de 2012, de http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.ht ml. • Hernández, Héctor y Gutiérrez, Javier. Preguntas frecuentes, Tipos de archivos y archivos de secuencias. Recuperado el 8 de febrero de 2012, de http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html. INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO |Erick Rodríguez 7