En bioinformática y bioquímica , el formato FASTA es un formato basado en texto para representar secuencias de nucleótidos o secuencias de aminoácidos (proteínas), en el que los nucleótidos o aminoácidos se representan mediante códigos de una sola letra. El formato también permite que los nombres de secuencia y los comentarios precedan a las secuencias. El formato se origina en el paquete de software FASTA , pero ahora se ha convertido en un estándar casi universal en el campo de la bioinformática . [4]
Extensiones de nombre de archivo | .fasta, .fna, .ffn, .faa, .frn, .fa |
---|---|
Tipo de medio de Internet | text/x-fasta |
Desarrollado por | David J. Lipman William R. Pearson [1] [2] |
Versión inicial | 1985 |
Tipo de formato | Bioinformática |
Extendido desde | ASCII para FASTA |
Extendido a | Formato FASTQ [3] |
Sitio web | www |
La simplicidad del formato FASTA facilita la manipulación y el análisis de secuencias utilizando herramientas de procesamiento de texto y lenguajes de scripting como el lenguaje de programación R , Python , Ruby y Perl .
Formato original y descripción general
El formato original de FASTA / Pearson se describe en la documentación del conjunto de programas FASTA . Se puede descargar con cualquier distribución gratuita de FASTA (consulte fasta20.doc, fastaVN.doc o fastaVN.me, donde VN es el número de versión).
En el formato original, una secuencia se representaba como una serie de líneas, cada una de las cuales no tenía más de 120 caracteres y, por lo general, no superaba los 80 caracteres. Esto probablemente fue para permitir la preasignación de tamaños de líneas fijas en el software: en ese momento, la mayoría de los usuarios confiaban en terminales VT220 (o compatibles) de Digital Equipment Corporation (DEC) que podían mostrar 80 o 132 caracteres por línea. [ cita requerida ] La mayoría de la gente prefirió la fuente más grande en los modos de 80 caracteres y por eso se convirtió en la moda recomendada utilizar 80 caracteres o menos (a menudo 70) en las líneas FASTA. Además, el ancho de una página impresa estándar es de 70 a 80 caracteres (según la fuente). Por lo tanto, 80 caracteres se convirtieron en la norma. [ cita requerida ]
La primera línea de un archivo FASTA comenzaba con un símbolo ">" (mayor que) o, con menos frecuencia, un ";" [ cita requerida ] (punto y coma) se tomó como comentario. El software ignorará las líneas posteriores que comiencen con un punto y coma. Dado que el único comentario utilizado fue el primero, rápidamente se usó para contener una descripción resumida de la secuencia, a menudo comenzando con un número de acceso a la biblioteca único, y con el tiempo se ha vuelto común usar siempre ">" para la primera línea y para No utilice ";" comentarios (que de otro modo serían ignorados).
Después de la línea inicial (utilizada para una descripción única de la secuencia) estaba la secuencia real en sí en una cadena de caracteres estándar de una letra. Todo lo que no sea un carácter válido se ignorará (incluidos espacios, tabuladores, asteriscos, etc.). También era común terminar la secuencia con un carácter "*" (asterisco) (en analogía con el uso en secuencias formateadas PIR) y, por la misma razón, dejar una línea en blanco entre la descripción y la secuencia. A continuación se muestran algunas secuencias de muestra:
; LCBO - Precursor de prolactina - Bovino; una secuencia de muestra en formato FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC *> MCHU - Calmodulina - Humano, conejo, bovino, rata y polloMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK *> gi | 5524211 | gb | AAD44166.1 | citocromo b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY
Se obtendría un formato FASTA de secuencia múltiple concatenando varios archivos FASTA de secuencia única en un archivo común (también conocido como formato FASTA múltiple). Esto no implica una contradicción con el formato, ya que solo la primera línea de un archivo FASTA puede comenzar con un ";" o ">", por lo tanto, obliga a todas las secuencias posteriores a comenzar con un ">" para ser tomadas como diferentes (y además obliga a la reserva exclusiva de ">" para la línea de definición de secuencia). Por lo tanto, los ejemplos anteriores también pueden tomarse como un archivo de múltiples secuencias (es decir, múltiples FASTA) si se toman en conjunto.
Hoy en día, los programas bioinformáticos modernos que se basan en el formato FASTA esperan que los encabezados de la secuencia estén precedidos por ">", y la secuencia real, aunque generalmente se representa como "intercalada", es decir, en varias líneas como en el ejemplo anterior, también puede ser " secuencial "cuando el tramo completo se encuentra en una sola línea. Los usuarios a menudo pueden necesitar realizar una conversión entre el formato FASTA "secuencial" e "intercalado" para ejecutar diferentes programas bioinformáticos.
Línea descriptiva
La línea de descripción (defline) o la línea de encabezado / identificador, que comienza con '>', da un nombre y / o un identificador único para la secuencia, y también puede contener información adicional. En una práctica obsoleta, la línea del encabezado a veces contenía más de un encabezado, separados por un carácter ^ A (Control-A). En el formato original de Pearson FASTA, uno o más comentarios, que se distinguen por un punto y coma al principio de la línea, pueden aparecer después del encabezado. Algunas bases de datos y aplicaciones bioinformáticas no reconocen estos comentarios y siguen la especificación NCBI FASTA . A continuación, se muestra un ejemplo de un archivo FASTA de secuencia múltiple:
> SECUENCIA_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL> SECUENCIA_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Identificadores NCBI
El NCBI definió un estándar para el identificador único utilizado para la secuencia (SeqID) en la línea del encabezado. Esto permite etiquetar una secuencia que se obtuvo de una base de datos con una referencia a su registro de base de datos. El formato del identificador de la base de datos es entendido por las herramientas NCBI como makeblastdb
y table2asn
. La siguiente lista describe el formato definido por NCBI FASTA para identificadores de secuencia. [5]
Tipo | Formato (s) | Ejemplo (s) |
---|---|---|
local (es decir, sin referencia de base de datos) | lcl|integer
| lcl|123
|
Seqid de la columna vertebral de GenInfo | bbs|integer | bbs|123 |
Moltype de columna vertebral GenInfo | bbm|integer | bbm|123 |
ID de importación de GenInfo | gim|integer | gim|123 |
GenBank | gb|accession|locus | gb|M73307|AGMA13GT |
EMBL | emb|accession|locus | emb|CAM43271.1| |
PIR | pir|accession|name | pir||G36364 |
SUIZO-PROT | sp|accession|name | sp|P01013|OVAX_CHICK |
patentar | pat|country|patent|sequence-number | pat|US|RE33188|1 |
patente previa a la concesión | pgp|country|application-number|sequence-number | pgp|EP|0238993|7 |
RefSeq | ref|accession|name | ref|NM_010450.1| |
referencia de base de datos general (una referencia a una base de datos que no está en esta lista) | gnl|database|integer
| gnl|taxon|9606
|
Base de datos integrada GenInfo | gi|integer | gi|21434723 |
DDBJ | dbj|accession|locus | dbj|BAC85684.1| |
PRF | prf|accession|name | prf||0806162C |
PDB | pdb|entry|chain | pdb|1I4L|D |
GenBank de terceros | tpg|accession|name | tpg|BK003456| |
EMBL de terceros | tpe|accession|name | tpe|BN000123| |
DDBJ de terceros | tpd|accession|name | tpd|FAA00017| |
Problema | tr|accession|name | tr|Q90RT2|Q90RT2_9HIV1 |
Las barras verticales ("|") en la lista anterior no son separadores en el sentido de la forma Backus – Naur , pero son parte del formato. Se pueden concatenar varios identificadores, también separados por barras verticales.
Representación de secuencia
Siguiendo la línea del encabezado, se representa la secuencia real. Las secuencias pueden ser secuencias de proteínas o secuencias de ácidos nucleicos y pueden contener espacios o caracteres de alineación (ver alineación de secuencias ). Se espera que las secuencias estén representadas en los códigos estándar de aminoácidos y ácidos nucleicos IUB / IUPAC , con estas excepciones: se aceptan letras minúsculas y se mapean en mayúsculas; se puede usar un solo guión o guión para representar un carácter de espacio; y en las secuencias de aminoácidos, U y * son letras aceptables (ver más abajo). No se permiten dígitos numéricos, pero se utilizan en algunas bases de datos para indicar la posición en la secuencia. Los códigos de ácido nucleico admitidos son: [6] [7] [8]
Código de ácido nucleico | Significado | Mnemotécnico |
---|---|---|
A | A | Un denine |
C | C | C ytosine |
GRAMO | GRAMO | G uanine |
T | T | T hymine |
U | U | U racil |
(I) | I | i nosine (no estándar) |
R | A o G (I) | pu R ine |
Y | C, T o U | p Y rimidinas |
K | G, T o U | bases que son K etones |
METRO | A o C | bases con un M ino grupos |
S | C o G | Interacción S trong |
W | A, T o U | W interacción EAK |
B | no A (es decir, C, G, T o U) | B viene después de A |
D | no C (es decir, A, G, T o U) | D viene después de C |
H | no G (es decir, A, C, T o U) | H viene después de G |
V | ni T ni U (es decir, A, C o G) | V viene después de U |
norte | ACGTU | N ácido ucleic |
- | espacio de longitud indeterminada |
Los códigos de aminoácidos admitidos (22 aminoácidos y 3 códigos especiales) son:
Código de aminoácidos | Significado |
---|---|
A | Alanina |
B | Ácido aspártico (D) o asparagina (N) |
C | Cisteína |
D | Ácido aspártico |
mi | Ácido glutamico |
F | Fenilalanina |
GRAMO | Glicina |
H | Histidina |
I | Isoleucina |
J | Leucina (L) o isoleucina (I) |
K | Lisina |
L | Leucina |
METRO | Metionina / codón de inicio |
norte | Asparagina |
O | Pirrolisina (raro) |
PAG | Prolina |
Q | Glutamina |
R | Arginina |
S | Serina |
T | Treonina |
U | Selenocisteína (raro) |
V | Valina |
W | Triptófano |
Y | Tirosina |
Z | Ácido glutámico (E) o glutamina (Q) |
X | alguna |
* | parada de traducción |
- | espacio de longitud indeterminada |
Archivo FASTA
Extensión de nombre de archivo
No existe una extensión de nombre de archivo estándar para un archivo de texto que contiene secuencias con formato FASTA. La siguiente tabla muestra cada extensión y su significado respectivo.
Extensión | Significado | Notas |
---|---|---|
fasta, fa [9] | FASTA genérico | Cualquier archivo fasta genérico. Consulte a continuación otras extensiones de archivo FASTA comunes |
fna | Ácido nucleico FASTA | Usado genéricamente para especificar ácidos nucleicos. |
ffn | Nucleótido FASTA de regiones genéticas | Contiene regiones codificantes de un genoma. |
faa | Aminoácido FASTA | Contiene secuencias de aminoácidos. Un archivo fasta de múltiples proteínas puede tener la extensión mpfa más específica. |
frn | ARN no codificante FASTA | Contiene regiones de ARN no codificantes para un genoma, en el alfabeto de ADN, por ejemplo, ARNt, ARNr |
Compresión
La compresión de archivos FASTA requiere un compresor específico para manejar ambos canales de información: identificadores y secuencia. Para obtener mejores resultados de compresión, estos se dividen principalmente en dos flujos en los que la compresión se realiza asumiendo independencia. Por ejemplo, el algoritmo MFCompress [10] realiza una compresión sin pérdidas de estos archivos mediante el modelado de contexto y la codificación aritmética. Para ver los puntos de referencia de los algoritmos de compresión de archivos FASTA, consulte Hosseini et al., 2016, [11] y Kryukov et al., 2020. [12]
Cifrado
El cifrado de archivos FASTA se ha abordado principalmente con una herramienta de cifrado específica: Cryfa. [13] [14] Cryfa utiliza cifrado AES y permite compactar datos además del cifrado. También puede abordar archivos FASTQ.
Extensiones
El formato FASTQ es una forma de formato FASTA extendido para indicar información relacionada con la secuenciación. Es creado por el Centro Sanger en Cambridge. [3]
A2M / A3M son una familia de formatos derivados de FASTA utilizados para alineamientos de secuencia . En las secuencias A2M / A3M, los caracteres en minúscula se toman como inserciones, que luego se indican en las otras secuencias como el punto (" . ") carácter. Los puntos se pueden descartar por compacidad sin pérdida de información. Al igual que con el típico FASTA utilizado en alineaciones, el espacio (" - ") se considera que significa exactamente una posición. [15] A3M es similar a A2M, con la regla adicional de que los espacios alineados con las inserciones también pueden descartarse. [16]
Trabajar con archivos FASTA
La comunidad dispone de una gran cantidad de scripts fáciles de usar para realizar manipulaciones de archivos FASTA. La caja de herramientas en línea también está disponible como FaBox [17] o FASTX-Toolkit dentro de los servidores Galaxy. [18] Por ejemplo, estos pueden usarse para segregar encabezados / identificadores de secuencia, renombrarlos, acortarlos o extraer secuencias de interés de archivos grandes FASTA basados en una lista de identificadores deseados (entre otras funciones disponibles). También existe un enfoque basado en árboles para clasificar archivos multi-FASTA (TREE2FASTA [19] ) basado en el color y / o la anotación de la secuencia de interés en el visor FigTree. Además, de Bioconductor.org Biostrings paquete se puede utilizar para leer y manipular archivos FASTA en R . [20]
Existen varios convertidores de formato en línea para reformatear rápidamente archivos multi-FASTA a diferentes formatos (por ejemplo, NEXUS, PHYLIP) para su uso con diferentes programas filogenéticos (por ejemplo, como el convertidor disponible en phylogeny.fr. [21]
Ver también
- El formato FASTQ , utilizado para representar las lecturas del secuenciador de ADN junto con las puntuaciones de calidad.
- El formato SAM , utilizado para representar las lecturas del secuenciador del genoma, generalmente, pero no necesariamente, después de que se hayan alineado con las secuencias del genoma. [22]
- El formato GVF (Genome Variation Format), una extensión basada en el formato GFF3 .
Referencias
- ^ Lipman DJ, Pearson WR (marzo de 1985). "Búsquedas rápidas y sensibles de similitud de proteínas". Ciencia . 227 (4693): 1435–41. Código Bibliográfico : 1985Sci ... 227.1435L . doi : 10.1126 / science.2983426 . PMID 2983426 .
- ^ Pearson WR, Lipman DJ (abril de 1988). "Herramientas mejoradas para la comparación de secuencias biológicas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–8. Código Bibliográfico : 1988PNAS ... 85.2444P . doi : 10.1073 / pnas.85.8.2444 . PMC 280013 . PMID 3162770 .
- ^ a b Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (abril de 2010). "El formato de archivo Sanger FASTQ para secuencias con puntajes de calidad y las variantes Solexa / Illumina FASTQ" . Investigación de ácidos nucleicos . 38 (6): 1767–71. doi : 10.1093 / nar / gkp1137 . PMC 2847217 . PMID 20015970 .
- ^ "¿Qué es el formato FASTA?" . zhanglab.ccmb.med.umich.edu . explica el formato FASTA
- ^ Libro de herramientas de NCBI C ++ . Centro Nacional de Información Biotecnológica . Consultado el 19 de diciembre de 2018 .
- ^ Tao Tao (24 de agosto de 2011). "Códigos de una sola letra para nucleótidos" . [Centro de aprendizaje NCBI] . Centro Nacional de Información Biotecnológica . Consultado el 15 de marzo de 2012 .
- ^ "Tabla de códigos IUPAC" . NIAS DNA Bank. Archivado desde el original el 11 de agosto de 2011.
- ^ "cualquier símbolo" . MAFFT: un programa de alineación de secuencias múltiples .
- ^ "Formatos de archivo de alineación" . 22 de mayo de 2019 . Consultado el 22 de mayo de 2019 .
- ^ Pinho AJ, Pratas D (enero de 2014). "MFCompress: una herramienta de compresión para datos FASTA y multi-FASTA" . Bioinformática . 30 (1): 117–8. doi : 10.1093 / bioinformatics / btt594 . PMC 3866555 . PMID 24132931 .
- ^ M. Hosseini, D. Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4) :( 2016): 56
- ^ Kryukov K, Ueda MT, Nakagawa S, Imanishi T (julio de 2020). "Base de datos de Sequence Compression Benchmark (SCB): una evaluación completa de compresores sin referencia para secuencias con formato FASTA" . GigaScience . 9 (7): giaa072. doi : 10.1093 / gigascience / giaa072 . PMC 7336184 . PMID 32627830 .
- ^ Pratas D, Hosseini M, Pinho A (2017). "Cryfa: una herramienta para compactar y cifrar archivos FASTA". XI Congreso Internacional de Aplicaciones Prácticas de Biología Computacional y Bioinformática (PACBB) . Avances en Computación y Sistemas Inteligentes. 616 . Saltador. págs. 305–312. doi : 10.1007 / 978-3-319-60816-7_37 . ISBN 978-3-319-60815-0.
- ^ Hosseini M, Pratas D, Pinho A (2018). Cryfa: una herramienta de cifrado segura para datos genómicos . Bioinformática . 35 . págs. 146-148. doi : 10.1093 / bioinformatics / bty645 . PMC 6298042 . PMID 30020420 .
- ^ "Descripción del formato de alineación A2M" . SAMtools .
- ^ "soedinglab / hh-suite: reformat.pl" . GitHub .
- ^ Villesen P (abril de 2007). "FaBox: una caja de herramientas en línea para secuencias fasta". Recursos de ecología molecular . 7 (6): 965–968. doi : 10.1111 / j.1471-8286.2007.01821.x .
- ^ Blankenberg D, Von Kuster G, Bouvier E, Baker D, Afgan E, Stoler N, Galaxy Team, Taylor J, Nekrutenko A (2014). "Difusión de software científico con Galaxy ToolShed" . Biología del genoma . 15 (2): 403. doi : 10.1186 / gb4161 . PMC 4038738 . PMID 25001293 .
- ^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (marzo de 2018). "TREE2FASTA: un script Perl flexible para la extracción por lotes de secuencias FASTA de árboles filogenéticos exploratorios" . Notas de investigación de BMC . 11 (1): 403. doi : 10.1186 / s13104-018-3268-y . PMC 5838971 . PMID 29506565 .
- ^ Pagès, H; Aboyoun, P; Caballero, R; DebRoy, S (2018). " Biocuerdas: manipulación eficiente de cadenas biológicas " . Bioconductor.org . Versión del paquete R 2.48.0.
- ^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (julio de 2008). "Phylogeny.fr: análisis filogenético robusto para los no especialistas" . Investigación de ácidos nucleicos . 36 (Problema del servidor web): W465–9. doi : 10.1093 / nar / gkn180 . PMC 2447785 . PMID 18424797 .
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf
enlaces externos
- Bioconductor
- Kit de herramientas FASTX
- Visor FigTree
- Phylogeny.fr
- GTO