Formato FASTQ

El formato FASTQ es un formato basado en texto para almacenar tanto una secuencia biológica (generalmente secuencia de nucleótidos ) como sus puntuaciones de calidad correspondientes. Tanto la letra de secuencia como la puntuación de calidad están codificadas con un solo carácter ASCII para mayor brevedad.

Formato FASTQ
Tipo de medio de Internet	texto / normal, químico / seq-na-fastq
Desarrollado por	Wellcome Trust Sanger Institute
Versión inicial	~ 2000
Tipo de formato	Bioinformática
Extendido desde	Formato ASCII y FASTA
Sitio web	maq .sourceforge .net / fastq .shtml

Se desarrolló originalmente en el Wellcome Trust Sanger Institute para agrupar una secuencia formateada FASTA y sus datos de calidad, pero recientemente se ha convertido en el estándar de facto para almacenar la salida de instrumentos de secuenciación de alto rendimiento como Illumina Genome Analyzer. ^[1]

Formato

Un archivo FASTQ normalmente usa cuatro líneas por secuencia.

La línea 1 comienza con un carácter '@' y va seguida de un identificador de secuencia y una descripción opcional (como una línea de título FASTA ).
La línea 2 son las letras de secuencia sin procesar.
La línea 3 comienza con un carácter '+' y, opcionalmente, va seguida de nuevo por el mismo identificador de secuencia (y cualquier descripción).
La línea 4 codifica los valores de calidad para la secuencia en la línea 2 y debe contener el mismo número de símbolos que letras en la secuencia.

Un archivo FASTQ que contenga una sola secuencia podría verse así:

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+! '' * ((((*** +)) %%% ++) (%%%%). 1 *** - + * '')) ** 55CCF >>>>>> 0000-C65

El byte que representa la calidad va de 0x21 (calidad más baja; '!' En ASCII) a 0x7e (calidad más alta; '~' en ASCII). Estos son los caracteres de valor de calidad en orden creciente de calidad de izquierda a derecha ( ASCII ):

 ! "# $% & '() * +, -. / 0123456789:; <=>? @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\] ^ _` abcdefghijklmnopqrstuvwxyz {|} ~

Los archivos FASTQ originales de Sanger también permitieron que la secuencia y las cadenas de calidad se ajustaran (dividir en varias líneas), pero esto generalmente no se recomienda ^{[ cita requerida ]} ya que puede complicar el análisis debido a la desafortunada elección de "@" y "+" como marcadores (estos caracteres también pueden aparecer en la cadena de calidad).

Identificadores de secuencia de Illumina

Las secuencias del software Illumina utilizan un identificador sistemático:

@ HWUSI-EAS100R: 6: 73: 941: 1973 # 0/1

HWUSI-EAS100R	el nombre único del instrumento
6	carril de la celda de flujo
73	número de mosaico dentro del carril de la celda de flujo
941	Coordenada 'x' del grupo dentro del mosaico
1973	Coordenada 'y' del grupo dentro del mosaico
# 0	número de índice para una muestra multiplexada (0 para sin indexación)
/ 1	el miembro de un par, / 1 o / 2 (solo lecturas de pares de pares o pares de parejas)

Las versiones de la tubería de Illumina desde 1.4 parecen usar #NNNNNN en lugar de # 0 para el ID de multiplexación, donde NNNNNN es la secuencia de la etiqueta de multiplexación.

Con Casava 1.8, el formato de la línea '@' ha cambiado:

@ EAS139: 136: FC706VJ: 2: 2104: 15343: 197393 1: Y: 18: ATCACG

EAS139	el nombre único del instrumento
136	la identificación de ejecución
FC706VJ	la identificación de la celda de flujo
2	carril de la celda de flujo
2104	número de mosaico dentro del carril de la celda de flujo
15343	Coordenada 'x' del grupo dentro del mosaico
197393	Coordenada 'y' del grupo dentro del mosaico
1	el miembro de un par, 1 o 2 (solo lecturas de pares de pares o pares de pares)
Y	Y si la lectura se filtra (no pasó), N en caso contrario
18	0 cuando ninguno de los bits de control está activado, de lo contrario es un número par
ATCACG	secuencia de índice

Tenga en cuenta que las versiones más recientes del software Illumina generan un número de muestra (tomado de la hoja de muestras) en lugar de una secuencia de índice. Por ejemplo, el siguiente encabezado puede aparecer en la primera muestra de un lote:

@ EAS139: 136: FC706VJ: 2: 2104: 15343: 197393 1: N: 18: 1

Archivo de lectura de secuencia NCBI

Los archivos FASTQ del archivo de lectura de secuencia de INSDC a menudo incluyen una descripción, p. Ej.

@ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 longitud = 36GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC+ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 longitud = 36IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

En este ejemplo, hay un identificador asignado por NCBI y la descripción contiene el identificador original de Solexa / Illumina (como se describió anteriormente) más la longitud de lectura. La secuenciación se realizó en modo de extremo emparejado (tamaño de inserción de ~ 500 pb), consulte SRR001666 . El formato de salida predeterminado de fastq-dump produce anuncios completos, que contienen lecturas técnicas y, por lo general, lecturas biológicas de un solo extremo o pares.

$ fastq-dump.2.9.0 -Z -X 2 SRR001666 Lectura de 2 puntos para SRR001666 Escritos de 2 puntos para SRR001666 @ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 longitud = 72 GGGTGATGGCCGCTGCCGATGGCCAGTCAAAG1_SRR001666_SRR001666_SRR001666_SLXA -EAS1_s_7: 5: 1: 817: 345 longitud = 72 GGGTGATGGCCGCTGCCGATGGCCGACTCAAAT1_SRR001666_SRR001666 . : 5: 1: 817: 345 longitud = 72 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9ICIIIIIIIIIIIIIIIIIIIIDIIIIIII> IIIIII / @ SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 longitud = 72 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGAAGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT + SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 longitud = 72 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBIIIIIIIIIIIIIIIIIIIIIIIGII> IIIII-I) 8I

El uso moderno de FASTQ casi siempre implica dividir el lugar en sus lecturas biológicas, como se describe en los metadatos proporcionados por el remitente:

$ fastq-dump -X 2 SRR001666 --split-3 Leer 2 puntos para SRR001666 Escritos 2 puntos para SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @ SRR001666.1 071112_SLXA-EAS1_s_7 1: 817: 345 longitud = 36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 longitud = 36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 longitud = 36 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + SRR001666. 2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 longitud = 36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI==> SRR001666_2.fastq <== @ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 longitud = 36 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA + SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 longitud = 36 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA + SRR001666.1 071112_SLXA-EASII: 341_IIIs longitud: IIIIIII: 1 @ SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 longitud = 36 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT + SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: IIIIIII)

Cuando está presente en el archivo, fastq-dump puede intentar restaurar los nombres leídos al formato original. NCBI no almacena los nombres de lectura originales de forma predeterminada:

$ fastq-dump -X 2 SRR001666 --split-3 --origfmt Leer 2 puntos para SRR001666 Escritos 2 puntos para SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @ 071112_SLXA-EAS1_s_7 1: 817: 345 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI==> SRR001666_2.fastq <== @ 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA + 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 IIIIIIIIIIIIIIIIIIIIDIIIIIII> IIIIII / @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT + 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 IIIIIIIIIIIIIIIIIIIIIIGII> IIIII-I) 8I

En el ejemplo anterior, se utilizaron los nombres de lectura originales en lugar del nombre de lectura mencionado. Las accesiones de NCBI se ejecutan y las lecturas que contienen. Los nombres de lectura originales, asignados por secuenciadores, pueden funcionar como identificadores locales únicos de una lectura y transmitir exactamente tanta información como un número de serie. Los identificadores anteriores se asignaron algorítmicamente en función de la información de ejecución y las coordenadas geométricas. Los primeros cargadores de SRA analizaron estos identificadores y almacenaron sus componentes descompuestos internamente. NCBI dejó de registrar los nombres leídos porque con frecuencia se modifican del formato original de los proveedores para asociar información adicional significativa a una tubería de procesamiento en particular, y esto provocó violaciones de formato de nombre que dieron como resultado un gran número de envíos rechazados. Sin un esquema claro para los nombres leídos, su función sigue siendo la de una identificación de lectura única, que transmite la misma cantidad de información que un número de serie leído. Consulte varios problemas del kit de herramientas de la SRA para obtener detalles y discusiones.

También tenga en cuenta que fastq-dump convierte estos datos FASTQ de la codificación original de Solexa / Illumina al estándar Sanger (consulte las codificaciones a continuación). Esto se debe a que la SRA sirve como depósito de información NGS, en lugar de formato . Las diversas herramientas * -dump son capaces de producir datos en varios formatos desde la misma fuente. Los requisitos para hacerlo los han dictado los usuarios durante varios años, y la mayor parte de la demanda inicial proviene del Proyecto 1000 Genomas .

Variaciones

Calidad

Un valor de calidad Q es un mapeo entero de p (es decir, la probabilidad de que la llamada base correspondiente sea incorrecta). Se han utilizado dos ecuaciones diferentes. La primera es la variante estándar de Sanger para evaluar la confiabilidad de una llamada base, también conocida como puntaje de calidad Phred :

${\ Displaystyle Q _ {\ text {sanger}} = - 10 \, \ log _ {10} p}$

La tubería de Solexa (es decir, el software entregado con Illumina Genome Analyzer) utilizó anteriormente un mapeo diferente, codificando las probabilidades p / (1- p ) en lugar de la probabilidad p :

${\ Displaystyle Q _ {\ text {solexa-anterior a v.1.3}} = - 10 \, \ log _ {10} {\ frac {p} {1-p}}}$

Aunque ambas asignaciones son asintóticamente idénticas a valores de calidad más altos, difieren a niveles de calidad más bajos (es decir, aproximadamente p > 0.05, o equivalentemente, Q <13).

Relación entre Q y p utilizando las ecuaciones de Sanger (rojo) y Solexa (negro) (descritas anteriormente). La línea de puntos vertical indica p = 0.05, o equivalentemente, Q ≈ 13.

En ocasiones, ha habido desacuerdos sobre qué mapeo utiliza realmente Illumina. La guía del usuario (Apéndice B, página 122) para la versión 1.4 de la tubería de Illumina establece que: "Las puntuaciones se definen como Q = 10 * log10 (p / (1-p)) [ sic ], donde p es la probabilidad de una llamada de base correspondiente a la base en cuestión ". ^[2] En retrospectiva, esta entrada en el manual parece haber sido un error. La guía del usuario (Novedades, página 5) para la versión 1.5 de la canalización de Illumina incluye esta descripción en su lugar: "Cambios importantes en la canalización v1.3 [ sic ]. El esquema de puntuación de calidad ha cambiado al esquema de puntuación Phred [es decir, Sanger] , codificado como un carácter ASCII agregando 64 al valor Phred. Una puntuación Phred de una base es: ${\ Displaystyle Q _ {\ text {phred}} = - 10 \ log _ {\ text {10}} e}$ , donde e es la probabilidad estimada de que una base sea incorrecta. ^[3]

Codificación

El formato Sanger puede codificar una puntuación de calidad Phred de 0 a 93 utilizando ASCII 33 a 126 (aunque en los datos de lectura sin procesar la puntuación de calidad Phred rara vez supera los 60, es posible obtener puntuaciones más altas en ensamblajes o mapas de lectura). También se utiliza en formato SAM. ^{[4] A} finales de febrero de 2011, la versión más reciente de Illumina (1.8) de su canalización CASAVA producirá directamente fastq en formato Sanger, según el anuncio en el foro seqanswers.com. ^[5]
Las lecturas de PacBio HiFi, que normalmente se almacenan en formato SAM / BAM, utilizan la convención de Sanger: las puntuaciones de calidad Phred de 0 a 93 se codifican utilizando ASCII 33 a 126. Los subads de PacBio sin procesar utilizan la misma convención pero normalmente asignan una calidad de base de marcador de posición (Q0 ) a todas las bases en la lectura. ^[6]
El formato Solexa / Illumina 1.0 puede codificar un puntaje de calidad Solexa / Illumina de -5 a 62 usando ASCII 59 a 126 (aunque en los datos de lectura sin procesar solo se esperan puntajes Solexa de -5 a 40)
A partir de Illumina 1.3 y antes de Illumina 1.8, el formato codificó una puntuación de calidad Phred de 0 a 62 utilizando ASCII 64 a 126 (aunque en los datos de lectura sin procesar solo se esperan puntuaciones Phred de 0 a 40).
A partir de Illumina 1.5 y antes de Illumina 1.8, las puntuaciones Phred de 0 a 2 tienen un significado ligeramente diferente. Los valores 0 y 1 ya no se utilizan y el valor 2, codificado por ASCII 66 "B", se utiliza también al final de las lecturas como indicador de control de calidad de segmento de lectura . ^[7] El manual de Illumina ^[8] (página 30) establece lo siguiente: Si una lectura termina con un segmento de calidad mayoritariamente baja (Q15 o inferior), todos los valores de calidad del segmento se reemplazan por un valor de 2 (codificado como la letra B en la codificación de puntajes de calidad basada en texto de Illumina) ... Este indicador Q2 no predice una tasa de error específica, sino que indica que una parte final específica de la lectura no debe usarse en análisis posteriores. Además, el puntaje de calidad codificado como letra "B" puede ocurrir internamente en lecturas al menos hasta la versión 1.6 de la canalización, como se muestra en el siguiente ejemplo:

@ HWI-EAS209_0006_FC706VJ: 5: 58: 5894: 21141 # ATCACG / 1TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTGTTGGGGGAGACATTTTTGTGATTGCCTTGAT+ HWI-EAS209_0006_FC706VJ: 5: 58: 5894: 21141 # ATCACG / 1efcfffffcfeefffcffffffddf`feed] `] _Ba _ ^ __ [YBBBBBBBBBBRTT \]] [] dddd`ddd ^ dddadd ^ BBBBBBBBBBBBBBBBBBBBBBB

Se ha propuesto una interpretación alternativa de esta codificación ASCII. ^[9] Además, en las ejecuciones de Illumina con controles PhiX, se observó que el carácter 'B' representaba una "puntuación de calidad desconocida". La tasa de error de las lecturas 'B' fue aproximadamente 3 puntuaciones phred más bajas que la puntuación media observada de una ejecución determinada.

A partir de Illumina 1.8, los puntajes de calidad básicamente han vuelto al uso del formato Sanger (Phred + 33).

En el caso de las lecturas sin procesar, el rango de puntuaciones dependerá de la tecnología y de la persona que llama de base utilizada, pero normalmente será de hasta 41 para la química reciente de Illumina. Dado que el puntaje de calidad máximo observado anteriormente era solo 40, varios scripts y herramientas se rompen cuando encuentran datos con valores de calidad superiores a 40. Para las lecturas procesadas, los puntajes pueden ser incluso más altos. Por ejemplo, se observan valores de calidad de 45 en las lecturas del Servicio de secuenciación de lectura larga de Illumina (anteriormente Moleculo).

 SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS ................................................. .... .......................... XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ...................... ............................... IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII .................. .... ................................. J JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ ............... ...... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL ........................................... ......... PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPP  ! "# $% & '() * +, -. / 0123456789:; <=>? @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\] ^ _` abcdefghijklmnopqrstuvwxyz {|} ~ | | | | | | 33 59 64 73 104126 0 ........................ 26 ... 31 .......  40-5 .... 0 ..... ... 9 ............................. 40  0 ........ 9 ...... ....................... 40  3 ..... 9 ................... ........... 41  0.2 ...................... 26 ... 31 ........ 41  0 .................. 20 ........ 30 ........ 40 ........ 50 .... ...................................... 93

 S - Sanger Phred + 33, lecturas sin procesar típicamente (0, 40)  X - Solexa Solexa + 64, lecturas sin procesar típicamente (-5, 40)  I - Illumina 1.3+ Phred + 64, lecturas sin procesar típicamente (0, 40)  J - Illumina 1.5+ Phred + 64, lecturas sin procesar típicamente (3, 41) con 0 = sin usar, 1 = sin usar, 2 = Indicador de control de calidad del segmento de lectura (negrita)  (Nota: consulte la discusión anterior).  L - Illumina 1.8+ Phred + 33, lecturas sin procesar típicamente (0, 41)  P - PacBio Phred + 33, lecturas de alta fidelidad típicamente (0, 93)

Espacio de color

Para los datos SOLiD, la secuencia está en el espacio de color, excepto la primera posición. Los valores de calidad son los del formato Sanger. Las herramientas de alineación difieren en su versión preferida de los valores de calidad: algunas incluyen una puntuación de calidad (establecida en 0, es decir, '!') Para el nucleótido principal, otras no. El archivo de lectura de secuencia incluye esta puntuación de calidad.

Simulación

La simulación de lectura FASTQ se ha abordado mediante varias herramientas. ^[10]^[11] Aquí se puede ver una comparación de esas herramientas. ^[12]

Compresión

Compresores generales

Las herramientas de uso general como Gzip y bzip2 consideran FASTQ como un archivo de texto sin formato y dan como resultado relaciones de compresión subóptimas. El archivo de lectura de secuencia de NCBI codifica metadatos utilizando el esquema LZ-77. Los compresores FASTQ generales normalmente comprimen campos distintos (nombres de lectura, secuencias, comentarios y puntuaciones de calidad) en un archivo FASTQ por separado; estos incluyen Genozip, ^[13] DSRC y DSRC2, FQC, LFQC, Fqzcomp y Slimfastq.

Lee

Tener un genoma de referencia es conveniente porque entonces, en lugar de almacenar las propias secuencias de nucleótidos, uno puede simplemente alinear las lecturas con el genoma de referencia y almacenar las posiciones (punteros) y desajustes; los punteros pueden entonces clasificarse según su orden en la secuencia de referencia y codificarse, por ejemplo, con codificación de longitud de ejecución. Cuando la cobertura o el contenido repetido del genoma secuenciado es alto, esto conduce a una alta tasa de compresión. A diferencia de los formatos SAM / BAM, los archivos FASTQ no especifican un genoma de referencia. Los compresores FASTQ basados en alineación admiten el uso de referencias ensambladas de novo o proporcionadas por el usuario : LW-FQZip utiliza un genoma de referencia proporcionado y Quip, Leon, k-Path y KIC realizan ensamblajes de novo utilizando un enfoque basado en gráficos de Bruijn . Genozip ^[13] puede utilizar opcionalmente una referencia si el usuario proporciona una, que puede ser un archivo de referencia de una o varias especies.

El mapeo de lectura explícito y el ensamblaje de novo suelen ser lentos. Los compresores FASTQ basados en reordenamiento primero agrupan lecturas que comparten subcadenas largas y luego comprimen de forma independiente las lecturas en cada clúster después de reordenarlas o ensamblarlas en contigs más largos , logrando quizás la mejor compensación entre el tiempo de ejecución y la tasa de compresión. SCALCE es la primera herramienta de este tipo, seguida de Orcom y Mince. BEETL utiliza una transformación Burrows-Wheeler generalizada para reordenar las lecturas, y HARC logra un mejor rendimiento con reordenación basada en hash. En cambio, AssemblTrie ensambla lecturas en árboles de referencia con el menor número total de símbolos posible en la referencia. ^[14]^[15]

Los puntos de referencia para estas herramientas están disponibles en. ^[16]

Valores de calidad

Los valores de calidad representan aproximadamente la mitad del espacio de disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Recientemente se están considerando en la literatura tanto la compresión sin pérdidas como con pérdidas. Por ejemplo, el algoritmo QualComp ^[17] realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basándose en los resultados de la teoría de la distorsión de la velocidad, asigna el número de bits para minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE ^[18] y Fastqz. ^[19] Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque de transformación con pérdida controlada opcional. Por ejemplo, SCALCE reduce el tamaño del alfabeto basándose en la observación de que los valores de calidad "vecinos" son similares en general. Para obtener un punto de referencia, consulte. ^[20]

A partir de HiSeq 2500, Illumina ofrece la opción de imprimir calidades que se han agrupado en contenedores de calidad. Las puntuaciones agrupadas se calculan directamente a partir de la tabla de puntuación de calidad empírica, que a su vez está vinculada al hardware, software y química que se utilizaron durante el experimento de secuenciación. ^[21]

Genozip ^[13] utiliza su algoritmo DomQual para comprimir puntuaciones de calidad agrupadas, como las generadas por Illumina o por la propia opción --optimize de Genozip , que genera bins similares a Illumina.

Cifrado

Genozip ^[13] cifra archivos FASTQ (así como otros formatos genómicos), aplicando el cifrado AES estándar en su nivel más seguro de 256 bits ( opción --password ).

Cryfa ^[22] utiliza cifrado AES y permite compactar datos además del cifrado. También puede abordar archivos FASTA.

Extensión de archivo

No existe una extensión de archivo estándar para un archivo FASTQ, pero comúnmente se usan .fq y .fastq.

Convertidores de formato

Biopython versión 1.51 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
EMBOSS versión 6.1.0 parche 1 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
BioPerl versión 1.6.1 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
BioRuby versión 1.4.0 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)
BioJava versión 1.7.1 en adelante (interconvierte Sanger, Solexa e Illumina 1.3+)

Ver también

El formato FASTA , utilizado para representar secuencias del genoma.
El formato SAM , utilizado para representar las lecturas del secuenciador del genoma que se han alineado con las secuencias del genoma.
El formato GVF (Genome Variation Format), una extensión basada en el formato GFF3 .

Referencias

^ Gallo, PJA; Fields, CJ; Goto, N .; Heuer, ML; Rice, PM (2009). "El formato de archivo Sanger FASTQ para secuencias con puntajes de calidad y las variantes Solexa / Illumina FASTQ" . Investigación de ácidos nucleicos . 38 (6): 1767-1771. doi : 10.1093 / nar / gkp1137 . PMC 2847217 . PMID 20015970 .
^ Guía del usuario del software de análisis de secuenciación: para Pipeline versión 1.4 y CASAVA versión 1.0, con fecha de abril de 2009 PDF archivado el 10 de junio de 2010 en Wayback Machine
^ Guía del usuario del software de análisis de secuenciación: para Pipeline versión 1.5 y CASAVA versión 1.0, con fecha de agosto de 2009 PDF ^{[ enlace muerto ]}
^ Formato de mapa de secuencia / alineación versión 1.0, con fecha de agosto de 2009 PDF
^ Tema de skruglyak de Seqanswer, con fecha del sitio web de enero de 2011
^ Especificación 10.0.0 del formato PacBio BAM https://pacbiofileformats.readthedocs.io/en/10.0/BAM.html#qual
^ Puntuaciones de calidad de Illumina, Tobias Mann, Bioinformatics, San Diego, Illumina http://seqanswers.com/forums/showthread.php?t=4721
^ Uso del software de control de secuenciación Genome Analyzer, versión 2.6, catálogo n.o SY-960-2601, n.o de pieza 15009921 Rev. A, noviembre de 2009 http://watson.nci.nih.gov/solexa/Using_SCSv2.6_15009921_A.pdf ^{[ enlace muerto ]}
^ Sitio web del proyecto SolexaQA
^ Huang, W; Pequeño; Myers, JR; Marth, GT (2012). "ART: un simulador de lectura de secuenciación de próxima generación" . Bioinformática . 28 (4): 593–4. doi : 10.1093 / bioinformatics / btr708 . PMC 3278762 . PMID 22199392 .
^ Pratas, D; Pinho, AJ; Rodrigues, JM (2014). "XS: un simulador de lectura FASTQ" . Notas de investigación de BMC . 7 : 40. doi : 10.1186 / 1756-0500-7-40 . PMC 3927261 . PMID 24433564 .
^ Escalona, Merly; Rocha, Sara; Posada, David (2016). "Una comparación de herramientas para la simulación de datos de secuenciación genómica de próxima generación" . Nature Reviews Genética . 17 (8): 459–69. doi : 10.1038 / nrg.2016.57 . PMC 5224698 . PMID 27320129 .
^ a b c d Lan, D., et al. 2021, Genozip: un compresor de datos genómicos extensible universal, Bioinformática
^ Ginart AA, Hui J, Zhu K, Numanagić I, Courtade TA, Sahinalp SC; et al. (2018). "Representación comprimida óptima de datos de secuencia de alto rendimiento mediante ensamblaje de luces" . Nat Commun . 9 (1): 566. Bibcode : 2018NatCo ... 9..566G . doi : 10.1038 / s41467-017-02480-6 . PMC 5805770 . PMID 29422526 .CS1 maint: varios nombres: lista de autores ( enlace )
^ Zhu, Kaiyuan; Numanagić, Ibrahim; Sahinalp, S. Cenk (2018). "Compresión de datos genómicos". Enciclopedia de Tecnologías de Big Data . Cham: Springer International Publishing. págs. 779–783. doi : 10.1007 / 978-3-319-63962-8_55-1 . ISBN 978-3-319-63962-8.
^ Numanagić, Ibrahim; Bonfield, James K; Hach, Faraz; Voges, Jan; Ostermann, Jörn; Alberti, Claudio; Mattavelli, Marco; Sahinalp, S Cenk (24 de octubre de 2016). "Comparación de herramientas de compresión de datos de secuenciación de alto rendimiento". Métodos de la naturaleza . Springer Science and Business Media LLC. 13 (12): 1005–1008. doi : 10.1038 / nmeth.4037 . ISSN 1548-7091 . PMID 27776113 . S2CID 205425373 .
^ Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp : un nuevo compresor con pérdidas para puntuaciones de calidad basadas en la teoría de la distorsión de la tasa" . BMC Bioinformática . 14 : 187. doi : 10.1186 / 1471-2105-14-187 . PMC 3698011 . PMID 23758828 .
^ Hach, F; Numanagic, yo; Alkan, C; Sahinalp, SC (2012). "SCALCE: Impulso de algoritmos de compresión de secuencias utilizando codificación coherente localmente" . Bioinformática . 28 (23): 3051–7. doi : 10.1093 / bioinformatics / bts593 . PMC 3509486 . PMID 23047557 .
^ fastqz. http://mattmahoney.net/dc/fastqz/
^ M. Hosseini, D. Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4) :( 2016): 56
^ Nota técnica de Illumina. http://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/technote_understanding_quality_scores.pdf
^ Hosseini M, Pratas D, Pinho A (2018). Cryfa: una herramienta de cifrado segura para datos genómicos . Bioinformática . 35 . págs. 146-148. doi : 10.1093 / bioinformatics / bty645 . PMC 6298042 . PMID 30020420 .

enlaces externos

Página web de MAQ que analiza las variantes de FASTQ
Conjunto de herramientas Fastx de herramientas de línea de comandos para el preprocesamiento de archivos FASTA / FASTQ de lecturas cortas
Herramienta de control de calidad Fastqc para datos de secuencia de alto rendimiento
Kit de herramientas de GTO para datos FASTQ
FastQC Fastqc en un sistema bwHPC-C5 en Alemania
PRINSEQ se puede utilizar para control de calidad y para filtrar, reformatear o recortar datos de secuencia (versiones basadas en web y en línea de comandos)
FQStat una arquitectura paralela para la evaluación de muy alta velocidad de métricas de calidad de secuenciación a nivel de "carril", "muestra" y "experimento" para identificar y eliminar subconjuntos de las muestras con baja calidad
Cryfa se puede utilizar para el cifrado seguro de archivos FASTQ, FASTA, VCF y SAM / BAM (versión de línea de comandos)

[Cock2009-1] Gallo, PJA; Fields, CJ; Goto, N .; Heuer, ML; Rice, PM (2009). "El formato de archivo Sanger FASTQ para secuencias con puntajes de calidad y las variantes Solexa / Illumina FASTQ" . Investigación de ácidos nucleicos . 38 (6): 1767-1771. doi : 10.1093 / nar / gkp1137 . PMC 2847217 . PMID 20015970 .

[Illumina_User_Guide_1.4-2] Guía del usuario del software de análisis de secuenciación: para Pipeline versión 1.4 y CASAVA versión 1.0, con fecha de abril de 2009 PDF archivado el 10 de junio de 2010 en Wayback Machine

[Illumina_User_Guide_1.5-3] Guía del usuario del software de análisis de secuenciación: para Pipeline versión 1.5 y CASAVA versión 1.0, con fecha de agosto de 2009 PDF ^{[ enlace muerto ]}

[Sequence/Alignment_Map_format-4] Formato de mapa de secuencia / alineación versión 1.0, con fecha de agosto de 2009 PDF

[Upcoming_changes_in_CASAVA_topic-5] Tema de skruglyak de Seqanswer, con fecha del sitio web de enero de 2011

[PacBio_BAM_format_specification-6] Especificación 10.0.0 del formato PacBio BAM https://pacbiofileformats.readthedocs.io/en/10.0/BAM.html#qual

[7] Puntuaciones de calidad de Illumina, Tobias Mann, Bioinformatics, San Diego, Illumina http://seqanswers.com/forums/showthread.php?t=4721

[8] Uso del software de control de secuenciación Genome Analyzer, versión 2.6, catálogo n.o SY-960-2601, n.o de pieza 15009921 Rev. A, noviembre de 2009 http://watson.nci.nih.gov/solexa/Using_SCSv2.6_15009921_A.pdf ^{[ enlace muerto ]}

[9] Sitio web del proyecto SolexaQA

[10] Huang, W; Pequeño; Myers, JR; Marth, GT (2012). "ART: un simulador de lectura de secuenciación de próxima generación" . Bioinformática . 28 (4): 593–4. doi : 10.1093 / bioinformatics / btr708 . PMC 3278762 . PMID 22199392 .

[11] Pratas, D; Pinho, AJ; Rodrigues, JM (2014). "XS: un simulador de lectura FASTQ" . Notas de investigación de BMC . 7 : 40. doi : 10.1186 / 1756-0500-7-40 . PMC 3927261 . PMID 24433564 .

[12] Escalona, Merly; Rocha, Sara; Posada, David (2016). "Una comparación de herramientas para la simulación de datos de secuenciación genómica de próxima generación" . Nature Reviews Genética . 17 (8): 459–69. doi : 10.1038 / nrg.2016.57 . PMC 5224698 . PMID 27320129 .

[Genozip-13] Lan, D., et al. 2021, Genozip: un compresor de datos genómicos extensible universal, Bioinformática

[pmid29422526-14] Ginart AA, Hui J, Zhu K, Numanagić I, Courtade TA, Sahinalp SC; et al. (2018). "Representación comprimida óptima de datos de secuencia de alto rendimiento mediante ensamblaje de luces" . Nat Commun . 9 (1): 566. Bibcode : 2018NatCo ... 9..566G . doi : 10.1038 / s41467-017-02480-6 . PMC 5805770 . PMID 29422526 .CS1 maint: varios nombres: lista de autores ( enlace )

[Zhu_Numanagić_Sahinalp_2018_pp._779-783-15] Zhu, Kaiyuan; Numanagić, Ibrahim; Sahinalp, S. Cenk (2018). "Compresión de datos genómicos". Enciclopedia de Tecnologías de Big Data . Cham: Springer International Publishing. págs. 779–783. doi : 10.1007 / 978-3-319-63962-8_55-1 . ISBN 978-3-319-63962-8.

[Numanagić_Bonfield_Hach_Voges_pp._1005–1008-16] Numanagić, Ibrahim; Bonfield, James K; Hach, Faraz; Voges, Jan; Ostermann, Jörn; Alberti, Claudio; Mattavelli, Marco; Sahinalp, S Cenk (24 de octubre de 2016). "Comparación de herramientas de compresión de datos de secuenciación de alto rendimiento". Métodos de la naturaleza . Springer Science and Business Media LLC. 13 (12): 1005–1008. doi : 10.1038 / nmeth.4037 . ISSN 1548-7091 . PMID 27776113 . S2CID 205425373 .

[17] Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp : un nuevo compresor con pérdidas para puntuaciones de calidad basadas en la teoría de la distorsión de la tasa" . BMC Bioinformática . 14 : 187. doi : 10.1186 / 1471-2105-14-187 . PMC 3698011 . PMID 23758828 .

[18] Hach, F; Numanagic, yo; Alkan, C; Sahinalp, SC (2012). "SCALCE: Impulso de algoritmos de compresión de secuencias utilizando codificación coherente localmente" . Bioinformática . 28 (23): 3051–7. doi : 10.1093 / bioinformatics / bts593 . PMC 3509486 . PMID 23047557 .

[19] stqz. http://mattmahoney.net/dc/fastqz/

[Morteza-20] M. Hosseini, D. Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4) :( 2016): 56

[21] Nota técnica de Illumina. http://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/technote_understanding_quality_scores.pdf

[CRYFA-22] Hosseini M, Pratas D, Pinho A (2018). Cryfa: una herramienta de cifrado segura para datos genómicos . Bioinformática . 35 . págs. 146-148. doi : 10.1093 / bioinformatics / bty645 . PMC 6298042 . PMID 30020420 .

[1]