Compresión de datos de secuenciación genómica

Las tecnologías de secuenciación de alto rendimiento han llevado a una disminución dramática de los costos de secuenciación del genoma y a una acumulación asombrosamente rápida de datos genómicos. Estas tecnologías están permitiendo ambiciosos esfuerzos de secuenciación del genoma, como el Proyecto 1000 Genomas y el Proyecto Genomas 1001 ( Arabidopsis thaliana ). El almacenamiento y la transferencia de una enorme cantidad de datos genómicos se han convertido en un problema generalizado, lo que ha motivado el desarrollo de herramientas de compresión de alto rendimiento diseñadas específicamente para datos genómicos. Un reciente aumento de interés en el desarrollo de algoritmos y herramientas novedosos para almacenar y administrar datos de re-secuenciación genómica enfatiza la creciente demanda de métodos eficientes para la compresión de datos genómicos.

Conceptos generales

Si bien se utilizan herramientas de compresión de datos estándar (por ejemplo, zip y rar) para comprimir datos de secuencia (por ejemplo, archivos planos de GenBank ), este enfoque ha sido criticado por ser extravagante porque las secuencias genómicas a menudo contienen contenido repetitivo (por ejemplo, secuencias de microsatélites ) o muchos las secuencias exhiben altos niveles de similitud (por ejemplo, múltiples secuencias del genoma de la misma especie). Además, las propiedades estadísticas y teóricas de la información de las secuencias genómicas pueden potencialmente explotarse para comprimir datos de secuenciación. ^[1]^[2]^[3]

Figura 1: Los pasos principales de un flujo de trabajo para comprimir datos de re-secuenciación genómica: (1) procesamiento de los datos de secuenciación originales (por ejemplo, reducir el conjunto de datos original a solo variaciones relativas a una secuencia de referencia especificada; (2) Codificar los datos procesados en forma binaria y (3) decodificar los datos de nuevo a forma de texto.

Variantes de base

Con la disponibilidad de una plantilla de referencia, solo es necesario registrar las diferencias (p. Ej., Sustituciones e inserciones / deleciones de un solo nucleótido), lo que reduce en gran medida la cantidad de información a almacenar. La noción de compresión relativa es obvia especialmente en proyectos de re-secuenciación del genoma donde el objetivo es descubrir variaciones en genomas individuales. El uso de un mapa de polimorfismo de nucleótido único ( SNP ) de referencia , como dbSNP , puede usarse para mejorar aún más el número de variantes para el almacenamiento. ^[4]

Coordenadas genómicas relativas

Otra idea útil es almacenar coordenadas genómicas relativas en lugar de coordenadas absolutas. ^[4] Por ejemplo, representar bases de variantes de secuencia en el formato ' Position1Base1Position2Base2… ', '123C125T130G' se puede abreviar a '0C2T5G', donde los números enteros representan intervalos entre las variantes. El costo es el cálculo aritmético modesto requerido para recuperar las coordenadas absolutas más el almacenamiento del factor de corrección ('123' en este ejemplo).

Información previa sobre los genomas

Se puede lograr una mayor reducción si se conocen de antemano todas las posibles posiciones de sustituciones en un conjunto de secuencias del genoma. ^[4] Por ejemplo, si se conocen todas las ubicaciones de los SNP en una población humana, entonces no es necesario registrar información de coordenadas variantes (por ejemplo, '123C125T130G' se puede abreviar a 'CTG'). Sin embargo, este enfoque rara vez es apropiado porque dicha información generalmente está incompleta o no está disponible.

Codificación de coordenadas genómicas

Los esquemas de codificación se utilizan para convertir enteros de coordenadas en forma binaria para proporcionar ganancias de compresión adicionales. Los diseños de codificación, como el código Golomb y el código Huffman , se han incorporado a las herramientas de compresión de datos genómicos. ^[5]^[6]^[7]^[8]^[9]^[10] Por supuesto, los esquemas de codificación implican algoritmos de decodificación adjuntos. La elección del esquema de decodificación afecta potencialmente la eficiencia de la recuperación de información de secuencia.

Opciones de diseño de algoritmos

Un enfoque universal para comprimir datos genómicos puede no ser necesariamente óptimo, ya que un método particular puede ser más adecuado para propósitos y objetivos específicos. Por lo tanto, puede ser importante considerar varias opciones de diseño que potencialmente impactan en el rendimiento de la compresión.

Secuencia de referencia

La selección de una secuencia de referencia para la compresión relativa puede afectar el rendimiento de la compresión. La elección de una secuencia de referencia de consenso en lugar de una secuencia de referencia más específica (por ejemplo, la secuencia de referencia de Cambridge revisada ) puede resultar en una relación de compresión más alta porque la referencia de consenso puede contener menos sesgo en sus datos. ^[4] Sin embargo, el conocimiento sobre la fuente de la secuencia que se está comprimiendo puede aprovecharse para lograr mayores ganancias de compresión. Se ha propuesto la idea de utilizar múltiples secuencias de referencia. ^[4] Brandon y col. (2009) ^[4] aludieron al uso potencial de plantillas de secuencias de referencia específicas de grupos étnicos, utilizando la compresión de datos de variantes de ADN mitocondrial como ejemplo (ver Figura 2). Los autores encontraron una distribución de haplotipos sesgada en las secuencias de ADN mitocondrial de africanos, asiáticos y euroasiáticos en relación con la secuencia de referencia de Cambridge revisada . Su resultado sugiere que la secuencia de referencia de Cambridge revisada puede no ser siempre óptima porque es necesario almacenar una mayor cantidad de variantes cuando se usa contra datos de individuos étnicamente distantes. Además, se puede diseñar una secuencia de referencia basada en propiedades estadísticas ^[1]^[4] o manipular ^[11]^[12] para mejorar la relación de compresión.

Esquemas de codificación

Se ha explorado la aplicación de diferentes tipos de esquemas de codificación para codificar bases variantes y coordenadas genómicas. ^[4] Los códigos fijos, como el código Golomb y el código Rice , son adecuados cuando la distribución variante o de coordenadas (representada como un número entero) está bien definida. Los códigos variables, como el código de Huffman , proporcionan un esquema de codificación de entropía más general cuando la variante subyacente y / o distribución de coordenadas no está bien definida (este es típicamente el caso en los datos de secuencia genómica).

Lista de herramientas de compresión de datos de re-secuenciación genómica

La relación de compresión de las herramientas de compresión de datos genómicos disponibles en la actualidad varía entre 65 y 1200 veces para los genomas humanos. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[13] Las variantes o revisiones muy cercanas del mismo genoma se pueden comprimir de manera muy eficiente (por ejemplo, se informó una relación de compresión de 18,133 ^[6] para dos revisiones del mismo genoma de A. thaliana, que son 99,999% idénticas). Sin embargo, tal compresión no es indicativa de la relación de compresión típica para diferentes genomas (individuos) del mismo organismo. El esquema de codificación más común entre estas herramientas es la codificación Huffman , que se utiliza para la compresión de datos sin pérdidas .

Herramientas de compresión de datos de secuenciación genómica compatibles con formatos de archivos de secuenciación genómica estándar (BAM y FASTQ)
Software	Descripción	Índice de compresión	Datos utilizados para la evaluación	Enfoque / esquema de codificación	Enlace	Licencia de uso	Referencia
Genozip	Un compresor universal para archivos genómicos: comprime archivos FASTQ, SAM / BAM / CRAM, VCF / BCF, FASTA, GVF, Phylip y 23andMe	60% a 99%	Secuencias del genoma humano del Proyecto 1000 Genomas	Marco extensible Genozip	Genozip	Gratis para uso no comercial	^[14]
Apretón genómico (G-SQZ)	Herramienta de compresión sin pérdidas diseñada para almacenar y analizar secuenciación de datos leídos	65% a 76%	Secuencias del genoma humano del Proyecto 1000 Genomas	Codificación Huffman	http://public.tgen.org/sqz	-No declarados-	^[8]
CRAM (parte de SAMtools )	Compresión de datos de secuencia altamente eficiente y sintonizable basada en referencias	^[15]	Archivo europeo de nucleótidos	desinflar y rANS	http://www.ebi.ac.uk/ena/software/cram-toolkit	Apache-2.0	^[dieciséis]
Compresor de genoma (GeCo)	Una herramienta que utiliza una mezcla de varios modelos de Markov para comprimir secuencias de referencia y sin referencia		Secuencia del genoma nuclear humano	Codificación aritmética	http://bioinformatics.ua.pt/software/geco/ o https://pratas.github.io/geco/	GPLv3	^[13]
PetaSuite	Herramienta de compresión sin pérdida para archivos BAM y FASTQ	60% a 90%	Secuencias del genoma humano del Proyecto 1000 Genomas		https://www.petagene.com	Comercial	^[17]
Códecs GenomSys	Compresión sin pérdida de archivos BAM y FASTQ en el formato estándar ISO / IEC 23092 ^[18] (MPEG-G)	60% a 90%	Secuencias del genoma humano del Proyecto 1000 Genomas	Codificación aritmética binaria adaptativa al contexto (CABAC)	https://www.genomsys.com	Comercial	^[19]
Genio	Transcodificación entre los formatos FASTA, FASTQ y SAM / BAM y el formato ISO / IEC 23092 ^[20] (MPEG-G)	[En desarrollo]	[En desarrollo]	Codificación aritmética binaria adaptativa al contexto (CABAC)	https://github.com/mitogen/genie	BSD	^[21]

Las herramientas de compresión de datos de secuenciación genómica no son compatibles con los formatos de archivos de secuenciación del genoma estándar
Software	Descripción	Índice de compresión	Datos utilizados para la evaluación	Enfoque / esquema de codificación	Enlace	Licencia de uso	Referencia
Compresor diferencial de genoma (GDC)	Herramienta de estilo LZ77 para comprimir múltiples genomas de la misma especie	180 a 250 veces / 70 a 100 veces	Secuencia del genoma nuclear de humanos y Saccharomyces cerevisiae	Codificación Huffman	http://sun.aei.polsl.pl/gdc	GPLv2	^[5]
Re-secuenciación del genoma (GRS)	Herramienta basada en secuencia de referencia independiente de un mapa SNP de referencia o información de variación de secuencia	159 veces / 18133 veces / 82 veces	Secuencia del genoma nuclear de humanos, Arabidopsis thaliana (diferentes revisiones del mismo genoma) y Oryza sativa	Codificación Huffman	https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/	gratis para uso no comercial	^[6]
Codificación de re-secuenciación del genoma (GReEN)	Herramienta basada en modelo de copia probabilística para comprimir datos de re-secuenciación usando una secuencia de referencia	~ 100 veces	Secuencia del genoma nuclear humano	Codificación aritmética	http://bioinformatics.ua.pt/software/green/	-No declarados-	^[7]
DNAzip	Un paquete de herramientas de compresión.	~ 750 veces	Secuencia del genoma nuclear humano	Codificación Huffman	http://www.ics.uci.edu/~dnazip/	-No declarados-	^[9]
GenomeZip	Compresión con respecto a un genoma de referencia. Opcionalmente usa bases de datos externas de variaciones genómicas (por ejemplo, dbSNP)	~ 1200 veces	Secuencia del genoma nuclear humano (Watson) y secuencias del Proyecto 1000 Genomas	Codificación de entropía para aproximaciones de distribuciones empíricas	https://sourceforge.net/projects/genomezip/	-No declarados-	^[10]

Referencias

^ a b Giancarlo, R., D. Scaturro y F. Utro. 2009. Compresión de datos textuales en biología computacional: una sinopsis. Bioinformática 25 (13): 1575-1586.
^ Nalbantoglu, Ö. U., DJ Russell y K. Sayood. 2010. Conceptos y algoritmos de compresión de datos y sus aplicaciones a la bioinformática. Entropía 12 (1): 34-52.
^ Hosseini, D., Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4) :( 2016): 56
^ a b c d e f g h i Brandon, MC, DC Wallace y P. Baldi. 2009. Estructuras de datos y algoritmos de compresión para datos de secuencias genómicas. Bioinformatics 25 (14): 1731-1738.
^ a b c Deorowicz, S. y S. Grabowski. 2011. Compresión relativa robusta de genomas con acceso aleatorio . Bioinformática 27 (21): 2979-2986.
^ a b c d Wang, C. y D. Zhang. 2011. Una nueva herramienta de compresión para el almacenamiento eficiente de datos de resecuenciación del genoma. Ácidos nucleicos Res 39 (7): e45.
^ a b c Pinho, AJ, D. Pratas y SP García. 2012. GReEn: una herramienta para la compresión eficiente de datos de resecuenciación del genoma. Ácidos nucleicos Res 40 (4): e27.
^ a b c Tembe, W., J. Lowey y E. Suh. 2010. G-SQZ: Codificación compacta de secuencia genómica y datos de calidad. Bioinformática 26 (17): 2192-2194.
^ a b c Christley, S., Y. Lu, C. Li y X. Xie. 2009. Genómica humana como archivos adjuntos de correo electrónico. Bioinformática 25 (2): 274-275.
^ a b c Pavlichin, DS, Weissman, T. y G. Yona. 2013. El genoma humano vuelve a contraerse. Bioinformática 29 (17): 2199-2202.
^ Kuruppu, S., SJ Puglisi y J. Zobel. 2011. Construcción de secuencias de referencia para la compresión relativa de genomas. Lecture Notes in Computer Science 7024 : 420-425.
^ Grabowski, S. y S. Deorowicz. 2011. Ingeniería de compresión relativa de genomas. En Actas del CoRR.
^ a b Pratas, D., Pinho, AJ y Ferreira, PJSG Compresión eficiente de secuencias genómicas. Conferencia de compresión de datos , Snowbird, Utah, 2016.
^ Lan, D. y col. 2021 Genozip: un compresor universal extensible de datos genómicos, Bioinformática
^ Evaluación comparativa de CRAM
^ Especificación de formato CRAM (versión 3.0)
^ "La importancia de la compresión de datos en el campo de la genómica" . pulse.embs.org . Consultado el 17 de diciembre de 2019 .
^ "ISO / IEC 23092-2: 2019 Tecnología de la información - Representación de la información genómica - Parte 2: Codificación de la información genómica" . iso.org .
^ "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica" .
^ "ISO / IEC 23092-2: 2019 Tecnología de la información - Representación de la información genómica - Parte 2: Codificación de la información genómica" . iso.org .
^ "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica" .

[Gian-1] Giancarlo, R., D. Scaturro y F. Utro. 2009. Compresión de datos textuales en biología computacional: una sinopsis. Bioinformática 25 (13): 1575-1586.

[2] Nalbantoglu, Ö. U., DJ Russell y K. Sayood. 2010. Conceptos y algoritmos de compresión de datos y sus aplicaciones a la bioinformática. Entropía 12 (1): 34-52.

[Morteza-3] Hosseini, D., Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4) :( 2016): 56

[Brandon-4] ^ a b c d e f g h i Brandon, MC, DC Wallace y P. Baldi. 2009. Estructuras de datos y algoritmos de compresión para datos de secuencias genómicas. Bioinformatics 25 (14): 1731-1738.

[Deo-5] Deorowicz, S. y S. Grabowski. 2011. Compresión relativa robusta de genomas con acceso aleatorio . Bioinformática 27 (21): 2979-2986.

[Wang-6] Wang, C. y D. Zhang. 2011. Una nueva herramienta de compresión para el almacenamiento eficiente de datos de resecuenciación del genoma. Ácidos nucleicos Res 39 (7): e45.

[Pinho-7] Pinho, AJ, D. Pratas y SP García. 2012. GReEn: una herramienta para la compresión eficiente de datos de resecuenciación del genoma. Ácidos nucleicos Res 40 (4): e27.

[Tembe-8] Tembe, W., J. Lowey y E. Suh. 2010. G-SQZ: Codificación compacta de secuencia genómica y datos de calidad. Bioinformática 26 (17): 2192-2194.

[Chris-9] Christley, S., Y. Lu, C. Li y X. Xie. 2009. Genómica humana como archivos adjuntos de correo electrónico. Bioinformática 25 (2): 274-275.

[Pavlichin-10] Pavlichin, DS, Weissman, T. y G. Yona. 2013. El genoma humano vuelve a contraerse. Bioinformática 29 (17): 2199-2202.

[11] Kuruppu, S., SJ Puglisi y J. Zobel. 2011. Construcción de secuencias de referencia para la compresión relativa de genomas. Lecture Notes in Computer Science 7024 : 420-425.

[12] Grabowski, S. y S. Deorowicz. 2011. Ingeniería de compresión relativa de genomas. En Actas del CoRR.

[Pratas-13] Pratas, D., Pinho, AJ y Ferreira, PJSG Compresión eficiente de secuencias genómicas. Conferencia de compresión de datos , Snowbird, Utah, 2016.

[Lan-14] Lan, D. y col. 2021 Genozip: un compresor universal extensible de datos genómicos, Bioinformática

[CRAMbench-15] Evaluación comparativa de CRAM

[CRAM-16] Especificación de formato CRAM (versión 3.0)

[17] "La importancia de la compresión de datos en el campo de la genómica" . pulse.embs.org . Consultado el 17 de diciembre de 2019 .

[18] "ISO / IEC 23092-2: 2019 Tecnología de la información - Representación de la información genómica - Parte 2: Codificación de la información genómica" . iso.org .

[19] "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica" .

[20] "ISO / IEC 23092-2: 2019 Tecnología de la información - Representación de la información genómica - Parte 2: Codificación de la información genómica" . iso.org .

[21] "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica" .

[1]