Las tecnologías de secuenciación de alto rendimiento han llevado a una disminución dramática de los costos de secuenciación del genoma y a una acumulación asombrosamente rápida de datos genómicos. Estas tecnologías están permitiendo ambiciosos esfuerzos de secuenciación del genoma, como el Proyecto 1000 Genomas y el Proyecto Genomas 1001 ( Arabidopsis thaliana ). El almacenamiento y la transferencia de una enorme cantidad de datos genómicos se han convertido en un problema generalizado, lo que ha motivado el desarrollo de herramientas de compresión de alto rendimiento diseñadas específicamente para datos genómicos. Un reciente aumento de interés en el desarrollo de algoritmos y herramientas novedosos para almacenar y administrar datos de re-secuenciación genómica enfatiza la creciente demanda de métodos eficientes para la compresión de datos genómicos.
Conceptos generales
Si bien se utilizan herramientas de compresión de datos estándar (por ejemplo, zip y rar) para comprimir datos de secuencia (por ejemplo, archivos planos de GenBank ), este enfoque ha sido criticado por ser extravagante porque las secuencias genómicas a menudo contienen contenido repetitivo (por ejemplo, secuencias de microsatélites ) o muchos las secuencias exhiben altos niveles de similitud (por ejemplo, múltiples secuencias del genoma de la misma especie). Además, las propiedades estadísticas y teóricas de la información de las secuencias genómicas pueden potencialmente explotarse para comprimir datos de secuenciación. [1] [2] [3]
Variantes de base
Con la disponibilidad de una plantilla de referencia, solo es necesario registrar las diferencias (p. Ej., Sustituciones e inserciones / deleciones de un solo nucleótido), lo que reduce en gran medida la cantidad de información a almacenar. La noción de compresión relativa es obvia especialmente en proyectos de re-secuenciación del genoma donde el objetivo es descubrir variaciones en genomas individuales. El uso de un mapa de polimorfismo de nucleótido único ( SNP ) de referencia , como dbSNP , puede usarse para mejorar aún más el número de variantes para el almacenamiento. [4]
Coordenadas genómicas relativas
Otra idea útil es almacenar coordenadas genómicas relativas en lugar de coordenadas absolutas. [4] Por ejemplo, representar bases de variantes de secuencia en el formato ' Position1Base1Position2Base2… ', '123C125T130G' se puede abreviar a '0C2T5G', donde los números enteros representan intervalos entre las variantes. El costo es el cálculo aritmético modesto requerido para recuperar las coordenadas absolutas más el almacenamiento del factor de corrección ('123' en este ejemplo).
Información previa sobre los genomas
Se puede lograr una mayor reducción si se conocen de antemano todas las posibles posiciones de sustituciones en un conjunto de secuencias del genoma. [4] Por ejemplo, si se conocen todas las ubicaciones de los SNP en una población humana, entonces no es necesario registrar información de coordenadas variantes (por ejemplo, '123C125T130G' se puede abreviar a 'CTG'). Sin embargo, este enfoque rara vez es apropiado porque dicha información generalmente está incompleta o no está disponible.
Codificación de coordenadas genómicas
Los esquemas de codificación se utilizan para convertir enteros de coordenadas en forma binaria para proporcionar ganancias de compresión adicionales. Los diseños de codificación, como el código Golomb y el código Huffman , se han incorporado a las herramientas de compresión de datos genómicos. [5] [6] [7] [8] [9] [10] Por supuesto, los esquemas de codificación implican algoritmos de decodificación adjuntos. La elección del esquema de decodificación afecta potencialmente la eficiencia de la recuperación de información de secuencia.
Opciones de diseño de algoritmos
Un enfoque universal para comprimir datos genómicos puede no ser necesariamente óptimo, ya que un método particular puede ser más adecuado para propósitos y objetivos específicos. Por lo tanto, puede ser importante considerar varias opciones de diseño que potencialmente impactan en el rendimiento de la compresión.
Secuencia de referencia
La selección de una secuencia de referencia para la compresión relativa puede afectar el rendimiento de la compresión. La elección de una secuencia de referencia de consenso en lugar de una secuencia de referencia más específica (por ejemplo, la secuencia de referencia de Cambridge revisada ) puede resultar en una relación de compresión más alta porque la referencia de consenso puede contener menos sesgo en sus datos. [4] Sin embargo, el conocimiento sobre la fuente de la secuencia que se está comprimiendo puede aprovecharse para lograr mayores ganancias de compresión. Se ha propuesto la idea de utilizar múltiples secuencias de referencia. [4] Brandon y col. (2009) [4] aludieron al uso potencial de plantillas de secuencias de referencia específicas de grupos étnicos, utilizando la compresión de datos de variantes de ADN mitocondrial como ejemplo (ver Figura 2). Los autores encontraron una distribución de haplotipos sesgada en las secuencias de ADN mitocondrial de africanos, asiáticos y euroasiáticos en relación con la secuencia de referencia de Cambridge revisada . Su resultado sugiere que la secuencia de referencia de Cambridge revisada puede no ser siempre óptima porque es necesario almacenar una mayor cantidad de variantes cuando se usa contra datos de individuos étnicamente distantes. Además, se puede diseñar una secuencia de referencia basada en propiedades estadísticas [1] [4] o manipular [11] [12] para mejorar la relación de compresión.
Esquemas de codificación
Se ha explorado la aplicación de diferentes tipos de esquemas de codificación para codificar bases variantes y coordenadas genómicas. [4] Los códigos fijos, como el código Golomb y el código Rice , son adecuados cuando la distribución variante o de coordenadas (representada como un número entero) está bien definida. Los códigos variables, como el código de Huffman , proporcionan un esquema de codificación de entropía más general cuando la variante subyacente y / o distribución de coordenadas no está bien definida (este es típicamente el caso en los datos de secuencia genómica).
Lista de herramientas de compresión de datos de re-secuenciación genómica
La relación de compresión de las herramientas de compresión de datos genómicos disponibles en la actualidad varía entre 65 y 1200 veces para los genomas humanos. [4] [5] [6] [7] [8] [9] [10] [13] Las variantes o revisiones muy cercanas del mismo genoma se pueden comprimir de manera muy eficiente (por ejemplo, se informó una relación de compresión de 18,133 [6] para dos revisiones del mismo genoma de A. thaliana, que son 99,999% idénticas). Sin embargo, tal compresión no es indicativa de la relación de compresión típica para diferentes genomas (individuos) del mismo organismo. El esquema de codificación más común entre estas herramientas es la codificación Huffman , que se utiliza para la compresión de datos sin pérdidas .
Software | Descripción | Índice de compresión | Datos utilizados para la evaluación | Enfoque / esquema de codificación | Enlace | Licencia de uso | Referencia |
---|---|---|---|---|---|---|---|
Genozip | Un compresor universal para archivos genómicos: comprime archivos FASTQ, SAM / BAM / CRAM, VCF / BCF, FASTA, GVF, Phylip y 23andMe | 60% a 99% | Secuencias del genoma humano del Proyecto 1000 Genomas | Marco extensible Genozip | Genozip | Gratis para uso no comercial | [14] |
Apretón genómico (G-SQZ) | Herramienta de compresión sin pérdidas diseñada para almacenar y analizar secuenciación de datos leídos | 65% a 76% | Secuencias del genoma humano del Proyecto 1000 Genomas | Codificación Huffman | http://public.tgen.org/sqz | -No declarados- | [8] |
CRAM (parte de SAMtools ) | Compresión de datos de secuencia altamente eficiente y sintonizable basada en referencias | [15] | Archivo europeo de nucleótidos | desinflar y rANS | http://www.ebi.ac.uk/ena/software/cram-toolkit | Apache-2.0 | [dieciséis] |
Compresor de genoma (GeCo) | Una herramienta que utiliza una mezcla de varios modelos de Markov para comprimir secuencias de referencia y sin referencia | Secuencia del genoma nuclear humano | Codificación aritmética | http://bioinformatics.ua.pt/software/geco/ o https://pratas.github.io/geco/ | GPLv3 | [13] | |
PetaSuite | Herramienta de compresión sin pérdida para archivos BAM y FASTQ | 60% a 90% | Secuencias del genoma humano del Proyecto 1000 Genomas | https://www.petagene.com | Comercial | [17] | |
Códecs GenomSys | Compresión sin pérdida de archivos BAM y FASTQ en el formato estándar ISO / IEC 23092 [18] (MPEG-G) | 60% a 90% | Secuencias del genoma humano del Proyecto 1000 Genomas | Codificación aritmética binaria adaptativa al contexto (CABAC) | https://www.genomsys.com | Comercial | [19] |
Genio | Transcodificación entre los formatos FASTA, FASTQ y SAM / BAM y el formato ISO / IEC 23092 [20] (MPEG-G) | [En desarrollo] | [En desarrollo] | Codificación aritmética binaria adaptativa al contexto (CABAC) | https://github.com/mitogen/genie | BSD | [21] |
Software | Descripción | Índice de compresión | Datos utilizados para la evaluación | Enfoque / esquema de codificación | Enlace | Licencia de uso | Referencia |
---|---|---|---|---|---|---|---|
Compresor diferencial de genoma (GDC) | Herramienta de estilo LZ77 para comprimir múltiples genomas de la misma especie | 180 a 250 veces / 70 a 100 veces | Secuencia del genoma nuclear de humanos y Saccharomyces cerevisiae | Codificación Huffman | http://sun.aei.polsl.pl/gdc | GPLv2 | [5] |
Re-secuenciación del genoma (GRS) | Herramienta basada en secuencia de referencia independiente de un mapa SNP de referencia o información de variación de secuencia | 159 veces / 18133 veces / 82 veces | Secuencia del genoma nuclear de humanos, Arabidopsis thaliana (diferentes revisiones del mismo genoma) y Oryza sativa | Codificación Huffman | https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ | gratis para uso no comercial | [6] |
Codificación de re-secuenciación del genoma (GReEN) | Herramienta basada en modelo de copia probabilística para comprimir datos de re-secuenciación usando una secuencia de referencia | ~ 100 veces | Secuencia del genoma nuclear humano | Codificación aritmética | http://bioinformatics.ua.pt/software/green/ | -No declarados- | [7] |
DNAzip | Un paquete de herramientas de compresión. | ~ 750 veces | Secuencia del genoma nuclear humano | Codificación Huffman | http://www.ics.uci.edu/~dnazip/ | -No declarados- | [9] |
GenomeZip | Compresión con respecto a un genoma de referencia. Opcionalmente usa bases de datos externas de variaciones genómicas (por ejemplo, dbSNP) | ~ 1200 veces | Secuencia del genoma nuclear humano (Watson) y secuencias del Proyecto 1000 Genomas | Codificación de entropía para aproximaciones de distribuciones empíricas | https://sourceforge.net/projects/genomezip/ | -No declarados- | [10] |
Referencias
- ^ a b Giancarlo, R., D. Scaturro y F. Utro. 2009. Compresión de datos textuales en biología computacional: una sinopsis. Bioinformática 25 (13): 1575-1586.
- ^ Nalbantoglu, Ö. U., DJ Russell y K. Sayood. 2010. Conceptos y algoritmos de compresión de datos y sus aplicaciones a la bioinformática. Entropía 12 (1): 34-52.
- ^ Hosseini, D., Pratas y A. Pinho. 2016. Una encuesta sobre métodos de compresión de datos para secuencias biológicas. Información 7 (4) :( 2016): 56
- ^ a b c d e f g h i Brandon, MC, DC Wallace y P. Baldi. 2009. Estructuras de datos y algoritmos de compresión para datos de secuencias genómicas. Bioinformatics 25 (14): 1731-1738.
- ^ a b c Deorowicz, S. y S. Grabowski. 2011. Compresión relativa robusta de genomas con acceso aleatorio . Bioinformática 27 (21): 2979-2986.
- ^ a b c d Wang, C. y D. Zhang. 2011. Una nueva herramienta de compresión para el almacenamiento eficiente de datos de resecuenciación del genoma. Ácidos nucleicos Res 39 (7): e45.
- ^ a b c Pinho, AJ, D. Pratas y SP García. 2012. GReEn: una herramienta para la compresión eficiente de datos de resecuenciación del genoma. Ácidos nucleicos Res 40 (4): e27.
- ^ a b c Tembe, W., J. Lowey y E. Suh. 2010. G-SQZ: Codificación compacta de secuencia genómica y datos de calidad. Bioinformática 26 (17): 2192-2194.
- ^ a b c Christley, S., Y. Lu, C. Li y X. Xie. 2009. Genómica humana como archivos adjuntos de correo electrónico. Bioinformática 25 (2): 274-275.
- ^ a b c Pavlichin, DS, Weissman, T. y G. Yona. 2013. El genoma humano vuelve a contraerse. Bioinformática 29 (17): 2199-2202.
- ^ Kuruppu, S., SJ Puglisi y J. Zobel. 2011. Construcción de secuencias de referencia para la compresión relativa de genomas. Lecture Notes in Computer Science 7024 : 420-425.
- ^ Grabowski, S. y S. Deorowicz. 2011. Ingeniería de compresión relativa de genomas. En Actas del CoRR.
- ^ a b Pratas, D., Pinho, AJ y Ferreira, PJSG Compresión eficiente de secuencias genómicas. Conferencia de compresión de datos , Snowbird, Utah, 2016.
- ^ Lan, D. y col. 2021 Genozip: un compresor universal extensible de datos genómicos, Bioinformática
- ^ Evaluación comparativa de CRAM
- ^ Especificación de formato CRAM (versión 3.0)
- ^ "La importancia de la compresión de datos en el campo de la genómica" . pulse.embs.org . Consultado el 17 de diciembre de 2019 .
- ^ "ISO / IEC 23092-2: 2019 Tecnología de la información - Representación de la información genómica - Parte 2: Codificación de la información genómica" . iso.org .
- ^ "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica" .
- ^ "ISO / IEC 23092-2: 2019 Tecnología de la información - Representación de la información genómica - Parte 2: Codificación de la información genómica" . iso.org .
- ^ "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica" .