De SOAP (oligonucleótido corto Analysis Package) es un conjunto de bioinformática herramientas de software de la BGI departamento de Bioinformática permitiendo el montaje, la alineación y análisis de secuenciación de ADN de próxima generación de datos. Es especialmente adecuado para datos de secuenciación de lectura corta .
Todos los programas del paquete SOAP se pueden utilizar de forma gratuita y se distribuyen bajo la licencia de software de código abierto GPL .
Funcionalidad
El conjunto de herramientas SOAP se puede utilizar para realizar las siguientes tareas de ensamblaje del genoma:
Alineación de secuencia
SOAPaligner (SOAP2) está diseñado específicamente para la alineación rápida de lecturas cortas y funciona favorablemente con respecto a herramientas de alineación similares como Bowtie y MAQ. [1]
Ensamblaje del genoma
SOAPdenovo es un ensamblador de novo de lectura corta que utiliza la construcción de gráficos De Bruijn . Está optimizado para lecturas cortas como la generada por Illumina y es capaz de ensamblar genomas grandes como el genoma humano. [2] SOAPdenovo se utilizó para ensamblar el genoma del panda gigante . [3] Esto se actualizó a SOAPdenovo2, que fue optimizado para genomas grandes e incluyó el módulo GapCloser ampliamente utilizado. [4]
Asamblea Transcriptome
SOAPdenovo-Trans es un ensamblador de transcriptomas de novo diseñado específicamente para RNA-Seq que se creó para el proyecto 1000 Plant Genomes . [5]
Descubrimiento Indel
SOAPindel es una herramienta para encontrar inserciones y eliminaciones de datos de secuenciación de extremo emparejado de próxima generación, proporcionando una lista de indels candidatos con puntajes de calidad. [6]
Descubrimiento SNP
SOAPsnp es un generador de secuencias de consenso. Esta herramienta utiliza la salida de SOAPaligner para generar una secuencia de consenso que permite llamar a SNP en un individuo recién secuenciado.
Descubrimiento de variaciones estructurales
SOAPsv es una herramienta para encontrar variaciones estructurales utilizando el ensamblaje del genoma completo. [7]
Control de calidad y preprocesamiento
SOAPnuke es una herramienta para el control de calidad integrado y el preprocesamiento de conjuntos de datos de experimentos genómicos, de ARN pequeño , de expresión génica digital y metagenómicos . [8]
Historia
SOAP v1
La primera versión de SOAP consistió únicamente en la herramienta de alineación de secuencias SOAPaligner . [9]
SOAP v2
SOAP v2 [1] ampliado y mejorado en SOAP v1 al mejorar significativamente el rendimiento de la herramienta SOAPaligner . El tiempo de alineación se redujo en un factor de 20-30, mientras que el uso de memoria se redujo en un factor de 3. Se agregó soporte para formatos de archivo comprimidos.
La suite SOAP se amplió luego para incluir las nuevas herramientas: SOAPdenovo 1 & 2, SOAPindel, SOAPsnp y SOAPsv.
SOAP v3
SOAP v3 amplió la herramienta de alineación al ser la primera herramienta de alineación de lectura corta que utiliza procesadores GPU. [10] Como resultado de estas mejoras, SOAPalign superó significativamente a los alineadores de la competencia Bowtie y BWA en términos de velocidad.
Ver también
enlaces externos
Referencias
- ^ a b Li, R .; Yu, C .; Li, Y .; Lam, T.-W .; Yiu, S.-M .; Kristiansen, K .; Wang, J. (2009). "SOAP2: una herramienta ultrarrápida mejorada para alineación de lectura corta" . Bioinformática . 25 (15): 1966–1967. doi : 10.1093 / bioinformatics / btp336 . ISSN 1367-4803 . PMID 19497933 .
- ^ Li, R .; Zhu, H .; Ruan, J .; Qian, W .; Fang, X .; Shi, Z .; Li, Y .; Li, S .; Shan, G .; Kristiansen, K .; Li, S .; Yang, H .; Wang, J .; Wang, J. (2009). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela" . Investigación del genoma . 20 (2): 265-272. doi : 10.1101 / gr.097261.109 . ISSN 1088-9051 . PMC 2813482 . PMID 20019144 .
- ^ Li, Ruiqiang; Fan, Wei; Tian, Geng; Zhu, Hongmei; Él, Lin; Cai, Jing; Huang, Quanfei; Cai, Qingle; Li, Bo; Bai, Yinqi; Zhang, Zhihe; Zhang, Yaping; Wang, Wen; Li, Jun; Wei, Fuwen; Li, Heng; Jian, Min; Li, Jianwen; Zhang, Zhaolei; Nielsen, Rasmus; Li, Dawei; Gu, Wanjun; Yang, Zhentao; Xuan, Zhaoling; Ryder, Oliver A .; Leung, Frederick Chi-Ching; Zhou, Yan; Cao, Jianjun; Sun, Xiao; et al. (2009). "La secuencia y ensamblaje de novo del genoma del panda gigante" . Naturaleza . 463 (7279): 311–317. doi : 10.1038 / nature08696 . ISSN 0028-0836 . PMC 3951497 . PMID 20010809 .
- ^ Luo, Ruibang; Liu, Binghang; Xie, Yinlong; Li, Zhenyu; Huang, Weihua; Yuan, Jianying; Él, Guangzhu; Chen, Yanxiang; Pan, Qi; Liu, Yunjie; Tang, Jingbo (1 de diciembre de 2012). "SOAPdenovo2: un ensamblador de novo de lectura corta empíricamente mejorado y eficiente en memoria" . GigaScience . 1 (1): 18. doi : 10.1186 / 2047-217X-1-18 . PMC 3626529 . PMID 23587118 .
- ^ Xie, Yinlong; Wu, Gengxiong; Tang, Jingbo; Luo, Ruibang; Patterson, Jordan; Liu, Shanlin; Huang, Weihua; Él, Guangzhu; Gu, Shengchang; Li, Shengkang; Zhou, Xin (15 de junio de 2014). "SOAPdenovo-Trans: ensamblaje de transcriptoma de novo con lecturas cortas de RNA-Seq" . Bioinformática . 30 (12): 1660–1666. doi : 10.1093 / bioinformatics / btu077 . ISSN 1367-4803 . PMID 24532719 .
- ^ Li, Shengting; Li, Ruiqiang; Li, Heng; Lu, Jianliang; Li, Yingrui; Bolund, Lars; Schierup, Mikkel H .; Wang, junio (1 de enero de 2013). "SOAPindel: identificación eficiente de indeles de lecturas pareadas cortas" . Investigación del genoma . 23 (1): 195–200. doi : 10.1101 / gr.132480.111 . ISSN 1088-9051 . PMC 3530679 . PMID 22972939 .
- ^ Li, Yingrui; Zheng, Hancheng; Luo, Ruibang; Wu, Honglong; Zhu, Hongmei; Li, Ruiqiang; Cao, Hongzhi; Wu, Boxin; Huang, Shujia; Shao, Haojing; Ma, Hanzhou (agosto de 2011). "Variación estructural en dos genomas humanos mapeados en resolución de un solo nucleótido por ensamblaje de novo del genoma completo" . Biotecnología de la naturaleza . 29 (8): 723–730. doi : 10.1038 / nbt.1904 . ISSN 1546-1696 . PMID 21785424 .
- ^ Chen, Yuxin; Chen, Yongsheng; Shi, Chunmei; Huang, Zhibo; Zhang, Yong; Li, Shengkang; Li, Yan; Ye, Jia; Yu, Chang; Li, Zhuo; Zhang, Xiuqing (1 de enero de 2018). "SOAPnuke: un software compatible con la aceleración MapReduce para el control de calidad integrado y el preprocesamiento de datos de secuenciación de alto rendimiento" . GigaScience . 7 (1): 1–6. doi : 10.1093 / gigascience / gix120 . PMC 5788068 . PMID 29220494 .
- ^ Li, R .; Li, Y .; Kristiansen, K .; Wang, J. (2008). "SOAP: programa de alineación de oligonucleótidos corto" . Bioinformática . 24 (5): 713–714. doi : 10.1093 / bioinformatics / btn025 . ISSN 1367-4803 . PMID 18227114 .
- ^ Liu, C.-M .; Wong, T .; Wu, E .; Luo, R .; Yiu, S.-M .; Li, Y .; Wang, B .; Yu, C .; Chu, X .; Zhao, K .; Li, R .; Lam, T.-W. (2012). "SOAP3: herramienta ultrarrápida de alineación paralela basada en GPU para lecturas cortas" . Bioinformática . 28 (6): 878–879. doi : 10.1093 / bioinformatics / bts061 . ISSN 1367-4803 . PMID 22285832 .