RNA-Seq [1] [2] [3] es una técnica [4] que permiteestudios de transcriptomas (ver también Tecnologías de transcriptómica ) basados entecnologías de secuenciación de próxima generación . Esta técnica depende en gran medida de lasherramientas bioinformáticas desarrolladas para apoyar los diferentes pasos del proceso. A continuación se enumeran algunas de las principales herramientas empleadas comúnmente y enlaces a algunos recursos web importantes.
Diseño
El diseño es un paso fundamental de un experimento de RNA-Seq en particular. Algunas preguntas importantes como la profundidad / cobertura de la secuenciación o cuántas réplicas biológicas o técnicas deben considerarse cuidadosamente. Revisión de diseño. [5]
- APROPIADO : Evaluación de potencia prospectiva para RNAseq.
- Aplicación de Android RNAtor para calcular parámetros óptimos para herramientas y kits populares disponibles para proyectos de secuenciación de ADN.
- Scotty : una herramienta web para diseñar experimentos de RNA-Seq para medir la expresión diferencial de genes.
- ssizeRNA Cálculo del tamaño de la muestra para el diseño experimental de RNA-Seq.
Control de calidad, recorte, corrección de errores y preprocesamiento de datos
La evaluación de la calidad de los datos brutos [6] es el primer paso del proceso bioinformático de RNA-Seq. A menudo, es necesario filtrar datos, eliminando secuencias o bases de baja calidad (recorte), adaptadores, contaminaciones, secuencias sobrerrepresentadas o corrigiendo errores para asegurar un resultado final coherente.
Control de calidad
- AfterQC : filtrado, recorte, eliminación de errores y control de calidad automáticos para datos fastq.
- dupRadar [7] Un paquete R que proporciona funciones para trazar y analizar las tasas de duplicación que dependen de los niveles de expresión.
- FastQC es una herramienta de control de calidad para datos de secuencia de alto rendimiento ( Babraham Institute ) y está desarrollada en Java . La importación de datos es posible desde archivos FastQ , formato BAM o SAM. Esta herramienta proporciona una descripción general para informar sobre áreas problemáticas, gráficos de resumen y tablas para una evaluación rápida de los datos. Los resultados se presentan en informes permanentes HTML . FastQC se puede ejecutar como una aplicación independiente o se puede integrar en una solución de canalización más grande.
- fastqp Evaluación de calidad simple de FASTQ usando Python.
- Kraken : [8] Un conjunto de herramientas para el control de calidad y el análisis de datos de secuencia de alto rendimiento.
- HTSeq . [9] El script de Python htseq-qa toma un archivo con lecturas secuenciales (lecturas sin procesar o alineadas) y produce un archivo PDF con gráficos útiles para evaluar la calidad técnica de una ejecución.
- mRIN [10] : evaluación de la integridad del mRNA directamente a partir de los datos de RNA-Seq.
- MultiQC [11] : agregue y visualice resultados de numerosas herramientas (FastQC, HTSeq, RSeQC, Tophat, STAR, otras ...) en todas las muestras en un solo informe.
- NGSQC : canalización de análisis de calidad multiplataforma para datos de secuenciación profunda.
- Juego de herramientas NGS QC Un juego de herramientas para el control de calidad (QC) de los datos de secuenciación de próxima generación (NGS). El conjunto de herramientas comprende herramientas independientes y fáciles de usar para el control de calidad de los datos de secuencia generados con las plataformas Illumina y Roche 454 con resultados detallados en forma de tablas y gráficos, y filtrado de datos de secuencia de alta calidad. También incluye algunas otras herramientas, que son útiles en el análisis y control de calidad de datos NGS.
- PRINSEQ es una herramienta que genera estadísticas resumidas de secuencia y datos de calidad y que se utiliza para filtrar, reformatear y recortar datos de secuencia de próxima generación. Está especialmente diseñado para datos 454 / Roche, pero también se puede utilizar para otros tipos de secuencia.
- QC-Chain es un paquete de herramientas de control de calidad para datos de secuenciación de próxima generación (NGS), que consta de evaluaciones de calidad de lecturas sin procesar y detección de contaminación de novo, que podría identificar todas las posibles secuencias de contaminación.
- QC3 es una herramienta de control de calidad diseñada para secuenciar datos de ADN para datos sin procesar, alineación y llamadas de variantes.
- qrqc Escanea rápidamente, lee y recopila estadísticas sobre frecuencias base y de calidad, longitud de lectura y secuencias frecuentes. Produce una salida gráfica de estadísticas para su uso en procesos de control de calidad y un informe de calidad HTML opcional. Los objetos S4 SequenceSummary permiten escribir pruebas y funcionalidades específicas en torno a los datos recopilados.
- RNA-SeQC [12] es una herramienta con aplicación en el diseño de experimentos, optimización de procesos y control de calidad antes del análisis computacional. Esencialmente, proporciona tres tipos de control de calidad: recuentos de lectura (como lecturas duplicadas, lecturas mapeadas y lecturas únicas mapeadas, lecturas de ARNr, lecturas anotadas en transcripciones, especificidad de hebra), cobertura (como cobertura media, coeficiente de variación medio, 5 '/ Cobertura 3 ', brechas en la cobertura, sesgo de GC) y correlación de expresión (la herramienta proporciona una estimación de los niveles de expresión basada en RPKM). RNA-SeQC está implementado en Java y no requiere instalación, sin embargo, se puede ejecutar usando la interfaz web GenePattern . La entrada puede ser uno o más archivos BAM. Los informes HTML se generan como salida.
- RSeQC [13] analiza diversos aspectos de los experimentos de RNA-Seq: calidad de secuencia, profundidad de secuenciación, especificidad de hebra, sesgo de GC, distribución de lectura sobre la estructura del genoma y uniformidad de cobertura. La entrada puede ser archivos SAM, BAM, FASTA, BED o archivo de tamaño de cromosoma (archivo de texto sin formato de dos columnas). La visualización se puede realizar mediante navegadores de genoma como UCSC, IGB e IGV. Sin embargo, los scripts de R también se pueden utilizar para la visualización.
- SAMStat [14] identifica problemas e informa varias estadísticas en diferentes fases del proceso. Esta herramienta evalúa secuencias no mapeadas, mapeadas de forma deficiente y precisa de forma independiente para inferir posibles causas de mapeo deficiente.
- SolexaQA calcula estadísticas de calidad de secuencia y crea representaciones visuales de la calidad de los datos para los datos de secuenciación de segunda generación. Originalmente desarrollado para el sistema Illumina (conocido históricamente como “Solexa”), SolexaQA ahora también es compatible con Ion Torrent y 454 data.
- Trim galore es un script de envoltura para automatizar la calidad y el recorte del adaptador, así como el control de calidad, con algunas funciones adicionales para eliminar posiciones de metilación sesgadas para archivos de secuencia RRBS (para secuenciación direccional, no direccional (o de extremo emparejado)).
Mejorando la calidad
La mejora de la calidad de RNA-Seq, corregir el sesgo es un tema complejo. [15] [16] Cada protocolo RNA-Seq introduce un tipo específico de sesgo, cada paso del proceso (como la tecnología de secuenciación utilizada) es susceptible de generar algún tipo de ruido o tipo de error. Además, incluso las especies investigadas y el contexto biológico de las muestras pueden influir en los resultados e introducir algún tipo de sesgo. Ya se informaron muchas fuentes de sesgo: contenido de GC y enriquecimiento por PCR, [17] [18] agotamiento del ARNr, [19] errores producidos durante la secuenciación, [20] cebado de la transcripción inversa causada por hexámeros aleatorios. [21]
Se desarrollaron diferentes herramientas para intentar solucionar cada uno de los errores detectados.
Eliminación de recortes y adaptadores
- Herramienta multiproceso BBDuk para recortar adaptadores y filtrar o enmascarar contaminantes en función de la coincidencia de kmer, lo que permite una distancia de martilleo o edición, así como bases degeneradas. También realiza un filtrado y recorte de calidad óptimos, conversión de formato, informes de concentración de contaminantes, filtrado gc, filtrado de longitud, filtrado de entropía, filtrado de castidad y genera histogramas de texto para la mayoría de las operaciones. Interconvierte entre fastq, fasta, sam, scarf, interleaved y 2-file paired, gzip, bzipped, ASCII-33 y ASCII-64. Mantiene las parejas juntas. De código abierto, escrito en Java puro; admite todas las plataformas sin recompilación y sin otras dependencias.
- clean_reads limpia las lecturas de NGS (Sanger, 454, Illumina y solid). Puede recortar regiones, adaptadores, vectores y expresiones regulares de mala calidad. También filtra las lecturas que no cumplen con un criterio de calidad mínimo basado en la longitud de la secuencia y la calidad media.
- condetri [22] es un método para el recorte de lectura dependiente del contenido para los datos de Illumina que utiliza puntuaciones de calidad de cada base de forma individual. Es independiente de la secuencia de cobertura y la interacción del usuario. El enfoque principal de la implementación es la usabilidad y la incorporación del recorte de lectura en las líneas de procesamiento y análisis de datos de secuenciación de próxima generación. Puede procesar datos de secuenciación de un solo extremo y de dos extremos de longitud arbitraria.
- cutadapt [23] elimina las secuencias adaptadoras de los datos de secuenciación de próxima generación (Illumina, SOLiD y 454). Se utiliza especialmente cuando la longitud de lectura de la máquina de secuenciación es más larga que la molécula secuenciada, como en el caso del microARN.
- Deconseq Detecta y elimina la contaminación de los datos de la secuencia.
- Erne-Filter [24] es un paquete de alineación de cadenas cortas cuyo objetivo es proporcionar un conjunto completo de herramientas para manejar lecturas cortas (tipo NGS). ERNE comprende ERNE-FILTER (recorte de lectura y filtrado de continaminación), ERNE-MAP (herramienta / algoritmo de alineación del núcleo), ERNE-BS5 (alineador de lectura tratado con bisulfito) y ERNE-PMAP / ERNE-PBS5 (versiones distribuidas de los alineadores).
- FastqMcf Fastq-mcf intenta: Detectar y eliminar adaptadores y cebadores de secuenciación; Detecta un sesgo limitado en los extremos de las lecturas y el clip; Detecta mala calidad al final de las lecturas y recorta; Detectar N y eliminar de los extremos; Elimina las lecturas con la bandera CASAVA 'Y' (filtrado de pureza); Descarte las secuencias que sean demasiado cortas después de todo lo anterior; Mantenga sincronizadas varias lecturas de mate mientras hace todo lo anterior.
- FASTX Toolkit es un conjunto de herramientas de línea de comandos para manipular lecturas en archivos en formato FASTA o FASTQ . Estos comandos hacen posible preprocesar los archivos antes de mapearlos con herramientas como Bowtie . Algunas de las tareas permitidas son: conversión de formato FASTQ a FASTA, información sobre estadísticas de calidad, eliminación de adaptadores de secuenciación, filtrado y corte de secuencias en función de la calidad o conversión de ADN / ARN .
- Flexbar realiza la eliminación de secuencias de adaptadores, funciones de recorte y filtrado.
- FreClu mejora la precisión general de la alineación mediante la corrección de errores de secuenciación mediante el recorte de lecturas cortas, según una metodología de agrupación.
- htSeqTools es un paquete de bioconductores capaz de realizar control de calidad, procesamiento de datos y visualización. htSeqTools permite visualizar correlaciones de muestras, eliminar artefactos de sobreamplificación, evaluar la eficiencia del enriquecimiento, corregir el sesgo de hebra y visualizar aciertos.
- Rutina de creación de biblioteca virtual y recorte del adaptador NxTrim para las bibliotecas Illumina Nextera Mate Pair.
- PRINSEQ [25] genera estadísticas de sus datos de secuencia para la longitud de la secuencia, el contenido de GC, las puntuaciones de calidad, los n-plicados, la complejidad, las secuencias de etiquetas, las colas poli-A / T, las razones de probabilidad. Filtrar los datos, reformatear y recortar secuencias.
- Sabre Una herramienta de desmultiplexación y recorte de códigos de barras para archivos FastQ.
- Scythe Un recortador de contaminantes con adaptador de extremo de 3 '.
- SEECER es un algoritmo de corrección de errores de secuenciación para conjuntos de datos RNA-seq. Toma las secuencias de lectura sin procesar producidas por una plataforma de secuenciación de próxima generación como las máquinas de Illumina o Roche. SEECER elimina la discordancia y los errores indel de las lecturas sin procesar y mejora significativamente el análisis posterior de los datos. Especialmente si los datos de RNA-Seq se utilizan para producir un ensamblaje de transcriptoma de novo, ejecutar SEECER puede tener un impacto tremendo en la calidad del ensamblaje.
- Sickle Una herramienta de recorte adaptativa con ventana para archivos FASTQ que utilizan calidad.
- SnoWhite [26] es una tubería diseñada para limpiar de manera flexible y agresiva las lecturas de secuencias (ADNg o ADNc) antes del ensamblaje. Toma y devuelve archivos de secuencia con formato fastq o fasta.
- ShortRead es un paquete proporcionado en los entornos R (lenguaje de programación) / BioConductor y permite la entrada, manipulación, evaluación de calidad y salida de datos de secuenciación de próxima generación. Esta herramienta hace posible la manipulación de datos, como soluciones de filtrado para eliminar lecturas basadas en criterios predefinidos. ShortRead podría complementarse con varios paquetes de bioconductores para obtener más soluciones de análisis y visualización ( BioStrings , BSgenome , IRanges , etc.).
- SortMeRNA es una herramienta de programa para filtrar, mapear y seleccionar lecturas NGS de selección de OTU en datos metatranscriptómicos y metagenómicos. El algoritmo central se basa en semillas aproximadas y permite el análisis de secuencias de nucleótidos. La principal aplicación de SortMeRNA es filtrar el ARN ribosómico a partir de datos metatranscriptómicos.
- TagCleaner La herramienta TagCleaner se puede utilizar para detectar automáticamente y eliminar eficazmente secuencias de etiquetas (por ejemplo, etiquetas WTA) de conjuntos de datos genómicos y metagenómicos. Es fácilmente configurable y proporciona una interfaz fácil de usar.
- Trimmomatic [27] realiza el recorte para las plataformas Illumina y trabaja con lecturas FASTQ (de una o dos terminaciones). Algunas de las tareas ejecutadas son: cortar adaptadores, cortar bases en posiciones opcionales basadas en umbrales de calidad, cortar lecturas a una longitud específica, convertir puntajes de calidad a Phred-33/64.
- fastp Una herramienta diseñada para proporcionar preprocesamiento todo en uno para archivos FastQ. Esta herramienta está desarrollada en C ++ con soporte para múltiples subprocesos.
- FASTX-Toolkit El FASTX-Toolkit es una colección de herramientas de línea de comandos para el preprocesamiento de archivos FASTA / FASTQ de lecturas cortas.
Detección de lecturas quiméricas
Las tecnologías de secuenciación recientes normalmente requieren que las muestras de ADN se amplifiquen mediante la reacción en cadena de la polimerasa (PCR). La amplificación a menudo genera elementos quiméricos (especialmente de origen ribosómico): secuencias formadas a partir de dos o más secuencias originales unidas.
- UCHIME es un algoritmo para detectar secuencias quiméricas.
- ChimeraSlayer es una utilidad de detección de secuencias quiméricas, compatible con secuencias Sanger de longitud casi completa y secuencias 454-FLX más cortas (~ 500 pb).
Error de corrección
Caracterización de errores de secuenciación de alto rendimiento y su eventual corrección. [28]
- Corrector de errores de acacia para lecturas de amplicones pirosecuenciados.
- Corrección de errores de AllPathsLG .
- AmpliconNoise [29] AmpliconNoise es una colección de programas para la eliminación de ruido de 454 amplicones de PCR secuenciados. Implica dos pasos: la eliminación del ruido de la secuenciación en sí y la eliminación de los errores de los puntos de PCR. Este proyecto también incluye el algoritmo Perseus para la eliminación de quimeras.
- BayesHammer . Agrupación bayesiana para corrección de errores. Este algoritmo se basa en gráficos de Hamming y subgrupos bayesianos. Si bien BAYES HAMMER se diseñó para la secuenciación de una sola celda, también mejora las herramientas de corrección de errores existentes para los datos de secuenciación masiva.
- Bless [30] Una solución de corrección de errores basada en filtros de floración para lecturas de secuenciación de alto rendimiento.
- Blue [31] Blue es una herramienta de corrección de errores de lectura corta basada en el consenso y el contexto de k-mer.
- bf Un corrector de errores de secuenciación diseñado para lecturas cortas de Illumina. Utiliza un algoritmo no codicioso con una velocidad comparable a las implementaciones basadas en métodos codiciosos.
- Denoiser Denoiser está diseñado para abordar problemas de ruido en los datos de pirosecuenciación. Denoiser es una variante heurística de PyroNoise. Los desarrolladores de denoiser informan de un buen acuerdo con PyroNoise en varios conjuntos de datos de prueba.
- Echo Un algoritmo de corrección de errores de lectura corta sin referencia.
- Más ligero . Una corrección de errores de secuenciación sin contar.
- LSC LSC utiliza lecturas cortas de Illumina para corregir errores en lecturas largas.
- Karect Karect: corrección precisa de errores de sustitución, inserción y eliminación para datos de secuenciación de próxima generación.
- NoDe NoDe: un algoritmo de corrección de errores para lecturas de amplicones de pirosecuenciación.
- PyroTagger PyroTagger: una tubería rápida y precisa para el análisis de datos de pirosecuencia de amplicones de ARNr.
- Quake es una herramienta para corregir errores de secuenciación de sustitución en experimentos con una cobertura profunda de las lecturas de secuenciación de Illumina.
- QuorUM : un corrector de errores para lecturas de Illumina.
- Rcorrector . Corrección de errores para las lecturas de RNA-seq de Illumina.
- Reptile es un software desarrollado en C ++ para corregir errores de secuenciación en lecturas cortas de plataformas de secuenciación de próxima generación.
- Corrección de error de secuenciación de Seecer para lecturas de ARN.
- SGA .
- SOAP denovo .
- UNOISE .
Corrección de sesgo
- Alpine [32] Modelado y corrección del sesgo de secuencia de fragmentos para RNA-seq.
- cqn [33] es una herramienta de normalización para datos de RNA-Seq, que implementa el método de normalización por cuantiles condicional.
- EDASeq [34] es un paquete de bioconductores para realizar la normalización de contenido de GC para datos de secuencia de ARN.
- GeneScissors Un enfoque integral para detectar y corregir inferencias de transcriptomas falsas debido a la desalineación de lecturas de RNAseq.
- Peer [35] es una colección de enfoques bayesianos para inferir determinantes ocultos y sus efectos a partir de perfiles de expresión génica utilizando métodos de análisis factorial. Las aplicaciones de PEER han: a) detectado efectos por lotes y factores de confusión experimentales, b) aumentado el número de hallazgos de QTL de expresión en tres veces, c) permitido la inferencia de rasgos celulares intermedios, como el factor de transcripción o activaciones de vías.
- RUV [36] es un paquete R que implementa los métodos de eliminación de variaciones no deseadas (RUV) de Risso et al. (2014) para la normalización de los recuentos de lectura de RNA-Seq entre muestras.
- sva Análisis de variables sustitutas.
- svaseq elimina los efectos por lotes y otros ruidos no deseados de los datos de secuenciación.
- SysCall [37] es una herramienta de clasificación para la identificación y corrección de errores sistemáticos en datos de secuencia de alto rendimiento.
Otras tareas / preprocesamiento de datos
Otras tareas realizadas antes de la alineación, a saber, fusiones de lectura por pares.
- AuPairWise Un método para estimar la replicabilidad de RNA-Seq a través de la coexpresión.
- BamHash es un método basado en suma de comprobación para garantizar que los pares de lectura en los archivos FASTQ coincidan exactamente con los pares de lectura almacenados en los archivos BAM, independientemente del orden de las lecturas. BamHash se puede utilizar para verificar la integridad de los archivos almacenados y descubrir cualquier discrepancia. Por lo tanto, BamHash se puede usar para determinar si es seguro eliminar los archivos FASTQ que almacenan lecturas de secuenciación sin procesar después de la alineación, sin la pérdida de datos.
- BBMerge Fusiona lecturas emparejadas según la superposición para crear lecturas más largas y un histograma de tamaño de inserción. Rápido, multiproceso y con muy pocos falsos positivos. De código abierto, escrito en Java puro; admite todas las plataformas sin recompilación y sin otras dependencias. Distribuido con BBMap.
- Las biopiezas son una colección de herramientas bioinformáticas que se pueden ensamblar de una manera muy fácil y flexible para realizar tareas simples y complejas. Los Biopieces funcionan en un flujo de datos de tal manera que el flujo de datos puede pasar a través de varios Biopieces diferentes, cada uno de los cuales realiza una tarea específica: modificar o agregar registros al flujo de datos, crear gráficos o cargar datos en bases de datos y servicios web.
- COPE [38] COPE: una herramienta precisa de conexión de lecturas de extremos de pares basada en k-mer para facilitar el ensamblaje del genoma.
- DeconRNASeq es un paquete R para la desconvolución de tejidos heterogéneos basado en datos de mRNA-Seq.
- Pantalla FASTQ pantallas FASTQ formato secuencias a un conjunto de bases de datos para confirmar que las secuencias contienen lo que se espera (por ejemplo, contenido especies, adaptadores, vectores, etc.).
- FLASH es una herramienta de preprocesamiento de lectura. FLASH combina lecturas paired-end que se superponen y las convierte en lecturas largas únicas.
- IDCheck
- ORNA y ORNA Q / K Una herramienta para reducir la redundancia en los datos RNA-seq que reduce los requisitos de recursos computacionales de un ensamblador
- PANDASeq . Es un programa para alinear las lecturas de Illumina, opcionalmente con cebadores de PCR incrustados en la secuencia, y reconstruir una secuencia superpuesta.
- PEAR [39] PEAR: Fusión de lectura de extremos emparejados de Illumina.
- Script qRNASeq La herramienta qRNAseq se puede utilizar para eliminar con precisión los duplicados de PCR de los datos de RNA-Seq si se han utilizado Molecular Indexes ™ u otras etiquetas estocásticas durante la preparación de la biblioteca.
- SHERA [40] un alineador reductor de errores de lectura corta.
- Superposición rápida de lectura de extremo emparejado XORRO .
Herramientas de alineación
Después del control de calidad, el primer paso del análisis de RNA-Seq implica la alineación de las lecturas secuenciadas con un genoma de referencia (si está disponible) o con una base de datos de transcriptomas. Consulte también Lista de software de alineación de secuencias .
Alineadores cortos (sin empalmar)
Los alineadores cortos son capaces de alinear lecturas continuas (que no contienen espacios como resultado del empalme) con un genoma de referencia. Básicamente, hay dos tipos: 1) basado en el método de transformación de Burrows-Wheeler como Bowtie y BWA, y 2) basado en métodos de extensión de semillas, algoritmos Needleman-Wunsch o Smith-Waterman . El primer grupo (Bowtie y BWA) es muchas veces más rápido, sin embargo, algunas herramientas del segundo grupo tienden a ser más sensibles, generando lecturas alineadas más correctamente.
- BFAST alinea lecturas cortas con secuencias de referencia y presenta una sensibilidad particular hacia errores, SNP, inserciones y deleciones. BFAST trabaja con elalgoritmo Smith-Waterman . Consulte también seqanwers / BFAST .
- Bowtie es un alineador corto que utiliza un algoritmo basado en la transformada de Burrows-Wheeler y el índice FM . Bowtie tolera una pequeña cantidad de desajustes.
- Bowtie2 Bowtie 2 es una herramienta de memoria eficiente para alinear las lecturas de secuenciación con secuencias de referencia largas. Se recomienda particularmente para alinear lecturas de aproximadamente 50 hasta 100 o miles de caracteres, y es particularmente bueno para alinear con genomas relativamente largos (por ejemplo, de mamíferos). Bowtie 2 indexa el genoma con un índice FM para mantener pequeña su huella de memoria: para el genoma humano, su huella de memoria suele ser de alrededor de 3,2 GB. Bowtie 2 admite modos de alineación con espacios, local y emparejado.
- Burrows-Wheeler Aligner (BWA) BWA es un paquete de software para mapear secuencias de baja divergencia contra un genoma de referencia grande, como el genoma humano. Consta de tres algoritmos: BWA-backtrack, BWA-SW y BWA-MEM. El primer algoritmo está diseñado para lecturas de secuencia de Illumina de hasta 100 pb, mientras que los dos restantes para secuencias más largas oscilaron entre 70 pb y 1 Mbp. BWA-MEM y BWA-SW comparten características similares, como soporte de lectura larga y alineación dividida, pero BWA-MEM, que es el último, generalmente se recomienda para consultas de alta calidad, ya que es más rápido y más preciso. BWA-MEM también tiene un mejor rendimiento que BWA-backtrack para lecturas de Illumina de 70-100 pb.
- Paquete de análisis de oligonucleótidos cortos (SOAP)
- GNUMAP realiza la alineación mediante un algoritmo probabilístico de Needleman-Wunsch . Esta herramienta es capaz de manejar la alineación en regiones repetitivas de un genoma sin perder información. La salida del programa se desarrolló para facilitar la visualización utilizando el software disponible.
- Maq primero alinea las lecturas con las secuencias de referencia y luego realiza una etapa de consenso. En la primera etapa, solo realiza una alineación sin espacios y tolera hasta 3 desajustes.
- Mosaik Mosaik puede alinear lecturas que contienen brechas cortas utilizando el algoritmo Smith-Waterman , ideal para superar SNP, inserciones y eliminaciones.
- NovoAlign (comercial) es un alineador corto para la plataforma Illumina basado en el algoritmo Needleman-Wunsch . Puede trabajar con datos de bisulfito. Salida en formato SAM.
- PerM es un paquete de software que fue diseñado para realizar alineaciones de escala genómica altamente eficientes para cientos de millones de lecturas cortas producidas por las plataformas de secuenciación ABI SOLiD e Illumina. PerM es capaz de proporcionar sensibilidad total para alineaciones dentro de 4 desajustes para lecturas SOLID de 50 pb y 9 desajustes para lecturas de Illumina de 100 pb.
- RazerS
- SEAL usa un modelo MapReduce para producir computación distribuida en grupos de computadoras. Seal utiliza BWA para realizar la alineación y Picard MarkDuplicates para la detección y eliminación de lecturas duplicadas.
- segemehl
- SeqMap
- SHRiMP emplea dos técnicas para alinear lecturas cortas. En primer lugar, la técnica de filtrado de q-gramos basada en múltiples semillas identifica regiones candidatas. En segundo lugar, estas regiones se investigan en detalle utilizando el algoritmo de Smith-Waterman .
- SMALT
- Stampy combina la sensibilidad de las tablas hash y la velocidad de BWA. Stampy está preparado para la alineación de lecturas que contienen variaciones de secuencia como inserciones y eliminaciones. Es capaz de manejar lecturas de hasta 4500 bases y presenta la salida en formato SAM.
- Subread [41] es un alineador de lectura. Utiliza el paradigma de mapeo de semilla y voto para determinar la ubicación de mapeo de la lectura usando su región mapeable más grande. Decide automáticamente si la lectura debe mapearse globalmente o localmente. Para los datos de RNA-seq, se debe utilizar Subread con el fin de analizar la expresión. Subread también se puede utilizar para mapear lecturas de DNA-seq.
- ZOOM (comercial) es un alineador corto de la plataforma Illumina / Solexa 1G. ZOOM utiliza la metodología de semillas espaciadas extendidas que construyen tablas hash para las lecturas y tolera desajustes e inserciones y eliminaciones.
- WHAM WHAM es una herramienta de alineación de secuencias de alto rendimiento desarrollada en la Universidad de Wisconsin-Madison. Alinea secuencias cortas de ADN (lecturas) con todo el genoma humano a una velocidad de más de 1500 millones de lecturas de 60 bits / s por hora, que es de uno a dos órdenes de magnitudes más rápido que las técnicas líderes de vanguardia.
Alineadores empalmados
Muchas lecturas abarcan uniones exón-exón y no se pueden alinear directamente con alineadores cortos, por lo que se necesitaban alineadores específicos: alineadores empalmados. Algunos alineadores empalmados emplean alineadores cortos para alinear en primer lugar lecturas continuas / sin empalmar (enfoque de exón primero), y luego siguen una estrategia diferente para alinear el resto que contiene regiones empalmadas; normalmente, las lecturas se dividen en segmentos más pequeños y se mapean de forma independiente. Ver también. [42] [43]
Alineadores basados en uniones de empalme conocidas (alineadores guiados por anotaciones)
En este caso, la detección de uniones de empalme se basa en los datos disponibles en las bases de datos sobre uniones conocidas. Este tipo de herramientas no pueden identificar nuevas uniones de empalme. Algunos de estos datos provienen de otros métodos de expresión como etiquetas de secuencia expresada (EST).
- Erange es una herramienta para la alineación y cuantificación de datos de transcriptomas de mamíferos.
- IsoformEx
- MapAL
- OSA
- RNA-MATE es una tubería computacional para la alineación de datos del sistema SOLID de Applied Biosystems . Brinda la posibilidad de control de calidad y recorte de lecturas. Las alineaciones del genoma se realizan utilizando mapas y las uniones de corte y empalme se identifican en base a una biblioteca de secuencias de unión de exón conocidas. Esta herramienta permite la visualización de alineaciones y el recuento de etiquetas.
- RUM realiza la alineación basada en una tubería, pudiendo manipular lecturas con uniones de empalme, utilizando Bowtie y Blat. El diagrama de flujo comienza a alinearse con un genoma y una base de datos de transcriptomas ejecutados por Bowtie. El siguiente paso es realizar la alineación de secuencias no mapeadas con el genoma de referencia utilizando BLAT. En el paso final, todas las alineaciones se fusionan para obtener la alineación final. Los archivos de entrada pueden estar en formato FASTA o FASTQ. La salida se presenta en formato RUM y SAM.
- RNASEQR .
- SAMMate
- SpliceSeq
- X-Mate
Alineadores de empalmes de novo
Los alineadores de empalme de novo permiten la detección de nuevas uniones de empalme sin necesidad de información anotada previa (algunas de estas herramientas presentan la anotación como opción suplementaria).
- ABMapper
- BBMap Utiliza kmers cortos para alinear las lecturas directamente con el genoma (que abarcan intrones para encontrar nuevas isoformas) o transcriptoma. Muy tolerante a errores de sustitución e indeles, y muy rápido. Admite la salida de todas las etiquetas SAM necesarias para Cufflinks. No hay límite para el tamaño del genoma o el número de empalmes por lectura. Admite lecturas de Illumina, 454, Sanger, Ion Torrent, PacBio y Oxford Nanopore, emparejadas o de un solo extremo. No utiliza ninguna heurística de búsqueda de sitios de empalme optimizada para una sola rama taxonómica, sino que encuentra alineaciones globales de transformación multiafinas de puntuación óptima y, por lo tanto, es ideal para estudiar nuevos organismos sin anotación y motivos de empalme desconocidos. De código abierto, escrito en Java puro; admite todas las plataformas sin recompilación y sin otras dependencias.
- ContextMap se desarrolló para superar algunas limitaciones de otros enfoques de mapeo, como la resolución de ambigüedades. La idea central de esta herramienta es considerar las lecturas en el contexto de la expresión génica, mejorando de esta manera la precisión de la alineación. ContextMap se puede utilizar como un programa independiente y es compatible con los mapeadores que producen un archivo SAM en la salida (por ejemplo: TopHat o MapSplice). En modo independiente, alinea las lecturas con un genoma, con una base de datos de transcriptomas o con ambos.
- CRAC propone una forma novedosa de analizar lecturas que integra ubicaciones genómicas y cobertura local, y detecta mutaciones candidatas, indeles, empalmes o uniones de fusión en cada lectura. Es importante destacar que CRAC mejora su rendimiento predictivo cuando se suministra, por ejemplo, con lecturas de 200 nt y debería adaptarse a las necesidades futuras de análisis de lectura.
- GSNAP
- GMAP Un programa de alineación y mapeo genómico para secuencias de ARNm y EST.
- HISAT HISAT es un programa de alineación empalmada para mapear lecturas de RNA-seq. Además de un índice de FM global que representa un genoma completo, HISAT utiliza un gran conjunto de índices de FM pequeños que cubren colectivamente todo el genoma (cada índice representa una región genómica de ~ 64.000 pb y se necesitan ~ 48.000 índices para cubrir la Genoma humano). Estos pequeños índices (llamados índices locales) combinados con varias estrategias de alineación permiten una alineación efectiva de las lecturas de RNA-seq, en particular, las lecturas que abarcan múltiples exones. La huella de memoria de HISAT es relativamente baja (~ 4,3 GB para el genoma humano). Hemos desarrollado HISAT basado en la implementación de Bowtie2 para manejar la mayoría de las operaciones en el índice FM.
- HISAT2 HISAT2 es un programa de alineación para mapear lecturas de secuenciación de próxima generación (tanto de ADN como de ARN) a una población de genomas humanos (así como a un solo genoma de referencia). Basado en una extensión de BWT para gráficos [Sirén et al. 2014], diseñamos e implementamos un gráfico FM-index (GFM), un enfoque original y su primera implementación a nuestro leal saber y entender. Además de usar un índice GFM global que representa una población de genomas humanos, HISAT2 usa un gran conjunto de índices GFM pequeños que cubren colectivamente todo el genoma (cada índice representa una región genómica de 56 Kbp, con 55,000 índices necesarios para cubrir el genoma humano). población). Estos pequeños índices (llamados índices locales), combinados con varias estrategias de alineación, permiten una alineación rápida y precisa de las lecturas de secuenciación. Este nuevo esquema de indexación se denomina índice FM de gráfico jerárquico (HGFM).
- HMMSplicer puede identificar uniones de empalme canónicas y no canónicas en lecturas cortas. En primer lugar, las lecturas sin empalmar se eliminan con Bowtie. Después de eso, las lecturas restantes se dividen una a la vez por la mitad, luego cada parte se siembra contra un genoma y los bordes del exón se determinan según el modelo de Markov oculto . Se asigna una puntuación de calidad a cada cruce, útil para detectar tasas de falsos positivos.
- MapSplice
- PALMapper
- Pass [44] alinea lecturas con espacios vacíos y sin espacios y también datos de secuenciación de bisulfito . Incluye la posibilidad de filtrar datos antes de la alineación (remoción de adaptadores). Pass utiliza los algoritmos Needleman-Wunsch y Smith-Waterman , y realiza la alineación en 3 etapas: escaneando las posiciones de las secuencias de semillas en el genoma, probando las regiones contiguas y finalmente refinando la alineación.
- Pasión
- PASTA
- QPALMA predice uniones de empalme compatibles con algoritmos de aprendizaje automático . En este caso, el conjunto de entrenamiento es un conjunto de lecturas empalmadas con información de calidad y alineaciones ya conocidas.
- RAZER : [45] lee alineador para SNP y sitios de edición de ARN.
- SeqSaw
- SoapSplice Una herramienta para la detección ab initio en todo el genoma de sitios de unión de empalme de RNA-Seq, un método que utiliza tecnologías de secuenciación de nueva generación para secuenciar el ARN mensajero.
- SpliceMap
- SplitSeek
- SuperSplat fue desarrollado para encontrar todo tipo de uniones de empalme. El algoritmo divide cada lectura en todas las combinaciones posibles de dos fragmentos de forma iterativa, y se intenta la alineación con cada fragmento. Salida en formato "Supersplat".
Alineadores de empalmes de novo que también usan anotación opcionalmente
- MapaSiguiente
- OLego
- STAR es una herramienta que emplea "búsqueda secuencial máxima mapeable de semillas en matrices de sufijos sin comprimir seguida de un procedimiento de agrupación y costura de semillas", detecta uniones de empalmes canónicos, no canónicos y secuencias de fusión quimérica. Ya está adaptado para alinear lecturas largas ( tecnologías de secuenciación de tercera generación ) y puede alcanzar velocidades de 45 millones de lecturas emparejadas por hora por procesador. [46]
- Subjunc [41] es una versión especializada de Subread. Utiliza todas las regiones cartografiables en una lectura de secuencia de ARN para descubrir exones y uniones exón-exón. Utiliza las señales del donante / receptor para encontrar las ubicaciones exactas de empalme. Subjunc produce alineaciones completas para cada lectura de secuencia de ARN, incluidas las lecturas que abarcan el exón, además de las uniones exón-exón descubiertas. Subjunc debe utilizarse para la detección de uniones y la detección de variaciones genómicas en los datos de RNA-seq.
- TopHat [47] está preparado para encontrar uniones de novo. TopHat alinea las lecturas en dos pasos. En primer lugar, las lecturas sin empalmar se alinean con Bowtie. Después, las lecturas alineadas se ensamblan con las islas de secuencias resultantes de Maq. En segundo lugar, las uniones de empalme se determinan basándose en las lecturas inicialmente no mapeadas y los posibles sitios donantes y aceptores canónicos dentro de las secuencias de islas.
Otros alineadores empalmados
- G.Mo.R-Se es un método que utiliza lecturas de RNA-Seq para construir modelos de genes de novo .
Evaluación de herramientas de alineación
- AlignerBoost es un conjunto de herramientas de software generalizado para impulsar la precisión del mapeo de secuenciación de próxima generación utilizando un marco de calidad de mapeo basado en Bayesiano.
- CADBURE Herramienta bioinformática para evaluar el rendimiento del alineador en su conjunto de datos RNA-Seq.
- QualiMap : evaluación de datos de alineación de secuenciación de próxima generación.
- RNAseqEVAL Una colección de herramientas para evaluar el mapeo de secuencias de ARN.
- Avance : evaluación comparativa individualizada y optimización de los resultados del mapeo de lectura para datos NGS.
Normalización, análisis cuantitativo y expresión diferencial
Herramientas generales
Estas herramientas realizan la normalización y calculan la abundancia de cada gen expresado en una muestra. [48] RPKM, FPKM y TPMs [49] son algunas de las unidades empleadas para la cuantificación de la expresión. Algunos programas también están diseñados para estudiar la variabilidad de la expresión genética entre muestras (expresión diferencial). Los estudios cuantitativos y diferenciales están determinados en gran medida por la calidad de la alineación de las lecturas y la precisión de la reconstrucción de isoformas. Se encuentran disponibles varios estudios que comparan métodos de expresión diferencial. [50] [51] [52]
- ABSSeq, un nuevo método de análisis de RNA-Seq basado en el modelado de diferencias de expresión absoluta.
- ALDEx2 es una herramienta para el análisis comparativo de datos de secuenciación de alto rendimiento. ALDEx2 utiliza análisis de datos de composición y se puede aplicar a RNAseq, secuenciación de genes de rRNA 16S, secuenciación metagenómica y experimentos de crecimiento selectivo.
- Alexa-Seq es una tubería que hace posible realizar análisis de expresión génica, análisis de expresión específica de transcripción, expresión de unión de exón y análisis alternativo cuantitativo. Permite una amplia visualización de expresiones alternativas, estadísticas y gráficos.
- ARH-seq : identificación de empalme diferencial en datos de RNA-seq.
- ASC [53]
- Vestido de bola
- BaySeq es un paquete de bioconductores para identificar la expresión diferencial utilizando datos de secuenciación de próxima generación, a través de métodos empíricos bayesianos . Existe la opción de utilizar el paquete "snow" para la paralelización del procesamiento de datos informáticos, recomendado cuando se trata de grandes conjuntos de datos.
- GMNB [54] es un método bayesiano para el análisis de la expresión diferencial de genes temporales a través de diferentes fenotipos o condiciones de tratamiento que maneja naturalmente la heterogeneidad de la profundidad de secuenciación en diferentes muestras, eliminando la necesidad de una normalización ad-hoc.
- BBSeq
- BitSeq (inferencia bayesiana de transcripciones a partir de datos de secuenciación) es una aplicación para inferir niveles de expresión de transcripciones individuales a partir de datos de secuenciación (RNA-Seq) y estimar la expresión diferencial (DE) entre condiciones.
- CEDER Detección precisa de genes expresados diferencialmente mediante la combinación de la importancia de los exones utilizando RNA-Seq.
- CPTRA El paquete CPTRA es para analizar datos de secuenciación de transcriptomas de diferentes plataformas de secuenciación. Combina las ventajas de 454, Illumina GAII u otras plataformas y puede realizar tareas de alineación y anotación de etiquetas de secuencia y cuantificación de expresión.
- casper es un paquete de bioconductores para cuantificar la expresión a nivel de isoformas. Combina el uso de resúmenes de datos informativos, estimación flexible de sesgos experimentales y consideraciones de precisión estadística que (según se informa) proporcionan reducciones sustanciales en el error de estimación.
- Gemelos / Cuffdiff es apropiado para medir la expresión de isoformas de transcripción global de novo . Realiza ensamblaje de transcripciones, estimación de abundancias y determina expresión diferencial (Cuffdiff) y regulación en muestras de RNA-Seq. [55]
- DESeq es un paquete de bioconductores para realizar análisis de expresión genética diferencial basados en la distribución binomial negativa.
- DEGSeq
- Análisis de expresión diferencial agnóstico de anotación Derfinder de datos de RNA-seq a resolución de pares de bases a través del enfoque DER Finder.
- DEvis es una potente solución integrada para el análisis de datos de expresión diferencial. Usando DESeq2 como marco, DEvis proporciona una amplia variedad de herramientas para la manipulación, visualización y gestión de proyectos de datos.
- DEXSeq es un paquete de bioconductores que encuentra el uso diferencial diferencial de exones en función de los recuentos de exones de RNA-Seq entre muestras. DEXSeq emplea una distribución binomial negativa, proporciona opciones para la visualización y exploración de los resultados.
- DEXUS es un paquete de bioconductores que identifica genes expresados diferencialmente en datos de RNA-Seq en todos los diseños de estudio posibles, como estudios sin réplicas, sin grupos de muestras y con condiciones desconocidas. [56] A diferencia de otros métodos, DEXUS no necesita réplicas para detectar transcripciones expresadas diferencialmente, ya que las réplicas (o condiciones) se estiman mediante el método EM para cada transcripción.
- DGEclust es un paquete de Python para agrupar datos de expresión de RNA-seq, CAGE y otros ensayos NGS utilizando un modelo de mezcla de proceso de Dirichlet jerárquico . Las configuraciones de agrupaciones estimadas se pueden postprocesar para identificar genes expresados diferencialmente y para generar dendrogramas y mapas térmicos de genes y muestras. [57]
- DiffSplice es un método para la detección y visualización de expresión diferencial, que no depende de las anotaciones de genes. Este método se apoya en la identificación de módulos de empalme alternativos (ASM) que divergen en las diferentes isoformas. Se aplica una prueba no paramétrica a cada ASM para identificar una transcripción diferencial significativa con una tasa de descubrimiento falso medida.
- EBSeq es un paquete de bioconductores para identificar genes e isoformas expresadas diferencialmente (DE) en dos o más condiciones biológicas en un experimento de RNA-seq. También se puede utilizar para identificar contigs DE después de realizar el ensamblaje del transcriptoma de novo. Al realizar el análisis DE en isoformas o contig, diferentes grupos de isoforma / contig tienen distintas incertidumbres de estimación. EBSeq modela las distintas incertidumbres utilizando un modelo empírico de Bayes con diferentes antecedentes.
- EdgeR es un paquete R para el análisis de la expresión diferencial de datos de métodos de secuenciación de ADN, como datos de RNA-Seq, SAGE o ChIP-Seq. edgeR emplea métodos estadísticos compatibles con la distribución binomial negativa como modelo para la variabilidad del recuento.
- EdgeRun un paquete R para el descubrimiento de expresiones diferenciales sensibles y funcionalmente relevantes mediante una prueba exacta incondicional.
- EQP La tubería de cuantificación de exones (EQP): un enfoque integral para la cuantificación de la expresión de genes, exones y uniones a partir de datos de RNA-seq.
- ESAT El kit de herramientas de análisis de secuencia final (ESAT) está especialmente diseñado para ser aplicado en la cuantificación de la anotación de bibliotecas de genes RNA-Seq especializadas que se dirigen a los extremos 5 'o 3' de las transcripciones.
- El rendimiento de eXpress incluye cuantificación de RNA-Seq a nivel de transcripción, análisis de haplotipos y alelos específicos y puede estimar la abundancia de transcripciones de las múltiples isoformas presentes en un gen. Aunque podría acoplarse directamente con alineadores (como Bowtie), eXpress también se puede usar con ensambladores de novo y, por lo tanto, no se necesita un genoma de referencia para realizar la alineación. Funciona en Linux, Mac y Windows.
- ERANGE realiza el alineamiento, normalización y cuantificación de genes expresados.
- featureCounts un cuantificador de lectura de uso general eficiente.
- FDM
- FineSplice Detección y estimación de uniones de empalme mejoradas a partir de datos de RNA-Seq.
- GFOLD [58] Cambio de pliegue generalizado para clasificar genes expresados diferencialmente a partir de datos de RNA-seq.
- globalSeq [59] Prueba global de recuentos: prueba de asociación entre RNA-Seq y datos de alta dimensión.
- GPSeq Esta es una herramienta de software para analizar datos de RNA-seq para estimar la expresión de genes y exones, identificar genes expresados diferencialmente y exones empalmados diferencialmente.
- IsoDOT : expresión diferencial de isoformas de ARN.
- Limma Limma potencia los análisis de expresión diferencial para estudios de secuenciación de ARN y microarrays.
- LPEseq prueba con precisión la expresión diferencial con un número limitado de repeticiones.
- Kallisto "Kallisto es un programa para cuantificar abundantes transcripciones a partir de datos de RNA-Seq, o más generalmente de secuencias objetivo utilizando lecturas de secuenciación de alto rendimiento. Se basa en la nueva idea de pseudoalineación para determinar rápidamente la compatibilidad de lecturas con objetivos, sin En los puntos de referencia con datos RNA-Seq estándar, kallisto puede cuantificar 30 millones de lecturas humanas en menos de 3 minutos en una computadora de escritorio Mac utilizando solo las secuencias de lectura y un índice de transcriptoma que, en sí mismo, tarda menos de 10 minutos en construirse. "
- MATS Análisis multivariado de empalme de transcripciones (MATS).
- MAPTest proporciona un marco de prueba general para el análisis de expresión diferencial del experimento de curso temporal de RNA-Seq. El método del paquete se basa en el modelo de mezcla gaussiana binomial negativa latente. La prueba propuesta es óptima en la máxima potencia media. La prueba permite no solo la identificación de genes DE tradicionales, sino también la prueba de una variedad de hipótesis compuestas de interés biológico. [60]
- Análisis de expresión de isoformas diferenciales de MetaDiff mediante metarregresión de efectos aleatorios.
- metaseqR es un paquete de bioconductores que detecta genes expresados diferencialmente a partir de datos de RNA-Seq mediante la combinación de seis algoritmos estadísticos que utilizan pesos estimados a partir de su rendimiento con datos simulados estimados a partir de datos reales, ya sean públicos o basados en el usuario. De esta manera, metaseqR optimiza el compromiso entre precisión y sensibilidad. [61] Además, metaseqR crea un informe detallado e interactivo con una variedad de diagramas de diagnóstico y exploración y texto autogenerado.
- MMSEQ es una tubería para estimar la expresión de isoformas y el desequilibrio alélico en organismos diploides basados en RNA-Seq. La canalización emplea herramientas como Bowtie, TopHat, ArrayExpressHTS y SAMtools. Además, edgeR o DESeq para realizar expresión diferencial.
- MultiDE
- Myrna es una herramienta de canalización que se ejecuta en un entorno de nube ( Elastic MapReduce ) o en una computadora única para estimar la expresión genética diferencial en conjuntos de datos de RNA-Seq. Bowtie se emplea para alineación de lectura corta y algoritmos R para cálculos de intervalo, normalización y procesamiento estadístico.
- NEUMA es una herramienta para estimar la abundancia de ARN mediante la normalización de la longitud, basada en lecturas alineadas de forma única y modelos de isoformas de ARNm. NEUMA utiliza datos de transcriptomas conocidos disponibles en bases de datos como RefSeq .
- NOISeq NOISeq es un enfoque no paramétrico para la identificación de genes expresados diferencialmente a partir de datos de recuento o datos de recuento previamente normalizados. NOISeq modela empíricamente la distribución de ruido de los cambios de recuento contrastando las diferencias de cambio de pliegues (M) y las diferencias de expresión absoluta (D) para todas las características en muestras dentro de la misma condición.
- NPEBseq es un método bayesiano empírico no paramétrico para el análisis de expresión diferencial.
- NSMAP permite la inferencia de isoformas así como la estimación de niveles de expresión, sin información anotada. Los exones se alinean y las uniones de empalme se identifican utilizando TopHat. Todas las posibles isoformas se calculan mediante una combinación de los exones detectados.
- NURD una implementación de un nuevo método para estimar la expresión de isoformas a partir de datos de secuencia de ARN no uniformes.
- PANDORA Un paquete R para el análisis y el informe de resultados de datos RNA-Seq mediante la combinación de múltiples algoritmos estadísticos.
- PennSeq PennSeq: cuantificación precisa de la expresión génica específica de isoformas en RNA-Seq mediante el modelado de una distribución de lectura no uniforme.
- Quark Quark permite la compresión basada en semireferencias de datos de secuencia de ARN.
- Quasr Cuantificar y Anotar corto lee en R .
- RapMap Una herramienta rápida, sensible y precisa para mapear lecturas de RNA-seq a transcriptomas.
- RNAeXpress Se puede ejecutar con la GUI de Java o la línea de comandos en Mac, Windows y Linux. Se puede configurar para realizar recuento de lecturas, detección de características o comparación GTF en datos mapeados de rnaseq.
- Rcount Rcount: recuento de lecturas RNA-Seq simple y flexible.
- rDiff es una herramienta que puede detectar el procesamiento diferencial de ARN (por ejemplo, empalme alternativo, poliadenilación o ocupación de ribosomas).
- RNASeqPower Cálculo de muestras Estimaciones de tamaño para estudios de RNA Seq. Versión del paquete R.
- RNA-Skim RNA-Skim: un método rápido para la cuantificación de RNA-Seq a nivel de transcripción.
- rSeq rSeq es un conjunto de herramientas para el análisis de datos de RNA-Seq. Consiste en programas que se ocupan de muchos aspectos del análisis de datos RNA-Seq, como la evaluación de la calidad de lectura, la generación de secuencias de referencia, el mapeo de secuencias, la estimación de expresiones de genes e isoformas (RPKM), etc.
- RSEM
- rQuant es un servicio web (instalación de Galaxy (biología computacional) ) que determina la abundancia de transcripciones por locus de genes, basándose en la programación cuadrática . rQuant es capaz de evaluar los sesgos introducidos por las condiciones experimentales. Se emplea una combinación de herramientas: PALMapper (lee la alineación), mTiM y mGene (inferencia de nuevas transcripciones).
- Salmon es una herramienta de software para calcular la abundancia de transcripciones a partir de datos de RNA-seq utilizando un enfoque sin alineación (basado directamente en las lecturas sin procesar) o basado en alineación (basado en alineaciones precalculadas). Utiliza un enfoque de optimización estocástica en línea para maximizar la probabilidad de abundancia de transcripciones en los datos observados. El software en sí es capaz de hacer uso de muchos subprocesos para producir estimaciones de cuantificación precisas rápidamente. Es parte del paquete de software Sailfish y es el sucesor de la herramienta Sailfish.
- SAJR es un contador de lectura escrito en Java y un paquete R para el análisis de empalme diferencial. Utiliza lecturas de unión para estimar la exclusión del exón y lecturas mapeadas dentro del exón para estimar su inclusión. SAJR lo modela mediante GLM con distribución cuasibinomial y utiliza una prueba de probabilidad logarítmica para evaluar la significancia.
- Scotty Realiza un análisis de potencia para estimar el número de réplicas y la profundidad de secuenciación necesaria para llamar a la expresión diferencial.
- Selle el algoritmo sin alineación para cuantificar la expresión de la secuencia haciendo coincidir kmers entre lecturas sin procesar y un transcriptoma de referencia. Maneja lecturas emparejadas e isoformas alternas, y usa poca memoria. Acepta todos los formatos de lectura comunes y genera recuentos de lectura, cobertura y valores de FPKM por secuencia de referencia. De código abierto, escrito en Java puro; admite todas las plataformas sin recompilación y sin otras dependencias. Distribuido con BBMap. (Seal - Sequence Expression AnaLyzer - no está relacionado con el alineador de lectura corta distribuido SEAL).
- semisup [62] Modelo de mezcla semi-supervisado: detección de SNP con efectos interactivos sobre un rasgo cuantitativo
- Sleuth es un programa para el análisis de experimentos de RNA-Seq para los que se han cuantificado las abundancias de transcripciones con kallisto.
- SplicingCompass Detección de empalme diferencial utilizando datos RNA-Seq.
- sSeq El propósito de este paquete R es descubrir los genes que se expresan diferencialmente entre dos condiciones en experimentos de RNA-seq.
- StringTie es un ensamblador de alineaciones de RNA-Seq en transcripciones potenciales. Utiliza un algoritmo de flujo de red novedoso, así como un paso de ensamblaje de novo opcional para ensamblar y cuantificar transcripciones de longitud completa que representan múltiples variantes de empalme para cada locus génico. Fue diseñado como un sucesor de Cufflinks (sus desarrolladores incluyen algunos de los desarrolladores de Cufflinks) y tiene muchas de las mismas características.
- Método de estimación de abundancia de isoformas de transcripción TIGAR con alineación con huecos de datos de RNA-Seq mediante inferencia bayesiana variacional.
- TimeSeq Detección de genes expresados diferencialmente en datos de secuencia temporal de ARN-Seq.
- TPMCalculator [63] software de un solo paso para cuantificar la abundancia de ARNm de características genómicas.
- WemIQ es una herramienta de software para cuantificar la expresión de isoformas y las proporciones de empalme de exones a partir de datos de RNA-seq de forma precisa y sólida.
Evaluación de cuantificación y expresión diferencial
- Simulación de datos de CompcodeR RNAseq, análisis de expresión diferencial y comparación de rendimiento de métodos de expresión diferencial.
- Análisis de expresión diferencial DEAR-O basado en datos de RNA-seq - En línea.
- Evaluación de potencia integral adecuada para la expresión diferencial utilizando RNA-seq.
- Recursos computacionales y empíricos de RNAontheBENCH para comparar métodos de cuantificación y expresión diferencial de RNAseq.
- rnaseqcomp Varios puntos de referencia cuantitativos y visualizados para tuberías de cuantificación de RNA-seq. Las cuantificaciones de dos condiciones para genes, transcripciones, uniones o exones por cada tubería con metainformación nessasery deben organizarse en matrices numéricas para continuar con la evaluación.
Soluciones multiherramientas
- DEB es una interfaz web / canalización que permite comparar los resultados de genes expresados de forma significativa de diferentes herramientas. Actualmente están disponibles tres algoritmos: edgeR, DESeq y bayseq.
- SARTools Una tubería R basada en DESeq2 y EdgeR para un análisis diferencial integral de datos de secuencia de ARN.
Expresión de elemento transponible
- TeXP es una canalización de cuantificación de elementos transponibles que deconvoluciona la transcripción generalizada de la transcripción autónoma de los elementos LINE-1. [64]
Banco de trabajo (canalización de análisis / soluciones integradas)
Soluciones comerciales
- ActiveSite de Cofactor Genomics
- Avadis NGS (actualmente Strand NGS)
- BaseSpace de Illumina
- Biowardrobe una plataforma integrada para el análisis de datos de epigenómica y transcriptómica.
- BBrowser una plataforma para analizar datos transcriptómicos unicelulares públicos e internos
- Banco de trabajo de CLC Genomics
- DNASTAR
- ES DECIR
- Genedata
- GeneSpring GX
- Genevestigator by Nebion (la versión básica es gratuita para investigadores académicos).
- geospiza
- Hélice dorada
- Maverix Biomics
- NextGENe
- OmicsOffice
- Partek Flow Análisis integral de una sola celda dentro de una interfaz intuitiva.
- Qlucore . Fácil de usar para análisis y visualización. Importación de archivos BAM con un botón.
Soluciones de código abierto (gratuitas)
- ArrayExpressHTS es un paquete de bioconductores que permite el preprocesamiento, la evaluación de la calidad y la estimación de la expresión de conjuntos de datos de RNA-Seq. Se puede ejecutar de forma remota en la nube del Instituto Europeo de Bioinformática o localmente. El paquete hace uso de varias herramientas: ShortRead (control de calidad), Bowtie, TopHat o BWA (alineación con un genoma de referencia), formato SAMtools, Cufflinks o MMSEQ (estimación de expresión).
- BioJupies es una plataforma basada en web que proporciona una solución completa de análisis de RNA-seq, desde un servicio de alineación gratuito hasta un informe completo de análisis de datos entregado como un Jupyter Notebook interactivo.
- BioQueue es un motor de cola basado en la web diseñado preferentemente para mejorar la eficiencia y solidez de la ejecución del trabajo en la investigación bioinformática mediante la estimación de los recursos del sistema requeridos por un determinado trabajo. Al mismo tiempo, BioQueue también tiene como objetivo promover la accesibilidad y reproducibilidad del análisis de datos en la investigación biomédica. Implementado por Python 2.7, BioQueue puede funcionar tanto en sistemas compatibles con POSIX (Linux, Solaris, OS X, etc.) como en Windows. Ver también. [sesenta y cinco]
- BioWardrobe es un paquete integrado que permite el análisis de conjuntos de datos de ChIP-Seq y RNA-Seq utilizando una GUI fácil de usar basada en la web. Para RNA-Seq Biowardrobe realiza mapeo, control de calidad, estimación RPKM y análisis de expresión diferencial entre muestras (grupos de muestras). Los resultados del análisis de expresión diferencial se pueden integrar con los datos de ChIP-Seq para construir perfiles de densidad de etiquetas promedio y mapas de calor. El paquete hace uso de varias herramientas de código abierto, incluidas STAR y DESeq. Ver también. [66]
- Chipster es un software de análisis fácil de usar para datos de alto rendimiento. Contiene más de 350 herramientas de análisis para secuenciación de próxima generación (NGS), microarrays, proteómica y datos de secuencia. Los usuarios pueden guardar y compartir flujos de trabajo de análisis automático y visualizar datos de forma interactiva utilizando un navegador de genoma integrado y muchas otras visualizaciones.
- DEWE (Differential Expression Workflow Executor) es una aplicación de escritorio de código abierto que proporciona una GUI fácil de usar para ejecutar fácilmente análisis de expresión diferencial en datos RNA-Seq. Actualmente, DEWE proporciona dos flujos de trabajo de análisis de expresión diferencial: bibliotecas HISAT2, StringTie y Ballgown y Bowtie2, StringTie y R (Ballgown y edgeR). Funciona en Linux, Windows y Mac OS X.
- easyRNASeq Calcula la cobertura de lecturas cortas de alto rendimiento frente a un genoma de referencia y lo resume por característica de interés (por ejemplo, exón, gen, transcripción). Los datos se pueden normalizar como 'RPKM' o por el paquete 'DESeq' o 'edgeR'.
- ExpressionPlot
- FASTGenomics es una plataforma en línea para compartir datos y análisis de secuenciación de ARN unicelular mediante flujos de trabajo reproducibles. Los datos de expresión genética se pueden compartir cumpliendo los estándares europeos de protección de datos (GDPR). FASTGenomics permite al usuario cargar sus propios datos y generar flujos de trabajo personalizados y reproducibles para la exploración y el análisis de datos de expresión génica (Scholz et al. 2018).
- FX FX es una herramienta de análisis de expresión de genes RNA-Seq de Frendly para el usuario, potenciada por el concepto de computación en la nube. Con FX, simplemente puede cargar sus datos FASTQ sin procesar de RNA-Seq en la nube y dejar que la informática se encargue de realizar el análisis pesado.
- Galaxy : Galaxy es una plataforma de banco de trabajo de propósito general para biología computacional.
- GENE-Counter es una tubería de Perl para análisis de expresión génica diferencial de RNA-Seq. Gene-counter realiza alineaciones con CASHX, Bowtie, BWA u otro alineador de salida SAM. La expresión génica diferencial se ejecuta con tres paquetes opcionales (NBPSeq, edgeR y DESeq) utilizando métodos de distribución binomial negativa. Los resultados se almacenan en una base de datos MySQL para hacer posibles análisis adicionales.
- GenePattern ofrece soluciones integradas para el análisis de RNA-Seq ( Broad Institute ).
- GeneProf Canalizaciones de análisis fáciles de usar y de libre acceso para experimentos de RNA-seq y ChIP-seq.
- GREIN es una plataforma web interactiva para reprocesar y volver a analizar datos GEO RNA-seq. GREIN es impulsado por la tubería computacional de back-end para el procesamiento uniforme de datos RNA-seq y el gran número (> 5,800) de conjuntos de datos ya procesados. Las interfaces fáciles de usar de front-end brindan una gran cantidad de opciones de análisis de usuario que incluyen subconfiguración y descarga de datos procesados, visualización interactiva, análisis de poder estadístico, construcción de firmas de expresión genética diferencial y su caracterización funcional integral, análisis de conectividad con datos LINCS L1000, etc.
- GT-FAR es una tubería de secuencia de ARN que realiza QC de secuencia de ARN, alineación, cuantificación libre de referencia y llamada de variantes de empalme. Filtra, recorta y alinea secuencialmente las lecturas de los modelos de genes y predice y valida nuevas uniones de empalme, después de lo cual cuantifica la expresión de cada gen, exón y unión de empalme conocida / novedosa y llamada de variante.
- MultiExperiment Viewer (MeV) es adecuado para realizar análisis, minería de datos y visualización de datos genómicos a gran escala. Los módulos MeV incluyen una variedad de algoritmos para ejecutar tareas como agrupamiento y clasificación, prueba t de Student , análisis de enriquecimiento de conjuntos de genes o análisis de significación. MeV se ejecuta en Java .
- NGSUtils es un conjunto de herramientas de software para trabajar con conjuntos de datos de secuenciación de próxima generación.
- Rail-RNA Análisis escalable de empalme y cobertura de RNA-seq.
- RAP RNA-Seq Analysis Pipeline, una nueva aplicación web NGS basada en la nube.
- RSEQtools "RSEQtools consiste en un conjunto de módulos que realizan tareas comunes como calcular valores de expresión génica, generar pistas de señales de lecturas mapeadas y segmentar esa señal en regiones transcritas activamente. Además de la anonimización que ofrece este formato, también facilita el desacoplamiento de la alineación de las lecturas de los análisis posteriores ".
- RobiNA proporciona una interfaz gráfica de usuario para manejar paquetes de R / BioConductor. RobiNA proporciona un paquete que instala automáticamente todas las herramientas externas necesarias (marcos de R / Bioconductor y Bowtie ). Esta herramienta ofrece una diversidad de métodos de control de calidad y la posibilidad de producir muchas tablas y gráficos que proporcionan resultados detallados para la expresión diferencial. Además, los resultados se pueden visualizar y manipular con MapMan y PageMan . RobiNA se ejecuta en la versión 6 de Java .
- RseqFlow es una tubería de análisis de RNA-Seq que ofrece una implementación expresa de pasos de análisis para conjuntos de datos de secuenciación de RNA. Puede realizar un control de calidad (QC) antes y después del mapeo para secuenciar datos, calcular niveles de expresión para lecturas mapeadas de forma única, identificar genes expresados diferencialmente y convertir formatos de archivo para facilitar la visualización.
- S-MART maneja datos de RNA-Seq mapeados y realiza esencialmente manipulación de datos (selección / exclusión de lecturas, agrupamiento y análisis de expresión diferencial) y visualización (información de lectura, distribución, comparación con datos epigenómicos de ChIP-Seq). Puede ser ejecutado en cualquier computadora portátil por una persona sin conocimientos de computadora. Una interfaz gráfica de usuario amigable facilita la operación de las herramientas.
- Taverna es un sistema de gestión de flujo de trabajo de código abierto e independiente del dominio: un conjunto de herramientas que se utilizan para diseñar y ejecutar flujos de trabajo científicos y ayudar a la experimentación in silico.
- TCW es un banco de trabajo computacional de transcriptomas.
- TRAPLINE una tubería estandarizada y automatizada para el análisis, evaluación y anotación de datos de secuenciación de ARN.
- ViennaNGS Una caja de herramientas para construir tuberías de análisis de secuenciación eficientes de próxima generación.
- wapRNA Esta es una aplicación web gratuita para el procesamiento de datos RNA-Seq de alto rendimiento (wapRNA) de plataformas de secuenciación de próxima generación (NGS), como Genome Analyzer de Illumina Inc. (Solexa) y SOLiD of Applied Biosystems (SOLiD ). wapRNA proporciona una herramienta integrada para la secuencia de RNA, se refiere al uso de tecnologías de secuenciación de alto rendimiento para secuenciar cDNA con el fin de obtener información sobre el contenido de RNA de una muestra.
Análisis de empalmes alternativos
Herramientas generales
- Paquete de herramientas de análisis de empalme alternativo (ASATP) El paquete de herramientas de análisis de empalme alternativo (ASATP) incluye una serie de juegos de herramientas para analizar eventos de empalme alternativo, que podrían usarse para detectar y visualizar eventos de empalme alternativo, verificar cambios ORF, evaluar regulaciones de empalme alternativo y hacer análisis estadístico.
- Asprofile es un conjunto de programas para extraer, cuantificar y comparar eventos de empalme alternativo (AS) a partir de datos de RNA-seq.
- AStalavista El servidor web AStalavista extrae y muestra eventos de empalme alternativo (AS) de una anotación genómica determinada de coordenadas genéticas exón-intrón. Al comparar todas las transcripciones dadas, AStalavista detecta las variaciones en su estructura de empalme e identifica todos los eventos de AS (como omisión de exón, donante alternativo, etc.) asignando a cada uno de ellos un código de AS.
- CLASS2, anotación variante de empalme precisa y eficiente a partir de lecturas de RNA-seq.
- Gemelos / Gemelos
- DEXseq Inferencia del uso diferencial de exones en RNA-Seq.
- Diceseq Modelado estadístico de la dinámica de empalme de isoformas a partir de datos de series de tiempo de RNA-seq.
- EBChangepoint Un modelo empírico de punto de cambio de Bayes para identificar empalmes alternativos 3 ′ y 5 ′ mediante RNA-Seq.
- Eoulsan Un marco versátil dedicado al análisis de datos de secuenciación de alto rendimiento. Permite análisis automatizado (mapeo, recuento y análisis diferencial con DESeq2).
- GESS para la detección de novo de sitios de eventos de omisión de exón a partir de lecturas de secuencia de ARN sin procesar.
- LeafCutter es un conjunto de métodos novedosos que permiten la identificación y cuantificación de eventos de empalme alternativos nuevos y existentes al centrarse en las escisiones de intrones.
- LIMONES [67] Una herramienta para la identificación de uniones de empalme en transcriptomas de organismos que carecen de genomas de referencia.
- MAJIQ . Modelado de cuantificación de inclusión de unión alternativa.
- MATS Análisis multivariado de empalme de transcripciones (MATS).
- MISO cuantifica el nivel de expresión de variantes de empalme a partir de datos de RNA-Seq y es capaz de reconocer exones / isoformas regulados diferencialmente en diferentes muestras. MISO utiliza un método probabilístico (inferencia bayesiana) para calcular la probabilidad del origen de las lecturas.
- Rail-RNA Análisis escalable de empalme y cobertura de RNA-seq.
- RPASuite [68] RPASuite (Conjunto de análisis de procesamiento de ARN) es una tubería computacional para identificar transcripciones procesadas de manera diferencial y coherente utilizando datos de secuencia de ARN obtenidos de múltiples tejidos o líneas celulares.
- RSVP RSVP es un paquete de software para la predicción de isoformas alternativas de genes que codifican proteínas, basado tanto en evidencia de ADN genómico como en lecturas alineadas de secuencia de ARN. El método se basa en el uso de gráficos ORF, que son más generales que los gráficos de empalme utilizados en el ensamblaje de transcripciones tradicionales.
- SAJR calcula el número de lecturas que confirma la inclusión o exclusión del segmento (parte del gen entre dos sitios de empalme más cercanos) y luego modela estos recuentos mediante GLM con distribución cuasibinomial para tener en cuenta la variabilidad biológica.
- Paquete SGSeq AR para la predicción de novo de eventos de empalme.
- SplAdder Identificación, cuantificación y prueba de eventos de empalme alternativos a partir de datos de RNA-Seq.
- SpliceGrapher Predicción de nuevos eventos de empalme alternativo a partir de datos de RNA-Seq. También incluye herramientas gráficas para visualizar gráficos de empalmes. [69] [70]
- SpliceJumper es un enfoque basado en clasificación para llamar a uniones de empalme a partir de datos de RNA-seq.
- SplicePie es una tubería para analizar empalmes no secuenciales y de varios pasos. SplicePie contiene tres pasos de análisis principales: analizar el orden de empalme por muestra, buscar eventos de empalme recursivo por muestra y resumir los eventos de empalme recursivos previstos para todas las muestras analizadas (se recomienda usar más muestras para una mayor confiabilidad). Los dos primeros pasos se realizan individualmente en cada muestra y el último paso analiza la superposición en todas las muestras. Sin embargo, el análisis también se puede ejecutar en una muestra.
- SplicePlot es una herramienta para visualizar empalmes alternativos y los efectos de empalmar loci de rasgos cuantitativos (sQTL) a partir de datos de secuencia de ARN. Proporciona una interfaz de línea de comandos simple para dibujar gráficos de sashimi, gráficos de colmena y gráficos de estructura de eventos de empalme alternativos de archivos .bam, .gtf y .vcf.
- SpliceR Un paquete R para la clasificación de empalmes alternativos y la predicción del potencial de codificación a partir de datos de RNA-seq.
- SpliceSEQ SpliceViewer es una aplicación Java que permite a los investigadores investigar patrones de empalme de ARNm alternativos en datos de estudios de secuenciación de ARNm de alto rendimiento. Las lecturas de secuencia se asignan a gráficos de empalme que cuantifican de manera inequívoca el nivel de inclusión de cada exón y unión de empalme. A continuación, se recorren los gráficos para predecir las isoformas de proteínas que probablemente resulten de las lecturas del exón y la unión de empalme observadas. Las anotaciones UniProt se asignan a cada isoforma de proteína para identificar los posibles impactos funcionales del empalme alternativo.
- SpliceTrap [71] es una herramienta estadística para la cuantificación de las proporciones de inclusión de exones a partir de datos de RNA-seq.
- Splicing Express : un paquete de software para análisis de empalmes alternativos utilizando datos de secuenciación de próxima generación.
- SUPPA Esta herramienta genera diferentes eventos de Empalme Alternativo (AS) y calcula el valor de PSI ("Porcentaje de Empalme In") para cada evento aprovechando la cuantificación de la abundancia de transcripciones de múltiples muestras.
- SwitchSeq identifica cambios extremos en el empalme (eventos de cambio).
- Rastrillo identificación de uniones de empalme auténticos.
- TrueSight Un algoritmo de autoaprendizaje para la detección de uniones de empalmes utilizando RNA-seq.
- Vast-tools Un conjunto de herramientas para perfilar eventos de empalme alternativos en datos RNA-Seq.
Análisis de retención de intrones
- IRcall / IRclassifier IRcall es una herramienta computacional para la detección de eventos IR a partir de datos RNA-Seq. IRclassifier es un enfoque basado en aprendizaje automático supervisado para la detección de eventos IR a partir de datos RNA-Seq.
Uso diferencial de isoformas / transcripciones
- IsoformSwitchAnalyzeR IsoformSwitchAnalyzeR es un paquete R que permite la identificación estadística de interruptores de isoformas con consecuencias funcionales predichas donde las consecuencias de interés se pueden elegir de una lista larga pero incluye ganancia / pérdida de dominios de proteínas, cambios de péptidos de señal en la sensibilidad de NMD. [72] IsoformSwitchAnalyzeR está diseñado para el análisis posterior de datos de cualquier herramienta de cuantificación de isoformas / transcripciones completas, pero es compatible directamente con Cufflinks / Cuffdiff, RSEM Kallisto y Salmon.
- DRIMSeq Un paquete R que utiliza modelado lineal generalizado (GLM) para identificar interruptores de isoformas a partir de datos de recuento de isoformas estimados. [73]
- BayesDRIMSeq Un paquete R que contiene una implementación bayesiana de DRIMSeq. [74]
- Gemelos / Cuffdiff Herramienta de análisis diferencial y cuantificación de transcripción / isoforma de longitud completa que, entre otras cosas, prueba los cambios en el uso de la isoforma que pertenece a la misma transcripción primaria (que comparte un TSS) a través de una prueba t unilateral basada en la asintótica de Jensen- Métrica de Shannon. [55]
- rSeqNP Un paquete de R que implementa un enfoque no paramétrico para probar la expresión diferencial y el empalme de los datos de RNA-Seq. [75]
- Isolator Herramienta de análisis diferencial y cuantificación de isoformas / transcripciones completas que analiza todas las muestras en un experimento al unísono utilizando un modelo jerárquico bayesiano simple. Puede identificar el uso de isoformas diferenciales probando la probabilidad de empalme monótono. [76]
Genes de fusión / quimeras / buscadores de translocaciones / variaciones estructurales
Los arreglos del genoma resultantes de enfermedades como el cáncer pueden producir modificaciones genéticas aberrantes como fusiones o translocaciones. La identificación de estas modificaciones juega un papel importante en los estudios de carcinogénesis. [77]
- Arriba [78] es un algoritmo de detección de fusión basado en el alineador STAR [46] RNA-Seq. Es el ganador del DREAM Challenge sobre detección de fusión. [79] Arriba también puede detectar sitios de integración viral, duplicaciones internas en tándem, duplicaciones de exones completos, ARN circulares , eventos de secuestro de potenciadores que involucran loci de receptores de células T / inmunoglobulinas y puntos de ruptura en intrones o regiones intergénicas.
- Belerofontes
- BreakDancer
- BreakFusion
- QuimeraScan
- EBARDenovo
- EricScript
- DEEPEST es un algoritmo estadístico de detección de fusión. [80] DEEPEST también puede detectar ARN circulares .
- DeFuse DeFuse es un paquete de software para el descubrimiento de la fusión de genes utilizando datos de RNA-Seq.
- FusionAnalyser FusionAnalyser utiliza el mapeo de lecturas emparejadas a diferentes genes (lecturas Bridge).
- FusionCatcher FusionCatcher busca genes de fusión somática, translocaciones y quimeras novedosos / conocidos en los datos de secuencia de ARN (lecturas de extremos emparejados trenzados / no trenzados de las plataformas Illumina NGS) de muestras enfermas.
- FusionHunter identifica transcripciones de fusión sin depender de anotaciones ya conocidas. Utiliza Bowtie como primer alineador y lecturas de extremos emparejados.
- FusionMap FusionMap es un alineador de fusión que alinea las lecturas que abarcan las uniones de fusión directamente al genoma sin conocimiento previo de las posibles regiones de fusión. Detecta y caracteriza las uniones de fusión con una resolución de pares de bases. FusionMap se puede aplicar para detectar uniones de fusión en conjuntos de datos de extremo único y emparejado de estudios de gDNA-Seq o RNA-Seq.
- FusionSeq
- JAFFA se basa en la idea de comparar un transcriptoma con un transcriptoma de referencia en lugar de un enfoque centrado en el genoma como otros buscadores de fusión .
- MapSplice [81]
- nFuse
- Navegador de expresión génica Oncomine NGS RNA-Seq.
- PRADA
- SOAPFuse detecta transcripciones de fusión a partir de datos de RNA-Seq de extremos emparejados humanos. Supera a otras cinco herramientas similares en rendimiento de cálculo y detección de fusión utilizando datos tanto reales como simulados. [82]
- SOAPfusion
- TopHat-Fusion se basa en la versión de TopHat y fue desarrollado para manejar lecturas resultantes de genes de fusión. No requiere datos previos sobre genes conocidos y usa Bowtie para alinear lecturas continuas.
- ViralFusionSeq es una herramienta de secuenciación de alto rendimiento (HTS) para descubrir eventos de integración viral y reconstruir transcripciones de fusión con una resolución de base única.
- ViReMa (Viral Recombination Mapper) detecta y notifica eventos de recombinación o fusión en y entre el virus y los genomas del huésped utilizando conjuntos de datos de secuenciación profunda. [83]
Identificación de variación de número de copia
- CNVseq detecta variaciones en el número de copias compatibles con un modelo estadístico derivado de la hibridación genómica comparativa de matrices . La alineación de secuencias se realiza mediante BLAT, los cálculos se ejecutan mediante módulos R y está completamente automatizado con Perl.
RNA-Seq de célula única
Secuenciación unicelular . La metodología tradicional de RNA-Seq se conoce comúnmente como "RNA-Seq a granel", en este caso el RNA se extrae de un grupo de células o tejidos, no de la célula individual como ocurre en los métodos de una sola célula. Algunas herramientas disponibles para bulk RNA-Seq también se aplican al análisis unicelular, sin embargo para afrontar la especificidad de esta técnica se desarrollaron nuevos algoritmos.
- CEL-Seq [84] RNA-Seq unicelular mediante amplificación lineal multiplexada.
- Drop-Seq [85] Perfil de expresión de células individuales altamente paralelo en todo el genoma utilizando gotitas de nanolitros.
- FISSEQ Secuenciación del transcriptoma unicelular in situ , es decir, sin disociar las células.
- Oscope : un canal estadístico para identificar genes oscilatorios en experimentos no sincronizados de secuencia de ARN de una sola célula.
- SCUBA [86] Extracción de relaciones de linaje y modelado de cambios dinámicos asociados con la diferenciación celular de múltiples linajes.
- scLVM [87] scLVM es un marco de modelado para datos de secuencia de ARN de una sola célula que se puede utilizar para diseccionar la heterogeneidad observada en diferentes fuentes, lo que permite la corrección de fuentes de variación confusas.
- scM & T-Seq Secuenciación unicelular en paralelo.
- Sphinx [88] SPHINX es un enfoque de agrupamiento híbrido que logra una alta eficiencia de agrupamiento mediante la utilización de características de "composición" y "similitud" de la secuencia de consulta durante el proceso de agrupamiento. SPHINX puede analizar secuencias en conjuntos de datos metagenómicos tan rápidamente como los enfoques basados en la composición, pero sin embargo tiene la precisión y especificidad de los algoritmos basados en similitudes.
- TraCeR [89] Reconstrucción del receptor de células T emparejado a partir de lecturas de RNA-Seq de una sola célula.
- VDJPuzzle [90] Reconstrucción del receptor de células T a partir de lecturas de RNA-Seq de una sola célula y vinculación del clonotipo con el fenotipo funcional y el transcriptoma de células individuales.
Paquetes integrados
- Expresión diferencial de monóculos y análisis de series de tiempo para experimentos de RNA-Seq y qPCR de una sola célula.
- SCANPY [91] Implementación escalable basada en Python para preprocesamiento, visualización, agrupamiento, inferencia de trayectoria y pruebas de expresión diferencial.
- Análisis integrado SCell de datos de secuencia de ARN de una sola célula.
- Paquete Seurat [92] R diseñado para control de calidad, análisis y exploración de datos de secuencia de ARN de una sola célula.
- Sincell un paquete R / Bioconductor para la evaluación estadística de jerarquías de estado celular a partir de RNA-seq.
- SINCERA [93] Una tubería para el análisis de perfiles de secuencia de ARN de una sola célula.
Control de calidad y filtrado de genes
- Celloline Una tubería para el mapeo y la evaluación de la calidad de datos de secuencia de ARN de una sola célula.
- OEFinder Una interfaz de usuario para identificar y visualizar efectos de ordenamiento en datos de secuencia de ARN de una sola célula.
- SinQC Un método y una herramienta para controlar la calidad de los datos de RNA-seq de una sola célula.
Normalización
- FUNDAMENTOS Comprender los cambios en la expresión génica a nivel unicelular.
- GRM Normalización y reducción de ruido para experimentos de secuencia de ARN de una sola célula.
Reducción de dimensión
- ZIFA [94] Reducción de la dimensionalidad para el análisis de expresión génica unicelular con inflado cero.
Expresión diferencial
- BPSC Un paquete R BPSC para el ajuste de modelos y análisis de expresión diferencial de RNA-seq de una sola célula.
- MAST un marco estadístico flexible para evaluar los cambios transcripcionales y caracterizar la heterogeneidad en los datos de secuenciación de ARN de una sola célula.
- SCDE Caracterización de la heterogeneidad transcripcional a través del análisis de sobredispersión de rutas y conjuntos de genes.
Visualización
- exponer
Simuladores de RNA-Seq
Estos simuladores generan lecturas in silico y son herramientas útiles para comparar y probar la eficiencia de los algoritmos desarrollados para manejar datos de RNA-Seq. Además, algunos de ellos permiten analizar y modelar protocolos RNA-Seq.
- BEERS Simulator está formateado para datos de humanos o de mouse, y las lecturas de los extremos emparejados se secuencian en la plataforma Illumina. Beers genera lecturas a partir de un conjunto de modelos genéticos que provienen de diferentes orígenes de anotaciones publicadas. Algunos genes se eligen al azar y luego se introducen deliberadamente errores (como indeles, cambios de base y colas de baja calidad), seguidos de la construcción de uniones de empalme novedosas.
- Simulación de datos compcodeR RNAseq, análisis de expresión diferencial y comparación de rendimiento de métodos de expresión diferencial.
- CuReSim un simulador de lectura personalizado.
- El simulador de flujo implementa una simulación de tubería por computadora para imitar un experimento de RNA-Seq. Todos los pasos de los componentes que influyen en la RNA-Seq se tienen en cuenta (transcripción inversa, fragmentación, ligación del adaptador, amplificación por PCR, segregación y secuenciación en gel) en la simulación. Estos pasos presentan atributos experimentales que pueden medirse y se capturan los sesgos experimentales aproximados. Flux Simulator permite unir cada uno de estos pasos como módulos para analizar diferentes tipos de protocolos.
- PBSIM PacBio lee el simulador - hacia el ensamblaje exacto del genoma.
- Poliéster Este paquete de bioconductores se puede utilizar para simular lecturas de RNA-seq de experimentos de expresión diferencial con réplicas. A continuación, las lecturas se pueden alinear y utilizar para realizar comparaciones de métodos para la expresión diferencial.
- RandomReads Genera lecturas sintéticas a partir de un genoma con un modelo de error de Illumina o PacBio. Las lecturas pueden estar emparejadas o desemparejadas, con longitud y tamaño de inserción arbitrarios, salida en fasta o fastq, RandomReads tiene una amplia selección de opciones para tasas de mutación, con configuraciones individuales para sustitución, eliminación, inserción y N tasas y distribuciones de longitud, anotaciones lee con su ubicación genómica original, no mutada, de inicio y parada. RandomReads no varía los niveles de expresión y, por lo tanto, no está diseñado para simular experimentos de RNA-seq, sino para probar la sensibilidad y especificidad de los alineadores de RNA-seq con intrones de novo. Incluye una herramienta para clasificar y generar curvas ROC a partir de archivos sam resultantes. De código abierto, escrito en Java puro; admite todas las plataformas sin recompilación y sin otras dependencias. Distribuido con BBMap.
- rlsim es un paquete de software para simular la preparación de la biblioteca RNA-seq con estimación de parámetros.
- rnaseqbenchmark Un punto de referencia para tuberías de cuantificación de RNA-seq.
- rnaseqcomp Benchmarks para tuberías de cuantificación de RNA-seq.
- RSEM Read Simulator RSEM proporciona a los usuarios el programa 'rsem-simulate-reads' para simular datos de RNA-Seq basados en parámetros aprendidos de conjuntos de datos reales.
- RNASeqReadSimulator contiene un conjunto de scripts Python simples, controlados por línea de comandos. Genera niveles de expresión aleatorios de transcripciones (final simple o emparejado), simula igualmente lecturas con un patrón de sesgo posicional específico y genera errores aleatorios a partir de plataformas de secuenciación.
- RNA Seq Simulator RSS toma archivos de alineación SAM de datos RNA-Seq y simula conjuntos de datos RNA-Seq dispersos, múltiples réplicas, diferenciales y no trenzados.
- SimSeq Un enfoque no paramétrico para la simulación de conjuntos de datos de secuencias de ARN.
- WGsim Wgsim es una pequeña herramienta para simular secuencias de lectura de un genoma de referencia. Es capaz de simular genomas diploides con SNP y polimorfismos de inserción / deleción (INDEL) y simular lecturas con errores de secuenciación de sustitución uniformes. No genera errores de secuenciación de INDEL, pero esto se puede compensar en parte simulando polimorfismos de INDEL.
Ensambladores de transcriptomas
El transcriptoma es la población total de ARN expresados en una célula o grupo de células, incluidos los ARN no codificantes y codificantes de proteínas. Hay dos tipos de enfoques para ensamblar transcriptomas. Los métodos guiados por el genoma utilizan un genoma de referencia (si es posible, un genoma terminado y de alta calidad) como plantilla para alinear y ensamblar lecturas en transcripciones. Los métodos independientes del genoma no requieren un genoma de referencia y normalmente se utilizan cuando no hay un genoma disponible. En este caso, las lecturas se ensamblan directamente en las transcripciones.
Ensambladores guiados por genoma
- Ensamblaje del transcriptoma bayesiano de Bayesembler .
- CIDANE un descubrimiento integral de isoformas y una estimación de abundancia.
- CLASS CLASS es un programa para ensamblar transcripciones de lecturas de RNA-seq alineadas con un genoma. CLASS produce un conjunto de transcripciones en tres etapas. La etapa 1 usa programación lineal para determinar un conjunto de exones para cada gen. La etapa 2 construye una representación gráfica de empalme de un gen, conectando los exones (vértices) a través de intrones (bordes) extraídos de alineaciones de lectura empalmadas. La etapa 3 selecciona un subconjunto de las transcripciones candidatas codificadas en el gráfico que pueden explicar todas las lecturas, utilizando un enfoque de parsimonius (SET_COVER) o de optimización de programación dinámica. Esta etapa tiene en cuenta las limitaciones derivadas de los pares de apareamiento y las alineaciones empalmadas y, opcionalmente, el conocimiento sobre la estructura genética extraída de las anotaciones o alineaciones conocidas de secuencias de ADNc.
- Gemelos Gemelos ensambla transcripciones, estima su abundancia y prueba la expresión diferencial y la regulación en muestras de RNA-Seq. Acepta lecturas de RNA-Seq alineadas y ensambla las alineaciones en un conjunto parsimonioso de transcripciones. A continuación, Gemelos estima la abundancia relativa de estas transcripciones en función de la cantidad de lecturas que respaldan cada una, teniendo en cuenta los sesgos en los protocolos de preparación de bibliotecas.
- iReckon iReckon es un algoritmo para la reconstrucción simultánea de isoformas y la estimación de abundancia. Además de modelar isoformas novedosas, lecturas de mapas múltiples y duplicados de lectura, este método tiene en cuenta la posible presencia de pre-ARNm sin empalmar y retención de intrones. iReckon solo requiere un conjunto de sitios de inicio y finalización de la transcripción, pero puede usar isoformas completas conocidas para mejorar la sensibilidad. A partir del conjunto de casi todas las isoformas posibles, iReckon utiliza un algoritmo EM regularizado para determinar las que están realmente presentes en la muestra secuenciada, junto con sus abundancias. iReckon tiene varios subprocesos para aumentar la eficiencia en todos sus pasos que requieren mucho tiempo.
- IsoInfer IsoInfer es un programa C / C ++ para inferir isoformas basadas en lecturas cortas de RNA-Seq (un solo extremo y extremo emparejado), límite exón-intrón e información TSS / PAS.
- IsoLasso IsoLasso es un algoritmo para ensamblar transcripciones y estimar sus niveles de expresión a partir de lecturas de RNA-Seq.
- Flipflop FlipFlop implementa un método para el descubrimiento de transcripciones de novo y la estimación de abundancia a partir de datos de RNA-Seq. Se diferencia de los gemelos por realizar simultáneamente las tareas de identificación y cuantificación utilizando un enfoque convexo de máxima verosimilitud penalizada.
- GIIRA GIIRA es un método de predicción de genes que identifica regiones de codificación potenciales basándose exclusivamente en el mapeo de lecturas de un experimento de RNA-Seq. Fue diseñado principalmente para la predicción de genes procarióticos y es capaz de resolver genes dentro de la región expresada de un operón. Sin embargo, también es aplicable a eucariotas y predice estructuras de intrones de exón así como isoformas alternativas.
- MITIE Identificación y cuantificación simultánea de transcripciones basadas en RNA-Seq en múltiples muestras.
- RNAeXpress RNA-eXpress fue diseñado como una solución fácil de usar para extraer y anotar transcripciones biológicamente importantes de datos de secuenciación de ARN de próxima generación. Este enfoque complementa las bases de datos de anotación de genes existentes al garantizar que todas las transcripciones presentes en la muestra se consideren para un análisis adicional.
- Escritura Escritura es un método para la reconstrucción del transcriptoma que se basa únicamente en lecturas de RNA-Seq y un genoma ensamblado para construir un transcriptoma ab initio. Los métodos estadísticos para estimar la importancia de la cobertura de lectura también son aplicables a otros datos de secuenciación. Las Escrituras también tienen módulos para llamadas pico ChIP-Seq.
- DIAPOSITIVA Modelado lineal disperso de datos de RNA-Seq para el descubrimiento de isoformas y la estimación de abundancia.
- Strawberry Un programa para la reconstrucción y cuantificación de transcripciones guiadas por el genoma a partir de RNA-seq de extremos emparejados.
- StringTie StringTie es un ensamblador de alineaciones RNA-Seq en transcripciones potenciales. Utiliza un algoritmo de flujo de red novedoso, así como un paso de ensamblaje de novo opcional para ensamblar y cuantificar transcripciones de longitud completa que representan múltiples variantes de empalme para cada locus génico. Su entrada puede incluir no solo las alineaciones de las lecturas sin procesar utilizadas por otros ensambladores de transcripciones, sino también las alineaciones de secuencias más largas que se han ensamblado a partir de esas lecturas. Para identificar genes expresados diferencialmente entre experimentos, la salida de StringTie puede ser procesada por los programas Cuffdiff o Ballgown.
- TransComb un ensamblaje de transcriptoma guiado por el genoma mediante uniones de combinación en gráficos de empalme.
- Traph Una herramienta para la identificación y cuantificación de transcripciones con RNA-Seq.
- Ensamblaje de mosaico para el descubrimiento de nuevos genes independientes de las anotaciones.
Ensambladores independientes del genoma ( de novo )
- Bridger [95] fue desarrollado en la Universidad de Shandong, aprovecha las técnicas empleadas en Gemelos para superar las limitaciones de los ensambladores de novo existentes.
- Algoritmo de ensamblaje CLC de novo de CLC Genomics Workbench.
- KISSPLICE es un software que permite analizar datos de RNA-seq con o sin un genoma de referencia. Es un ensamblador de transcriptoma local exacto que permite identificar SNP, indels y eventos de empalme alternativo. Puede tratar con un número arbitrario de condiciones biológicas y cuantificará cada variante en cada condición.
- Ensamblador de transcriptomas Oases De novo para lecturas muy cortas.
- rnaSPAdes
- Rnnotator una tubería de ensamblaje de transcriptoma de novo automatizada a partir de lecturas de RNA-Seq trenzadas.
- Ensamblador SAT
- SOAPdenovo-Trans
- Mapeo de traducción de andamios
- Trans-ABySS
- T-IDBA
- Trinity un método para la reconstrucción de novo eficiente y robusta de transcriptomas a partir de datos de RNA-seq. Trinity combina tres módulos de software independientes: Inchworm, Chrysalis y Butterfly, que se aplican secuencialmente para procesar grandes volúmenes de lecturas de RNA-seq.
- Terciopelo
- TransLiG
Herramientas de evaluación de ensamblajes
- Busco proporciona medidas cuantitativas para la evaluación del ensamblaje del genoma, el conjunto de genes y la integridad del transcriptoma, basadas en expectativas evolutivamente informadas del contenido genético de ortólogos de copia única casi universales seleccionados de la herramienta OrthoDB.
- Detonate DETONATE (DE novo TranscriptOme rNa-seq Assembly con o sin la evaluación de la verdad) consta de dos paquetes de componentes, RSEM-EVAL y REF-EVAL. Ambos paquetes están destinados principalmente a ser utilizados para evaluar conjuntos de transcriptomas de novo, aunque REF-EVAL se puede utilizar para comparar conjuntos de cualquier tipo de secuencias genómicas.
- Herramienta de evaluación de calidad rnaQUAST para ensamblajes de transcriptomas.
- TransRate Transrate es un software para el análisis de calidad de ensamblajes de transcriptomas de novo. Examina su ensamblaje en detalle y lo compara con la evidencia experimental, como las lecturas de secuenciación, informando puntajes de calidad para contigs y ensamblajes. Esto le permite elegir entre ensambladores y parámetros, filtrar los malos contactos de un ensamblaje y ayudar a decidir cuándo dejar de intentar mejorar el ensamblaje.
Redes de coexpresión
- GeneNetWeaver es una herramienta de código abierto para la generación de pruebas comparativas in silico y la generación de perfiles de rendimiento de métodos de inferencia de red.
- WGCNA es un paquete R para análisis de redes de correlación ponderada.
- Pigengene es un paquete R que infiere información biológica a partir de perfiles de expresión génica. Basado en una red de coexpresión, calcula los genes propios y los utiliza de forma eficaz como características para adaptarse a los árboles de decisión y las redes bayesianas que son útiles en el diagnóstico y el pronóstico. [96]
predicción y análisis de miARN
- iSRAP [97] una herramienta de investigación de un solo toque para la creación rápida de perfiles de datos pequeños de secuencia de ARN.
- SPAR [98] pequeña RNA-seq, corta RNA-seq total, miRNA-seq, procesamiento de datos de una sola célula pequeña RNA-seq, análisis, anotación, visualización y comparación con conjuntos de datos de referencia ENCODE y DASHR.
- miRDeep2
- MIReNA
- miRExpress
- miR-PREFER m
- miRDeep-P Para plantas
- miRDeep
- miRPlant
- MiRdup
- ShortStack [99] Un conjunto de alineaciones y anotaciones destinado al análisis de ARN pequeño en plantas, que destaca por su enfoque en anotaciones de alta confianza.
Herramientas de visualización
- AB Examine un marco de navegador de genoma de próxima generación personalizable.
- Artemis Artemis es un navegador de genoma gratuito y una herramienta de anotación que permite la visualización de características de secuencia, datos de próxima generación y los resultados de análisis dentro del contexto de la secuencia, y también su traducción de seis cuadros.
- Apollo Apollo está diseñado para apoyar a investigadores dispersos geográficamente, y el trabajo de una comunidad distribuida se coordina a través de la sincronización automática: todas las ediciones en un cliente se envían instantáneamente a todos los demás clientes, lo que permite a los usuarios ver las actualizaciones de anotaciones de los colaboradores en tiempo real durante la proceso de edición.
- BamView BamView es una pantalla interactiva gratuita de alineaciones de lectura en archivos de datos BAM. Ha sido desarrollado por Pathogen Group en el Sanger Institute.
- BrowserGenome : [100] análisis y visualización de datos RNA-seq basados en web.
- Degust Una herramienta web interactiva para visualizar datos de expresión genética diferencial.
- DensityMap es una herramienta de Perl para la visualización de la densidad de características a lo largo de los cromosomas.
- EagleView EagleView es un visor ensamblador de genoma rico en información con capacidad de integración de datos. EagleView puede mostrar una docena de tipos diferentes de información, incluidas las cualidades base, las señales de seguimiento específicas de la máquina y las anotaciones de características del genoma.
- expvip-web una plataforma de visualización y análisis de datos RNA-seq personalizable.
- GBrowse
- Navegador de genoma integrado
- Visor de Genómica Integrativa (IGV)
- GenomeView
- Vista del mapa
- Conjunto de software completo de análisis del genoma MicroScope para mapas térmicos de expresión génica.
- ReadXplorer ReadXplorer es una herramienta de exploración y evaluación integral disponible de forma gratuita para datos NGS. Extrae y agrega medidas de cantidad y calidad a cada alineación para clasificar las lecturas mapeadas. Luego, esta clasificación se tiene en cuenta para las diferentes vistas de datos y todas las funciones de análisis automático compatibles.
- RNASeqExpressionBrowser es una herramienta basada en web que proporciona medios para la búsqueda y visualización de datos de expresión de RNA-seq (por ejemplo, basados en información de secuencia o anotaciones de dominio). Puede generar informes detallados para genes seleccionados, incluidos datos de expresión y anotaciones asociadas. Si es necesario, se pueden integrar fácilmente enlaces a bases de datos (disponibles públicamente). RNASeqExpressionBrowser permite la protección con contraseña y, por lo tanto, la restricción de acceso solo a usuarios autorizados.
- Savant Savant es un navegador de genoma de próxima generación diseñado para la última generación de datos del genoma.
- Samscope
- SeqMonk
- Tablet [101] T Tablet es un visor gráfico ligero y de alto rendimiento para alineaciones y ensamblajes de secuencia de próxima generación.
- Tbrowse- Navegador de transcriptomas HTML5
- TBro un navegador de transcriptomas para experimentos de secuenciación de ARN de novo.
- Vespa
Herramientas de análisis funcional, de redes y de rutas
- BioCyc Visualice datos de secuencia de ARN en diagramas de vías individuales, diagramas de vías múltiples llamados collages de vías y diagramas de mapas metabólicos específicos de organismos con zoom. Calcula el enriquecimiento de la vía.
- BRANE Clust Mejora de la red a priori biológicamente relacionada para la inferencia de la red reguladora de genes combinada con agrupación. [102]
- BRANE Cut Mejora de la red a priori relacionada con la biología con cortes de gráficos para la inferencia de la red reguladora de genes. [103]
- Herramienta de análisis de enriquecimiento funcional FunRich .
- GAGE es aplicable independientemente del tamaño de la muestra, el diseño experimental, las plataformas de ensayo y otros tipos de heterogeneidad. [104] Este paquete Biocondutor también proporciona funciones y datos para el análisis de rutas, GO y conjuntos de genes en general.
- Análisis de asociación de conjuntos de genes para RNA-Seq GSAASeq son métodos computacionales que evalúan la expresión diferencial de una ruta / conjunto de genes entre dos estados biológicos basados en datos de recuento de secuencias.
- GeneSCF es una herramienta de enriquecimiento funcional basada en tiempo real con soporte para múltiples organismos. [105]
- GOexpress [106] Visualice datos de microarrays y RNAseq utilizando anotaciones de ontología genética.
- Analizador de ontología génica GOSeq [107] para datos de RNA-seq y otros datos con sesgo de longitud.
- GSAASEQSP [108] Un conjunto de herramientas para el análisis de asociación de conjuntos de genes de datos de secuencia de ARN.
- GSVA [109] análisis de variación del conjunto de genes para datos de microarrays y RNA-Seq.
- Heat * Seq, una herramienta web interactiva para la comparación de experimentos de secuenciación de alto rendimiento con datos públicos.
- Ingenuity Systems (comercial) iReport e IPA
- PathwaySeq [110] Análisis de ruta para datos de RNA-Seq utilizando un enfoque basado en puntuación.
- modelo de red de coexpresión de pétalos en R.
- ToPASeq : [111] un paquete R para el análisis de vías basado en topología de microarrays y datos de RNA-Seq.
- RNA-Enrich Un método de prueba de enriquecimiento funcional sin cortes para RNA-seq con poder de detección mejorado.
- TRAPID [112] Análisis rápido de datos de transcriptomas.
- Análisis de expresión de RNA-seq de T-REx [113] .
Otras herramientas de anotación para datos de RNA-Seq
- Frama Desde datos de secuencia de ARN hasta conjuntos de ARNm anotados.
- HLAminer es un método computacional para identificar alelos HLA directamente a partir de conjuntos de datos de secuencia de genoma completo, exoma y transcriptoma. Las predicciones de los alelos HLA se obtienen mediante el ensamblaje dirigido de datos de secuencia de escopeta y la comparación con una base de datos de secuencias de alelos de referencia. Esta herramienta está desarrollada en perl y está disponible como herramienta de consola.
- pasa PASA, acrónimo de Program to Assemble Spliced Alignments, es una herramienta de anotación del genoma eucariota que explota las alineaciones empalmadas de secuencias de transcripciones expresadas para modelar automáticamente las estructuras de genes y mantener la anotación de la estructura de genes en consonancia con los datos de secuencia experimental disponibles más recientemente. PASA también identifica y clasifica todas las variaciones de empalme soportadas por las alineaciones de la transcripción.
- seq2HLA es una herramienta de anotación para obtener el tipo y la expresión de HLA de clase I y II de un individuo utilizando datos NGS RNA-Seq estándar en formato fastq . Comprende el mapeo de las lecturas de RNA-Seq contra una base de datos de referencia de alelos HLA usando pajarita , determinando e informando el tipo de HLA, la puntuación de confianza y el nivel de expresión específico del locus. Esta herramienta está desarrollada en Python y R . Está disponible como herramienta de consola o módulo Galaxy .
Bases de datos de RNA-Seq
- ARCHS4 Datos de secuencia de ARN procesados uniformemente de GEO / SRA (> 300.000 muestras) con búsqueda de metadatos para localizar subconjuntos de muestras publicadas.
- ENA El Archivo Europeo de Nucleótidos (ENA) proporciona un registro completo de la información de secuenciación de nucleótidos del mundo, que cubre los datos de secuenciación sin procesar, la información de ensamblaje de secuencias y la anotación funcional.
- CODIFICAR
- queryable-rna-seq-database Formalmente conocido como Queryable RNA-Seq Database, este sistema está diseñado para simplificar el proceso de análisis de RNA-seq al brindar la capacidad de cargar los datos de resultados del análisis de RNA-Seq en una base de datos, almacenarlos, y consultarlo de muchas formas diferentes.
- CIRCpedia v2 es una base de datos completa actualizada que contiene anotaciones de circRNA de más de 180 conjuntos de datos de RNA-seq en seis especies diferentes. Este atlas permite a los usuarios buscar, explorar y descargar circRNAs con características / características de expresión en varios tipos de células / tejidos, incluidas muestras de enfermedades. Además, la base de datos actualizada incorpora análisis de conservación de circRNAs entre humanos y ratones.
- Brain RNA-Seq [114] Un transcriptoma de RNA-Seq y una base de datos de empalme de glía, neuronas y células vasculares de la corteza cerebral.
- FusionCancer [115] una base de datos de genes de fusión de cáncer derivados de datos de RNA-seq.
- Hipposeq una base de datos completa de RNA-seq de la expresión génica en las neuronas principales del hipocampo .
- Mitranscriptome es una lista sistemática de transcripciones largas de ARN humano poliadenilado basado en datos de ARN-Seq de más de 6.500 muestras asociadas con una variedad de tipos de cáncer y tejidos. La base de datos contiene un análisis detallado de la expresión génica de más de 91.000 genes, la mayoría son ARN largos no caracterizados.
- RNA-Seq Atlas una base de datos de referencia para el perfil de expresión génica en tejido normal mediante secuenciación de próxima generación.
- SRA El archivo de lectura de secuencias (SRA) almacena datos de secuencia sin procesar de tecnologías de secuenciación de "próxima generación", incluidas 454, IonTorrent, Illumina, SOLiD, Helicos y Complete Genomics. Además de los datos de secuencia sin procesar, SRA ahora almacena información de alineación en forma de ubicaciones leídas en una secuencia de referencia.
- DASHR Una base de datos de genes de ARN pequeños humanos y productos maduros derivados de datos de secuencia de ARN pequeños.
Bases de datos de RNA-Seq de una sola especie
- Aedes- albopictus Base de datos de Aedes albopictus .
- Arabidopsis thaliana TraVa la base de datos de perfiles de expresión génica en Arabidopsis thaliana basada en análisis de RNA-seq.
- Cebada morexGe
- EORNA , una base de datos de abundancia de genes y transcripciones de la cebada (The James Hutton Institute).
- Garbanzo La base de datos del transcriptoma del garbanzo (CTDB) se ha desarrollado con el fin de proporcionar la información más completa sobre el transcriptoma del garbanzo , la parte más relevante del genoma ".
- Chilo suppressalis ChiloDB: una base de datos genómica y de transcriptomas para una importante plaga de insectos del arroz, Chilo suppressalis .
- Fruit fly FlyAtlas 2 - Drosophila melanogaster RNA-seq database.
- Echinoderm EchinoDB: un depósito de transcripciones ortólogas de equinodermos .
- Transcriptoma equino (Universidad de California, Davis).
- Escherichia coli Ecomics: una base de datos normalizada ómica para Escherichia coli .
- Pescado Phylofish.
- Ginger Ginger: base de datos de transcriptomas de jengibre.
- Lygodium japonicum Lygodium japonicum Transcriptome Database.
- Mamíferos Base de datos transcriptómica de mamíferos.
- Oyster (Pacífico) GigaTon: una extensa base de datos de búsqueda pública que proporciona un nuevo transcriptoma de referencia en la ostra del Pacífico Crassostrea gigas.
- PanglaoDB de ratón y humano : [116] Una base de datos de expresión génica para la exploración y el metanálisis de datos de secuenciación de células individuales.
- Manglar base de datos de manglar transcriptoma.
- Krill (Antártico) KrillDB: una base de datos de transcriptomas de novo para el Krill antártico .
- Mouse RNASeqMetaDB : una base de datos y un servidor web para navegar por los metadatos de conjuntos de datos de mouse RNA-Seq disponibles públicamente .
- Rubus Rubus GDR RefTrans V1 - GDR Rubus RefTrans combina conjuntos de datos de RNA-Seq y EST publicados para crear un transcriptoma de referencia (RefTrans) para rubus y proporciona una función genética putativa identificada por homología con proteínas conocidas.
- Sorgo MOROKOSHI Base de datos de transcriptomas de sorgo. Clon de cDNA de longitud completa de RIKEN y datos de RNA-Seq en Sorghum bicolor .
- S. purpuratus S. purpuratus - Transcriptomas del desarrollo de S. purpuratus
- Base de datos de transcriptomas de S. cerevisiae YeastMine.
- Wheat WheatExp: una base de datos de expresión de RNA-seq para trigo poliploide .
enlaces externos
Seminarios web y presentaciones
- Presentaciones de RNASeq-Blog
- Documentación del taller de RNA-Seq (Universidad de UC Davis)
- Taller de Princeton
- YouTube / RNA-Seq
- Presentaciones de RNA-Seq de GSK, Universidad de Torino y Universidad de Bath .
Referencias
- ^ Wang Z, Gerstein M, Snyder M (enero de 2009). "RNA-Seq: una herramienta revolucionaria para la transcriptómica" . Reseñas de la naturaleza. Genética . 10 (1): 57–63. doi : 10.1038 / nrg2484 . PMC 2949280 . PMID 19015660 .
- ^ Kukurba KR, Montgomery SB (abril de 2015). "Análisis y secuenciación de ARN" . Protocolos de Cold Spring Harbor . 2015 (11): 951–69. doi : 10.1101 / pdb.top084970 . PMC 4863231 . PMID 25870306 .
- ^ Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A, Szcześniak MW, Gaffney DJ, Elo LL, Zhang X, Mortazavi A (enero de 2016). "Una encuesta de las mejores prácticas para el análisis de datos RNA-seq" . Biología del genoma . 17 (13): 13. doi : 10.1186 / s13059-016-0881-8 . PMC 4728800 . PMID 26813401 .
- ^ "Secuenciación y análisis de ARN" (PDF) . Talleres canadienses de bioinformática . 2012.
- ^ Poplawski A, Binder H (julio de 2018). "Viabilidad del cálculo del tamaño de la muestra para estudios de RNA-seq". Sesiones informativas en bioinformática . 19 (4): 713–720. doi : 10.1093 / bib / bbw144 . PMID 28100468 . S2CID 28848959 .
- ^ Sheng Q, Vickers K, Zhao S, Wang J, Samuels DC, Koues O, Shyr Y, Guo Y (julio de 2017). "Control de calidad de múltiples perspectivas del análisis de datos de secuenciación de ARN de Illumina" . Sesiones informativas sobre genómica funcional . 16 (4): 194-204. doi : 10.1093 / bfgp / elw035 . PMC 5860075 . PMID 27687708 .
- ^ Sayols S, Klein H (2015). "dupRadar: evaluación de tasas de duplicación en conjuntos de datos de RNA-Seq. Paquete R versión 1.1.0" . Cite journal requiere
|journal=
( ayuda ) - ^ Davis MP, van Dongen S, Abreu-Goodger C, Bartonicek N, Enright AJ (septiembre de 2013). "Kraken: un conjunto de herramientas para el control de calidad y el análisis de datos de secuencia de alto rendimiento" . Métodos . 63 (1): 41–9. doi : 10.1016 / j.ymeth.2013.06.027 . PMC 3991327 . PMID 23816787 .
- ^ Anders S, Pyl PT, Huber W (enero de 2015). "HTSeq - un marco de Python para trabajar con datos de secuenciación de alto rendimiento" . Bioinformática . 31 (2): 166–9. doi : 10.1093 / bioinformatics / btu638 . PMC 4287950 . PMID 25260700 .
- ^ Feng H, Zhang X, Zhang C (agosto de 2015). "mRIN para la evaluación directa de la integridad del mRNA de genoma y gen específico a partir de datos de secuenciación de RNA a gran escala" . Comunicaciones de la naturaleza . 6 (7816): 7816. Bibcode : 2015NatCo ... 6.7816F . doi : 10.1038 / ncomms8816 . PMC 4523900 . PMID 26234653 .
- ^ Ewels P, Magnusson M, Lundin S, Käller M (octubre de 2016). "MultiQC: resume los resultados del análisis de varias herramientas y muestras en un solo informe" . Bioinformática . 32 (19): 3047–8. doi : 10.1093 / bioinformatics / btw354 . PMC 5039924 . PMID 27312411 .
- ^ DeLuca DS, Levin JZ, Sivachenko A, Fennell T, Nazaire MD, Williams C, Reich M, Winckler W, Getz G (junio de 2012). "RNA-SeQC: métricas de RNA-seq para control de calidad y optimización de procesos" . Bioinformática . 28 (11): 1530–2. doi : 10.1093 / bioinformatics / bts196 . PMC 3356847 . PMID 22539670 .
- ^ Wang L, Wang S, Li W (agosto de 2012). "RSeQC: control de calidad de experimentos de RNA-seq" . Bioinformática . 28 (16): 2184–5. doi : 10.1093 / bioinformatics / bts356 . PMID 22743226 .
- ^ Lassmann T, Hayashizaki Y, Daub CO (enero de 2011). "SAMStat: sesgos de seguimiento en los datos de secuenciación de próxima generación" . Bioinformática . 27 (1): 130–1. doi : 10.1093 / bioinformatics / btq614 . PMC 3008642 . PMID 21088025 .
- ^ Lahens NF, Kavakli IH, Zhang R, Hayer K, Black MB, Dueck H, Pizarro A, Kim J, Irizarry R, Thomas RS, Grant GR, Hogenesch JB (junio de 2014). "IVT-seq revela un sesgo extremo en la secuenciación de ARN" . Biología del genoma . 15 (6): R86. doi : 10.1186 / gb-2014-15-6-r86 . PMC 4197826 . PMID 24981968 .
- ^ Li S, Łabaj PP, Zumbo P, Sykacek P, Shi W, Shi L, Phan J, Wu PY, Wang M, Wang C, Thierry-Mieg D, Thierry-Mieg J, Kreil DP, Mason CE (septiembre de 2014). "Detectar y corregir la variación sistemática en datos de secuenciación de ARN a gran escala" . Biotecnología de la naturaleza . 32 (9): 888–95. doi : 10.1038 / nbt.3000 . PMC 4160374 . PMID 25150837 .
- ^ Benjamini Y, Speed TP (mayo de 2012). "Resumiendo y corrigiendo el sesgo de contenido de GC en la secuenciación de alto rendimiento" . Investigación de ácidos nucleicos . 40 (10): e72. doi : 10.1093 / nar / gks001 . PMC 3378858 . PMID 22323520 .
- ^ Aird D, Ross MG, Chen WS, Danielsson M, Fennell T, Russ C, Jaffe DB, Nusbaum C, Gnirke A (2011). "Analizar y minimizar el sesgo de amplificación por PCR en bibliotecas de secuenciación de Illumina" . Biología del genoma . 12 (2): R18. doi : 10.1186 / gb-2011-12-2-r18 . PMC 3188800 . PMID 21338519 .
- ^ Adiconis X, Borges-Rivera D, Satija R, DeLuca DS, Busby MA, Berlin AM, Sivachenko A, Thompson DA, Wysoker A, Fennell T, Gnirke A, Pochet N, Regev A, Levin JZ (julio de 2013). "Análisis comparativo de métodos de secuenciación de ARN para muestras degradadas o de bajo insumo" . Métodos de la naturaleza . 10 (7): 623–9. doi : 10.1038 / nmeth.2483 . PMC 3821180 . PMID 23685885 .
- ^ Nakamura K, Oshima T, Morimoto T, Ikeda S, Yoshikawa H, Shiwa Y, Ishikawa S, Linak MC, Hirai A, Takahashi H, Altaf-Ul-Amin M, Ogasawara N, Kanaya S (julio de 2011). "Perfil de error específico de secuencia de secuenciadores de Illumina" . Investigación de ácidos nucleicos . 39 (13): e90. doi : 10.1093 / nar / gkr344 . PMC 3141275 . PMID 21576222 .
- ^ Hansen KD, Brenner SE, Dudoit S (julio de 2010). "Sesgos en la secuenciación del transcriptoma de Illumina causados por cebado aleatorio de hexámeros" . Investigación de ácidos nucleicos . 38 (12): e131. doi : 10.1093 / nar / gkq224 . PMC 2896536 . PMID 20395217 .
- ^ Smeds L, Künstner A (19 de octubre de 2011). "ConDeTri: un recortador de lectura dependiente del contenido para los datos de Illumina" . PLOS ONE . 6 (10): e26314. Código bibliográfico : 2011PLoSO ... 626314S . doi : 10.1371 / journal.pone.0026314 . PMC 3198461 . PMID 22039460 .
- ^ Martin, Marcel (2 de mayo de 2011). "Cutadapt elimina las secuencias del adaptador de las lecturas de secuenciación de alto rendimiento". EMBnet.journal . 17 (1): 10. doi : 10.14806 / ej.17.1.200 .
- ^ Prezza, Nicola; Del Fabbro, Cristian; Vezzi, Francesco; De Paoli, Emanuale; Policriti, Alberto (2012). ERNE-BS5: Alineación de secuencias tratadas con BS mediante múltiples accesos en un alfabeto de 5 letras . Actas de la Conferencia ACM sobre Bioinformática, Biología Computacional y Biomedicina . 12 . págs. 12-19. doi : 10.1145 / 2382936.2382938 . ISBN 9781450316705. S2CID 5673753 .
- ^ Schmieder R, Edwards R (marzo de 2011). "Control de calidad y preprocesamiento de conjuntos de datos metagenómicos" . Bioinformática . 27 (6): 863–4. doi : 10.1093 / bioinformatics / btr026 . PMC 3051327 . PMID 21278185 .
- ^ Dlugosch KM, Lai Z, Bonin A, Hierro J, Rieseberg LH (febrero de 2013). "Identificación de alelos para la genómica poblacional basada en transcriptomas en la planta invasora Centaurea solstitialis" . G3 . 3 (2): 359–67. doi : 10.1534 / g3.112.003871 . PMC 3564996 . PMID 23390612 .
- ^ Bolger AM, Lohse M, Usadel B (agosto de 2014). "Trimmomatic: un recortador flexible para datos de secuencia de Illumina" . Bioinformática . 30 (15): 2114-20. doi : 10.1093 / bioinformatics / btu170 . PMC 4103590 . PMID 24695404 .
- ^ Laehnemann D, Borkhardt A, McHardy AC (enero de 2016). "Desenfocar el ADN de secuenciación profunda de datos-errores de secuenciación de alto rendimiento y su corrección" . Sesiones informativas en bioinformática . 17 (1): 154–79. doi : 10.1093 / bib / bbv029 . PMC 4719071 . PMID 26026159 .
- ^ Quince C, Lanzen A, Davenport RJ, Turnbaugh PJ (enero de 2011). "Eliminación de ruido de amplicones pirosecuenciados" . BMC Bioinformática . 12 (38): 38. doi : 10.1186 / 1471-2105-12-38 . PMC 3045300 . PMID 21276213 .
- ^ Heo Y, Wu XL, Chen D, Ma J, Hwu WM (mayo de 2014). "BLESS: solución de corrección de errores basada en filtros de floración para lecturas de secuenciación de alto rendimiento" . Bioinformática . 30 (10): 1354–62. doi : 10.1093 / bioinformatics / btu030 . PMC 6365934 . PMID 24451628 .
- ^ Greenfield P, Duesing K, Papanicolaou A, Bauer DC (octubre de 2014). "Azul: corregir errores de secuenciación mediante consenso y contexto" . Bioinformática . 30 (19): 2723–32. doi : 10.1093 / bioinformatics / btu368 . PMID 24919879 .
- ^ Michael I Love; John B. Hogenesch; Rafael A Irizarry (2015). "El modelado del sesgo de secuencia de fragmentos de ARN-seq reduce los errores sistemáticos en la estimación de la abundancia de transcripciones". bioRxiv 10.1101 / 025767 .
- ^ Hansen KD, Irizarry RA, Wu Z (abril de 2012). "Eliminación de la variabilidad técnica en los datos de RNA-seq mediante la normalización de cuantiles condicional" . Bioestadística . 13 (2): 204–16. doi : 10.1093 / bioestadística / kxr054 . PMC 3297825 . PMID 22285995 .
- ^ Risso D, Schwartz K, Sherlock G, Dudoit S (diciembre de 2011). "Normalización de contenido de GC para datos de RNA-Seq" . BMC Bioinformática . 12 (1): 480. doi : 10.1186 / 1471-2105-12-480 . PMC 3315510 . PMID 22177264 .
- ^ Stegle O, Parts L, Piipari M, Winn J, Durbin R (febrero de 2012). "Utilización de la estimación probabilística de residuos de expresión (PEER) para obtener un mayor poder e interpretabilidad de los análisis de expresión génica" . Protocolos de la naturaleza . 7 (3): 500–7. doi : 10.1038 / nprot.2011.457 . PMC 3398141 . PMID 22343431 .
- ^ Risso D, Ngai J, Speed TP, Dudoit S (septiembre de 2014). "Normalización de datos de RNA-seq mediante análisis factorial de genes o muestras de control" . Biotecnología de la naturaleza . 32 (9): 896–902. doi : 10.1038 / nbt.2931 . PMC 4404308 . PMID 25150836 .
- ^ Meacham F, Boffelli D, Dhahbi J, Martin DI, Singer M, Pachter L (noviembre de 2011). "Identificación y corrección de error sistemático en datos de secuencia de alto rendimiento" . BMC Bioinformática . 12 (1): 451. doi : 10.1186 / 1471-2105-12-451 . PMC 3295828 . PMID 22099972 .
- ^ Liu B, Yuan J, Yiu SM, Li Z, Xie Y, Chen Y, Shi Y, Zhang H, Li Y, Lam TW, Luo R (noviembre de 2012). "COPE: una precisa herramienta de conexión de lecturas de extremo de par basada en k-mer para facilitar el ensamblaje del genoma" . Bioinformática . 28 (22): 2870–4. doi : 10.1093 / bioinformática / bts563 . PMID 23044551 .
- ^ Zhang J, Kobert K, Flouri T, Stamatakis A (marzo de 2014). "PEAR: una fusión de lectura rápida y precisa de Illumina Paired-End" . Bioinformática . 30 (5): 614-20. doi : 10.1093 / bioinformatics / btt593 . PMC 3933873 . PMID 24142950 .
- ^ Rodrigue S, Materna AC, Timberlake SC, Blackburn MC, Malmstrom RR, Alm EJ, Chisholm SW (julio de 2010). "Desbloqueo de secuenciación de lectura corta para metagenómica" . PLOS ONE . 5 (7): e11840. Código Bibliográfico : 2010PLoSO ... 511840R . doi : 10.1371 / journal.pone.0011840 . PMC 2911387 . PMID 20676378 .
- ^ a b Liao Y, Smyth GK, Shi W (mayo de 2013). "El alineador de Subread: mapeo de lectura rápido, preciso y escalable por semilla y voto" . Investigación de ácidos nucleicos . 41 (10): e108. doi : 10.1093 / nar / gkt214 . PMC 3664803 . PMID 23558742 .
- ^ GP de Alamancos, Agirre E, Eyras E (2014). "Métodos para estudiar el empalme de datos de secuenciación de ARN de alto rendimiento". Empalme de pre-ARNm splicosomal . Métodos en Biología Molecular. 1126 . págs. 357–97. arXiv : 1304.5952 . doi : 10.1007 / 978-1-62703-980-2_26 . ISBN 978-1-62703-979-6. PMID 24549677 . S2CID 18574607 .
- ^ Baruzzo G, Hayer KE, Kim EJ, Di Camillo B, FitzGerald GA, Grant GR (febrero de 2017). "Evaluación comparativa integral basada en simulación de alineadores de RNA-seq" . Métodos de la naturaleza . 14 (2): 135-139. doi : 10.1038 / nmeth.4106 . PMC 5792058 . PMID 27941783 .
- ^ Campagna D, Telatin A, Forcato C, Vitulo N, Valle G (enero de 2013). "PASS-bis: un alineador de bisulfito adecuado para el análisis completo de metilomas de lecturas de Illumina y SOLiD" . Bioinformática . 29 (2): 268–70. doi : 10.1093 / bioinformatics / bts675 . PMID 23162053 .
- ^ Ahn J, Xiao X (diciembre de 2015). "RASER: lee alineador para SNP y sitios de edición de ARN" . Bioinformática . 31 (24): 3906-13. doi : 10.1093 / bioinformatics / btv505 . PMC 4692970 . PMID 26323713 .
- ^ a b Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR (enero de 2013). "STAR: alineador de secuencia de ARN universal ultrarrápido" . Bioinformática . 29 (1): 15-21. doi : 10.1093 / bioinformática / bts635 . PMC 3530905 . PMID 23104886 .
- ^ Trapnell C, Pachter L, Salzberg SL (mayo de 2009). "TopHat: descubrimiento de uniones de empalme con RNA-Seq" . Bioinformática . 25 (9): 1105-11. doi : 10.1093 / bioinformatics / btp120 . PMC 2672628 . PMID 19289445 .
- ^ Lior Pachter (2011). "Modelos para la cuantificación de la transcripción de RNA-Seq". arXiv : 1104.3889 . Código bibliográfico : 2011arXiv1104.3889P . Cite journal requiere
|journal=
( ayuda ) - ^ Jin H, Wan YW, Liu Z (marzo de 2017). "Evaluación integral de los métodos de cuantificación de RNA-seq para la linealidad" . BMC Bioinformática . 18 (Suppl 4): 117. doi : 10.1186 / s12859-017-1526-y . PMC 5374695 . PMID 28361706 .
- ^ Kvam VM, Liu P, Si Y (febrero de 2012). "Una comparación de métodos estadísticos para detectar genes expresados diferencialmente a partir de datos de RNA-seq" . Revista estadounidense de botánica . 99 (2): 248–56. doi : 10.3732 / ajb.1100340 . PMID 22268221 .
- ^ Dillies MA, Rau A, Aubert J, Hennequet-Antier C, Jeanmougin M, Servant N, Keime C, Marot G, Castel D, Estelle J, Guernec G, Jagla B, Jouneau L, Laloë D, Le Gall C, Schaëffer B , Le Crom S, Guedj M, Jaffrézic F (noviembre de 2013). "Una evaluación completa de los métodos de normalización para el análisis de datos de secuenciación de ARN de alto rendimiento de Illumina" . Sesiones informativas en bioinformática . 14 (6): 671–83. doi : 10.1093 / bib / bbs046 . PMID 22988256 .
- ^ Evans C, Hardin J, Stoebel DM (septiembre de 2018). "Selección de métodos de normalización de RNA-Seq entre muestras desde la perspectiva de sus supuestos" . Sesiones informativas en bioinformática . 19 (5): 776–792. doi : 10.1093 / bib / bbx008 . PMC 6171491 . PMID 28334202 .
- ^ Wu Z, Jenkins BD, Rynearson TA, Dyhrman ST, Saito MA, Mercier M, Whitney LP (noviembre de 2010). "Análisis empírico de bayes de perfiles transcripcionales basados en secuenciación sin réplicas" . BMC Bioinformática . 11 : 564. doi : 10.1186 / 1471-2105-11-564 . PMC 3098101 . PMID 21080965 .
- ^ Hajiramezanali, E. y Dadaneh, SZ y Figueiredo, P. d. & Sze, S. & Zhou, Z. & Qian, X. Análisis de expresión diferencial de datos de recuento de secuenciación dinámica con una cadena de Gamma Markov. arXiv : 1803.02527
- ^ a b Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L (mayo de 2010). "El ensamblaje de transcripciones y la cuantificación por RNA-Seq revela transcripciones no anotadas y cambio de isoformas durante la diferenciación celular" . Biotecnología de la naturaleza . 28 (5): 511–5. doi : 10.1038 / nbt.1621 . PMC 3146043 . PMID 20436464 .
- ^ Klambauer G, Unterthiner T, Hochreiter S (noviembre de 2013). "DEXUS: identificación de expresión diferencial en estudios de RNA-Seq con condiciones desconocidas" . Investigación de ácidos nucleicos . 41 (21): e198. doi : 10.1093 / nar / gkt834 . PMC 3834838 . PMID 24049071 .
- ^ Vavoulis DV, Francescatto M, Heutink P, Gough J (febrero de 2015). "DGEclust: análisis de expresión diferencial de datos de recuento agrupados" . Biología del genoma . 16 : 39. doi : 10.1186 / s13059-015-0604-6 . PMC 4365804 . PMID 25853652 .
- ^ Feng J, Meyer CA, Wang Q, Liu JS, Shirley Liu X, Zhang Y (noviembre de 2012). "GFOLD: un cambio de pliegue generalizado para clasificar genes expresados diferencialmente a partir de datos de RNA-seq" . Bioinformática . 28 (21): 2782–8. doi : 10.1093 / bioinformatics / bts515 . PMID 22923299 .
- ^ Rauschenberger A, Jonker MA, van de Wiel MA, Menezes RX (marzo de 2016). "Prueba de asociación entre RNA-Seq y datos de alta dimensión" . BMC Bioinformática . 17 (118): 118. doi : 10.1186 / s12859-016-0961-5 . PMC 4782413 . PMID 26951498 .
- ^ Cao M, Zhou, W, Breidt FJ, Peers, G (septiembre de 2019). "Inferencia múltiple de potencia media máxima a gran escala en datos de recuento del curso del tiempo con aplicación al análisis de secuencia de ARN" . Biometría . aparecer (1): 9-22. doi : 10.1111 / biom.13144 . PMID 31483480 .
- ^ Moulos P, Hatzis P (febrero de 2015). "Integración sistemática de algoritmos estadísticos RNA-Seq para la detección precisa de patrones de expresión génica diferencial" . Investigación de ácidos nucleicos . 43 (4): e25. doi : 10.1093 / nar / gku1273 . PMC 4344485 . PMID 25452340 .
- ^ Rauschenberger A, Menezes RX, van de Wiel MA, van Schoor NM, Jonker MA (2018). "Detección de SNP con efectos interactivos sobre un rasgo cuantitativo". arXiv : 1805.09175 [ stat.ME ].
- ^ Vera Alvarez R, Pongor LS, Mariño-Ramírez L, Landsman D (junio de 2019). "TPMCalculator: software de un solo paso para cuantificar la abundancia de ARNm de características genómicas" . Bioinformática . 35 (11): 1960–1962. doi : 10.1093 / bioinformatics / bty896 . PMC 6546121 . PMID 30379987 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Yao L, Wang H, Song Y, Sui G (octubre de 2017). "BioQueue: un marco de tubería novedoso para acelerar el análisis bioinformático" . Bioinformática . 33 (20): 3286–3288. doi : 10.1093 / bioinformática / btx403 . PMID 28633441 .
- ^ Kartashov AV, Barski A (agosto de 2015). "BioWardrobe: una plataforma integrada para el análisis de datos de epigenómica y transcriptómica" . Biología del genoma . 16 (1): 158. doi : 10.1186 / s13059-015-0720-3 . PMC 4531538 . PMID 26248465 .
- ^ Levin L, Bar-Yaacov D, Bouskila A, Chorev M, Carmel L, Mishmar D (2015). "LIMONES - una herramienta para la identificación de uniones de empalme en transcriptomas de organismos que carecen de genomas de referencia" . PLOS ONE . 10 (11): e0143329. Código Bibliográfico : 2015PLoSO..1043329L . doi : 10.1371 / journal.pone.0143329 . PMC 4659627 . PMID 26606265 .
- ^ Pundhir S, Gorodkin J (julio de 2015). "Patrones de procesamiento diferenciales y coherentes de pequeños ARN" . Informes científicos . 5 : 12062. Código Bibliográfico : 2015NatSR ... 512062P . doi : 10.1038 / srep12062 . PMC 4499813 . PMID 26166713 .
- ^ Rogers, Mark F; Thomas, Julie; Reddy, Anireddy SN; Ben-Hur, Asa (2012). "SpliceGrapher: detección de patrones de empalme alternativo de datos de RNA-Seq en el contexto de modelos de genes y datos EST" . Biología del genoma . 13 (1): R4. doi : 10.1186 / gb-2012-13-1-r4 . ISSN 1465-6906 . PMC 3334585 . PMID 22293517 .
- ^ Rogers, Mark F .; Boucher, Christina; Ben-Hur, Asa (2013). "SpliceGrapherXT: de gráficos de empalme a transcripciones usando RNA-Seq" . Actas de la Conferencia Internacional sobre Bioinformática, Biología Computacional e Informática Biomédica . BCB'13. Nueva York, NY, EE. UU .: ACM: 247: 247–247: 255. doi : 10.1145 / 2506583.2506625 . ISBN 9781450324342. S2CID 15009112 .
- ^ Wu J, Akerman M, Sun S, McCombie WR, Krainer AR, Zhang MQ (noviembre de 2011). "SpliceTrap: un método para cuantificar el empalme alternativo en condiciones unicelulares" . Bioinformática . 27 (21): 3010–6. doi : 10.1093 / bioinformatics / btr508 . PMC 3198574 . PMID 21896509 .
- ^ Vitting-Seerup K, Sandelin A (septiembre de 2017). "El panorama de los interruptores de isoformas en cánceres humanos" . Investigación del cáncer molecular . 15 (9): 1206–1220. doi : 10.1158 / 1541-7786.mcr-16-0459 . PMID 28584021 .
- ^ Nowicka M, Robinson MD (6 de diciembre de 2016). "DRIMSeq: un marco de Dirichlet-multinomial para resultados de recuento multivariante en genómica" . F1000Research . 5 : 1356. doi : 10.12688 / f1000research.8900.2 . PMC 5200948 . PMID 28105305 .
- ^ Papastamoulis P, Rattray M (noviembre de 2017). "Estimación bayesiana del uso de transcripción diferencial de datos de RNA-seq". Aplicaciones estadísticas en genética y biología molecular . 16 (5–6): 367–386. arXiv : 1701.03095 . Código Bib : 2017arXiv170103095P . doi : 10.1515 / sagmb-2017-0005 . PMID 29091583 . S2CID 915799 .
- ^ Shi Y, Chinnaiyan AM, Jiang H (julio de 2015). "rSeqNP: un enfoque no paramétrico para detectar expresión diferencial y empalme de datos de RNA-Seq" . Bioinformática . 31 (13): 2222–4. doi : 10.1093 / bioinformatics / btv119 . PMC 4481847 . PMID 25717189 .
- ^ Jones, Daniel C .; Kuppusamy, Kavitha T .; Palpant, Nathan J .; Peng, Xinxia; Murry, Charles E .; Ruohola-Baker, Hannele; Ruzzo, Walter L. (20 de noviembre de 2016). "Aislador: análisis preciso y estable de la expresión a nivel de isoforma en experimentos de RNA-Seq". bioRxiv 10.1101 / 088765 .
- ^ Kumar S, Vo AD, Qin F, Li H (febrero de 2016). "Evaluación comparativa de métodos para la detección de transcripciones de fusión a partir de datos de RNA-Seq" . Informes científicos . 6 (21587): 21597. Código Bibliográfico : 2016NatSR ... 621597K . doi : 10.1038 / srep21597 . PMC 4748267 . PMID 26862001 .
- ^ Uhrig S, Ellermann J, Walther T, Burkhardt P, Fröhlich M, Hutter B, Toprak UH, Neumann O, Stenzinger A, Scholl C, Fröhling S, Brors B (13 de enero de 2021). "Detección precisa y eficiente de fusiones de genes a partir de datos de secuenciación de ARN" . Investigación del genoma . 31 (3): 448–460. doi : 10.1101 / gr.257246.119 . PMC 7919457 . PMID 33441414 .
- ^ "Synapse | Sage Bionetworks" .
- ^ Dehghannasiri R, Freeman DE, Jordanski M, Hsieh GL, Damljanovic A, Lehnert E, Salzman J (julio de 2019). "La detección mejorada de fusiones de genes mediante la aplicación de métodos estadísticos revela impulsores de cáncer de ARN oncogénico" . PNAS . 116 (31): 15524-15533. doi : 10.1073 / pnas.1900391116 . PMC 6681709 . PMID 31308241 .
- ^ Wang K, Singh D, Zeng Z, Coleman SJ, Huang Y, Savich GL, He X, Mieczkowski P, Grimm SA, Perou CM, MacLeod JN, Chiang DY, Prins JF, Liu J (octubre de 2010). "MapSplice: mapeo exacto de RNA-seq lee para el descubrimiento de empalmes de unión" . Investigación de ácidos nucleicos . 38 (18): e178. doi : 10.1093 / nar / gkq622 . PMC 2952873 . PMID 20802226 .
- ^ Jia W, Qiu K, He M, Song P, Zhou Q, Zhou F, Yu Y, Zhu D, Nickerson ML, Wan S, Liao X, Zhu X, Peng S, Li Y, Wang J, Guo G (febrero de 2013 ). "SOAPfuse: un algoritmo para identificar transcripciones de fusión de datos de RNA-Seq de extremo emparejado" . Biología del genoma . 14 (2): R12. doi : 10.1186 / gb-2013-14-2-r12 . PMC 4054009 . PMID 23409703 .
- ^ Routh A, Johnson JE (enero de 2014). "Descubrimiento de motivos genómicos funcionales en virus con ViReMa-a Virus Recombination Mapper-para el análisis de datos de secuenciación de próxima generación" . Investigación de ácidos nucleicos . 42 (2): e11. doi : 10.1093 / nar / gkt916 . PMC 3902915 . PMID 24137010 .
- ^ Hashimshony T, Wagner F, Sher N, Yanai I (septiembre de 2012). "CEL-Seq: RNA-Seq unicelular por amplificación lineal multiplexada" . Informes de celda . 2 (3): 666–73. doi : 10.1016 / j.celrep.2012.08.003 . PMID 22939981 .
- ^ Macosko EZ, Basu A, Satija R, Nemesh J, Shekhar K, Goldman M, Tirosh I, Bialas AR, Kamitaki N, Martersteck EM, Trombetta JJ, Weitz DA, Sanes JR, Shalek AK, Regev A, McCarroll SA (mayo de 2015 ). "Perfiles de expresión en todo el genoma altamente paralelos de células individuales utilizando gotitas de nanolitros" . Celular . 161 (5): 1202-1214. doi : 10.1016 / j.cell.2015.05.002 . PMC 4481139 . PMID 26000488 .
- ^ Marco E, Karp RL, Guo G, Robson P, Hart AH, Trippa L, Yuan GC (diciembre de 2014). "El análisis de bifurcación de datos de expresión génica unicelular revela un paisaje epigenético" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 111 (52): E5643-50. Código bibliográfico : 2014PNAS..111E5643M . doi : 10.1073 / pnas.1408993111 . PMC 4284553 . PMID 25512504 .
- ^ Buettner F, Natarajan KN, Casale FP, Proserpio V, Scialdone A, Theis FJ, Teichmann SA, Marioni JC, Stegle O (febrero de 2015). "El análisis computacional de la heterogeneidad de célula a célula en datos de secuenciación de ARN de una sola célula revela subpoblaciones ocultas de células" . Biotecnología de la naturaleza . 33 (2): 155–60. doi : 10.1038 / nbt.3102 . PMID 25599176 .
- ^ Mohammed MH, Ghosh TS, Singh NK, Mande SS (enero de 2011). "SPHINX - un algoritmo para agrupamiento taxonómico de secuencias metagenómicas". Bioinformática . 27 (1): 22–30. doi : 10.1093 / bioinformatics / btq608 . PMID 21030462 .
- ^ Stubbington MJ, Lönnberg T, Proserpio V, Clare S, Speak AO, Dougan G, Teichmann SA (abril de 2016). "Inferencia de clonalidad y destino de células T a partir de transcriptomas unicelulares" . Métodos de la naturaleza . 13 (4): 329–332. doi : 10.1038 / nmeth.3800 . PMC 4835021 . PMID 26950746 .
- ^ Eltahla AA, Rizzetto S, Pirozyan MR, Betz-Stablein BD, Venturi V, Kedzierska K, Lloyd AR, Bull RA, Luciani F (julio de 2016). "Vinculación del receptor de células T al transcriptoma unicelular en células T humanas específicas de antígeno". Inmunología y Biología Celular . 94 (6): 604-11. doi : 10.1038 / icb.2016.16 . PMID 26860370 . S2CID 25714515 .
- ^ Wolf, F. Alexander; Angerer, Philipp; Theis, Fabian J. (6 de febrero de 2018). "SCANPY: análisis de datos de expresión génica unicelular a gran escala" . Biología del genoma . 19 (1): 15. doi : 10.1186 / s13059-017-1382-0 . PMC 5802054 . PMID 29409532 .
- ^ Mayordomo, Andrew; Hoffman, Paul; Smibert, Peter; Papalexi, Efthymia; Satija, Rahul (2 de abril de 2018). "Integración de datos transcriptómicos unicelulares en diferentes condiciones, tecnologías y especies" . Biotecnología de la naturaleza . 36 (5): 411–420. doi : 10.1038 / nbt.4096 . PMC 6700744 . PMID 29608179 .
- ^ Guo M, Wang H, Potter SS, Whitsett JA, Xu Y (noviembre de 2015). "SINCERA: una tubería para el análisis de perfiles de secuencia de ARN de una sola célula" . PLOS Biología Computacional . 11 (11): e1004575. Código bibliográfico : 2015PLSCB..11E4575G . doi : 10.1371 / journal.pcbi.1004575 . PMC 4658017 . PMID 26600239 .
- ^ Pierson E, Yau C (noviembre de 2015). "ZIFA: reducción de dimensionalidad para análisis de expresión génica unicelular sin inflado" . Biología del genoma . 16 (241): 241. doi : 10.1186 / s13059-015-0805-z . PMC 4630968 . PMID 26527291 .
- ^ Chang Z, Li G, Liu J, Zhang Y, Ashby C, Liu D, Cramer CL, Huang X (febrero de 2015). "Bridger: un nuevo marco para el ensamblaje del transcriptoma de novo utilizando datos de RNA-seq" . Biología del genoma . 16 (1): 30. doi : 10.1186 / s13059-015-0596-2 . PMC 4342890 . PMID 25723335 .
- ^ Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (marzo de 2017). "El análisis de la red de genes a gran escala revela la importancia de la vía de la matriz extracelular y los genes homeobox en la leucemia mieloide aguda: una introducción al paquete Pigengene y sus aplicaciones" . BMC Medical Genomics . 10 (1): 16. doi : 10.1186 / s12920-017-0253-6 . PMC 5353782 . PMID 28298217 .
- ^ Quek C, Jung CH, Bellingham SA, Lonie A, Hill AF (2015). "iSRAP - una herramienta de investigación de un solo toque para la creación rápida de perfiles de pequeños datos de RNA-seq" . Diario de vesículas extracelulares . 4 : 29454. doi : 10.3402 / jev.v4.29454 . PMC 4641893 . PMID 26561006 .
- ^ Kuksa PP, Amlie-Wolf A, Katanic Ž, Valladares O, Wang LS, Leung YY (julio de 2018). "SPAR: pequeño portal de RNA-seq para análisis de experimentos de secuenciación" . Investigación de ácidos nucleicos . 46 (W1): W36 – W42. doi : 10.1093 / nar / gky330 . PMC 6030839 . PMID 29733404 .
- ^ Johnson NR, Yeoh J, Axtell MJ (2016). "Colocación mejorada de ARN pequeños de mapeo múltiple" . G3 . 6 (7): 2103–2111. doi : 10.1534 / g3.116.030452 . PMC 4938663 . PMID 27175019 .
- ^ Schmid-Burgk JL, Hornung V (noviembre de 2015). "BrowserGenome.org: análisis y visualización de datos RNA-seq basados en web" . Métodos de la naturaleza . 12 (11): 1001. doi : 10.1038 / nmeth.3615 . PMID 26513548 . S2CID 205424303 .
- ^ Milne I, Stephen G, Bayer M, Cock PJ, Pritchard L, Cardle L, Shaw PD, Marshall D (marzo de 2013). "Uso de la tableta para la exploración visual de datos de secuenciación de segunda generación" . Sesiones informativas en bioinformática . 14 (2): 193–202. doi : 10.1093 / bib / bbs012 . PMID 22445902 .
- ^ Pirayre A, Couprie C, Duval L, Pesquet JC (2017). "BRANE Clust: Refinamiento de la inferencia de la red reguladora de genes asistida por clústeres" (PDF) . Transacciones IEEE / ACM sobre biología computacional y bioinformática (manuscrito enviado). 15 (3): 850–860. doi : 10.1109 / TCBB.2017.2688355 . PMID 28368827 . S2CID 12866368 .
- ^ Pirayre A, Couprie C, Bidard F, Duval L, Pesquet JC (noviembre de 2015). "BRANE Cut: mejora de la red a priori biológicamente relacionada con cortes de gráficos para la inferencia de la red reguladora de genes" . BMC Bioinformática . 16 : 368. doi : 10.1186 / s12859-015-0754-2 . PMC 4634801 . PMID 26537179 .
- ^ Luo W, Friedman MS, Shedden K, Hankenson KD, Woolf PJ (mayo de 2009). "GAGE: enriquecimiento de conjunto de genes de aplicación general para el análisis de la vía" . BMC Bioinformática . 10 (161): 161. doi : 10.1186 / 1471-2105-10-161 . PMC 2696452 . PMID 19473525 .
- ^ Subhash S, Kanduri C (septiembre de 2016). "GeneSCF: una herramienta de enriquecimiento funcional basada en tiempo real con soporte para múltiples organismos" . BMC Bioinformática . 17 (1): 365. doi : 10.1186 / s12859-016-1250-z . PMC 5020511 . PMID 27618934 .
- ^ Rue-Albrecht K (2014). "Visualice datos de microarrays y RNAseq utilizando anotaciones de ontología genética. Paquete R versión 1.4.1" . Cite journal requiere
|journal=
( ayuda ) - ^ Young MD, Wakefield MJ, Smyth GK, Oshlack A (2010). "Análisis de ontología genética para RNA-seq: contabilización del sesgo de selección" . Biología del genoma . 11 (2): R14. doi : 10.1186 / gb-2010-11-2-r14 . PMC 2872874 . PMID 20132535 .
- ^ Xiong Q, Mukherjee S, Furey TS (septiembre de 2014). "GSAASeqSP: un conjunto de herramientas para el análisis de asociación de conjuntos de genes de datos de RNA-Seq" . Informes científicos . 4 (6347): 6347. Bibcode : 2014NatSR ... 4E6347X . doi : 10.1038 / srep06347 . PMC 4161965 . PMID 25213199 .
- ^ Hänzelmann S, Castelo R, Guinney J (enero de 2013). "GSVA: análisis de variación de conjunto de genes para datos de microarrays y RNA-seq" . BMC Bioinformática . 14 (17): 7. doi : 10.1186 / 1471-2105-14-7 . PMC 3618321 . PMID 23323831 .
- ^ Zhou YH (marzo de 2016). "Análisis de la vía de datos de RNA-Seq utilizando un enfoque basado en puntuación" . Biometría . 72 (1): 165–74. doi : 10.1111 / biom.12372 . PMC 4992401 . PMID 26259845 .
- ^ Ihnatova I, Budinska E (octubre de 2015). "ToPASeq: un paquete de R para el análisis de la vía basada en topología de microarrays y datos de RNA-Seq" . BMC Bioinformática . 16 (350): 350. doi : 10.1186 / s12859-015-0763-1 . PMC 4625615 . PMID 26514335 .
- ^ Van Bel M, Proost S, Van Neste C, Deforce D, Van de Peer Y, Vandepoele K (diciembre de 2013). "TRAPID: una herramienta online eficiente para el análisis funcional y comparativo de transcriptomas de novo RNA-Seq" . Biología del genoma . 14 (12): R134. doi : 10.1186 / gb-2013-14-12-r134 . PMC 4053847 . PMID 24330842 .
- ^ de Jong A, van der Meulen S, Kuipers OP, Kok J (septiembre de 2015). "T-REx: servidor web de análisis de transcriptomas para datos de expresión de RNA-seq" . BMC Genomics . 16 (663): 663. doi : 10.1186 / s12864-015-1834-4 . PMC 4558784 . PMID 26335208 .
- ^ Zhang Y, Chen K, Sloan SA, Bennett ML, Scholze AR, O'Keeffe S, Phatnani HP, Guarnieri P, Caneda C, Ruderisch N, Deng S, Liddelow SA, Zhang C, Daneman R, Maniatis T, Barres BA, Wu JQ (septiembre de 2014). "Un transcriptoma de secuenciación de ARN y base de datos de empalme de glía, neuronas y células vasculares de la corteza cerebral" . La Revista de Neurociencia . 34 (36): 11929–47. doi : 10.1523 / JNEUROSCI.1860-14.2014 . PMC 4152602 . PMID 25186741 .
- ^ Wang Y, Wu N, Liu J, Wu Z, Dong D (julio de 2015). "FusionCancer: una base de datos de genes de fusión de cáncer derivados de datos de RNA-seq" . Patología diagnóstica . 10 (131): 131. doi : 10.1186 / s13000-015-0310-4 . PMC 4517624 . PMID 26215638 .
- ^ Franzén O, Gan LM, Björkegren JL (enero de 2019). "PanglaoDB: un servidor web para la exploración de datos de secuenciación de ARN unicelular humano y de ratón" (PDF) . Base de datos . 2019 . doi : 10.1093 / base de datos / baz046 . PMC 6450036 . PMID 30951143 .