RNA-Seq (denominado como la abreviatura de "secuenciación de RNA") es una técnica de secuenciación que utiliza la secuenciación de próxima generación (NGS) para revelar la presencia y cantidad de RNA en una muestra biológica en un momento dado, analizando el transcriptoma celular que cambia continuamente . [2] [3]
Específicamente, RNA-Seq facilita la capacidad de buscar transcripciones de genes empalmados alternativos , modificaciones postranscripcionales , fusión de genes , mutaciones / SNP y cambios en la expresión génica a lo largo del tiempo, o diferencias en la expresión génica en diferentes grupos o tratamientos. [4] Además de las transcripciones de ARNm, RNA-Seq puede analizar diferentes poblaciones de ARN para incluir ARN total, ARN pequeño, como miARN , ARNt y perfiles ribosómicos . [5] RNA-Seq también se puede utilizar para determinar los límites de exón / intrón y verificar o modificar los límites de genes 5 ' y 3' previamente anotados . Los avances recientes en RNA-Seq incluyen la secuenciación de una sola célula , la secuenciación in situ de tejido fijado y la secuenciación de moléculas de ARN nativo con secuenciación de una sola molécula en tiempo real. [6]
Antes de RNA-Seq, se realizaron estudios de expresión génica con microarrays basados en hibridación . Los problemas con los microarrays incluyen artefactos de hibridación cruzada, mala cuantificación de genes de baja y alta expresión y necesidad de conocer la secuencia a priori . [7] Debido a estos problemas técnicos, la transcriptómica pasó a métodos basados en secuenciación. Estos progresaron desde la secuenciación de Sanger de bibliotecas de etiquetas de secuencia expresada , a métodos basados en etiquetas químicas (por ejemplo, análisis en serie de la expresión génica ) y, finalmente, a la tecnología actual, secuenciación de próxima generación de ADN complementario (ADNc), en particular ARN-Seq.
Métodos
Preparación de la biblioteca
Los pasos generales para preparar una biblioteca de ADN complementario (ADNc) para la secuenciación se describen a continuación, pero a menudo varían entre plataformas. [8] [3] [9]
- Aislamiento de ARN: El ARN se aísla del tejido y se mezcla con desoxirribonucleasa (DNasa) . La DNasa reduce la cantidad de ADN genómico. La cantidad de degradación del ARN se verifica con electroforesis en gel y capilar y se usa para asignar un número de integridad del ARN a la muestra. Esta calidad de ARN y la cantidad total de ARN inicial se tienen en cuenta durante los pasos posteriores de preparación, secuenciación y análisis de la biblioteca.
- Selección / agotamiento de ARN: para analizar señales de interés, el ARN aislado se puede mantener tal cual, filtrar el ARN con colas poliadeniladas (poli (A)) en 3 ' para incluir solo ARNm , sin ARN ribosómico (ARNr) y / o filtrado por ARN que se une a secuencias específicas ( tabla de métodos de selección y agotamiento de ARN , a continuación). El ARN con colas 3 'poli (A) se compone principalmente de secuencias codificantes maduras procesadas. La selección de poli (A) se realiza mezclando ARN con oligómeros poli (T) unidos covalentemente a un sustrato, típicamente perlas magnéticas. [10] [11] La selección de poli (A) tiene limitaciones importantes en la detección de biotipos de ARN. Muchos biotipos de ARN no están poliadenilados, incluidos muchos transcritos de proteínas de núcleo de histonas y ARN no codificantes, o están regulados a través de la longitud de su cola poli (A) (p. Ej., Citocinas) y, por lo tanto, podrían no detectarse después de la selección poli (A). [12] Además, la selección de poli (A) puede aumentar el sesgo 3 ', especialmente con ARN de menor calidad. [13] [14] Estas limitaciones se pueden evitar con el agotamiento del ribosoma, eliminando el ARNr que típicamente representa más del 90% del ARN en una célula. Tanto el enriquecimiento de poli (A) como los pasos de agotamiento del ribosoma son laboriosos y podrían introducir sesgos, por lo que se han desarrollado enfoques más simples para omitir estos pasos. [15] Los objetivos de ARN pequeños, como el miARN , pueden aislarse aún más mediante la selección del tamaño con geles de exclusión, perlas magnéticas o kits comerciales.
- Síntesis de ADNc: el ARN se transcribe de forma inversa a ADNc porque el ADN es más estable y permite la amplificación (que utiliza ADN polimerasas ) y aprovecha una tecnología de secuenciación de ADN más madura. La amplificación posterior a la transcripción inversa da como resultado la pérdida de la hebra , que puede evitarse con el marcaje químico o la secuenciación de una sola molécula. La fragmentación y la selección del tamaño se realizan para purificar las secuencias que tienen la longitud adecuada para la máquina de secuenciación. El ARN, el ADNc o ambos se fragmentan con enzimas, sonicación o nebulizadores. La fragmentación del ARN reduce el sesgo 5 'de la transcripción inversa cebada aleatoriamente y la influencia de los sitios de unión del cebador , [11] con la desventaja de que los extremos 5' y 3 'se convierten en ADN de manera menos eficiente. A la fragmentación le sigue la selección del tamaño, en la que se eliminan las secuencias pequeñas o se selecciona un rango estrecho de longitudes de secuencia. Debido a que los ARN pequeños como los miARN se pierden, estos se analizan de forma independiente. El ADNc de cada experimento se puede indexar con un código de barras hexámero u octámero, de modo que estos experimentos se pueden agrupar en un solo carril para la secuenciación multiplexada.
Estrategia | Tipo predominante de ARN | Contenido de ARN ribosómico | Contenido de ARN sin procesar | Método de aislamiento |
---|---|---|---|---|
ARN total | Todas | Elevado | Elevado | Ninguno |
Selección de PolyA | Codificación | Bajo | Bajo | Hibridación con oligómeros poli (dT) |
Agotamiento de ARNr | Codificación, no codificación | Bajo | Elevado | Eliminación de oligómeros complementarios al ARNr |
Captura de ARN | Dirigido | Bajo | Moderar | Hibridación con sondas complementarias a las transcripciones deseadas |
Secuenciación complementaria de ADN (cDNA-Seq)
La biblioteca de ADNc derivada de biotipos de ARN se secuencia luego en un formato legible por computadora. Existen muchas tecnologías de secuenciación de alto rendimiento para la secuenciación de ADNc, incluidas las plataformas desarrolladas por Illumina , Thermo Fisher , BGI / MGI , PacBio y Oxford Nanopore Technologies . [16] Para la secuenciación de lectura corta de Illumina, una tecnología común para la secuenciación de cDNA, los adaptadores se ligan al cDNA, el DNA se une a una celda de flujo, los clústeres se generan a través de ciclos de amplificación y desnaturalización en puente, y la secuencia por síntesis es realizado en ciclos de síntesis de hebras complementarias y excitación láser de bases con terminadores reversibles. La elección y los parámetros de la plataforma de secuenciación están guiados por el diseño experimental y el costo. Las consideraciones comunes del diseño experimental incluyen decidir sobre la duración de la secuenciación, la profundidad de la secuenciación, el uso de secuenciación de un solo extremo frente a la secuencia de pares, el número de réplicas, la multiplexación, la aleatorización y las adiciones. [17]
Secuenciación de ARN pequeño / ARN no codificante
Al secuenciar un ARN distinto del ARNm, se modifica la preparación de la biblioteca. El ARN celular se selecciona en función del rango de tamaño deseado. Para objetivos de ARN pequeños, como miARN , el ARN se aísla mediante selección de tamaño. Esto se puede realizar con un gel de exclusión de tamaño, mediante perlas magnéticas de selección de tamaño o con un kit desarrollado comercialmente. Una vez aislados, se añaden enlazadores al extremo 3 'y 5' y luego se purifican. El último paso es la generación de ADNc mediante transcripción inversa.
Secuenciación directa de ARN
Debido a que se ha demostrado que la conversión de ARN en ADNc , la ligadura, la amplificación y otras manipulaciones de muestras introducen sesgos y artefactos que pueden interferir con la caracterización y cuantificación adecuadas de las transcripciones, [18] empresas como Helicos han explorado la secuenciación directa de ARN de una sola molécula. (en quiebra), Oxford Nanopore Technologies , [19] y otros. Esta tecnología secuencia las moléculas de ARN directamente de una manera masivamente paralela.
Secuenciación de ARN en tiempo real de una sola molécula
Se ha explorado la RNA-Seq directa de una sola molécula masivamente paralela como una alternativa a la RNA-Seq tradicional, en la que la conversión de RNA a cDNA , ligación, amplificación y otros pasos de manipulación de muestras pueden introducir sesgos y artefactos. [20] Las plataformas tecnológicas que realizan RNA-Seq de una sola molécula en tiempo real incluyen la secuenciación Nanopore de Oxford Nanopore Technologies (ONT) , [19] PacBio IsoSeq y Helicos (en quiebra). La secuenciación del ARN en su forma nativa conserva modificaciones como la metilación, lo que permite que se investiguen directa y simultáneamente. [19] Otro beneficio de RNA-Seq de molécula única es que las transcripciones se pueden cubrir en su totalidad, lo que permite una detección y cuantificación de isoformas de mayor confianza en comparación con la secuenciación de lectura corta. Tradicionalmente, los métodos de RNA-Seq de molécula única tienen tasas de error más altas en comparación con la secuenciación de lectura corta, pero los métodos más nuevos como ONT directo RNA-Seq limitan los errores al evitar la fragmentación y la conversión de cDNA. Los usos recientes de la secuencia de ARN directa de ONT para la expresión diferencial en poblaciones de células humanas han demostrado que esta tecnología puede superar muchas limitaciones de la secuenciación de ADNc corta y larga. [21]
Secuenciación de ARN unicelular (scRNA-Seq)
Los métodos estándar, como los microarrays y el análisis de secuencia de ARN en masa estándar, analizan la expresión de ARN de grandes poblaciones de células. En poblaciones de células mixtas, estas medidas pueden ocultar diferencias críticas entre células individuales dentro de estas poblaciones. [22] [23]
La secuenciación de ARN de una sola célula (scRNA-Seq) proporciona los perfiles de expresión de las células individuales. Aunque no es posible obtener información completa sobre cada ARN expresado por cada célula, debido a la pequeña cantidad de material disponible, los patrones de expresión génica pueden identificarse mediante análisis de agrupamiento de genes . Esto puede descubrir la existencia de tipos de células raras dentro de una población celular que tal vez nunca antes se hayan visto. Por ejemplo, dos grupos que realizaron scRNA-Seq en el epitelio de las vías respiratorias del pulmón identificaron en 2018 células especializadas raras en el pulmón llamadas ionocitos pulmonares que expresan el regulador de conductancia transmembrana de fibrosis quística . [24] [25]
Procedimientos experimentales
Los protocolos de scRNA-Seq actuales implican los siguientes pasos: aislamiento de células individuales y ARN, transcripción inversa (RT), amplificación, generación de bibliotecas y secuenciación. Las células individuales se separan mecánicamente en micropocillos (p. Ej., BD Rhapsody, Takara ICELL8, Vycap Puncher Platform o CellMicrosystems CellRaft) o se encapsulan en gotitas (p. Ej., 10x Genomics Chromium, Illumina Bio-Rad ddSEQ, 1CellBio InDrop, Dolomite Bio Nadia). [26] Las células individuales se marcan agregando perlas con oligonucleótidos con código de barras; tanto las células como las perlas se suministran en cantidades limitadas, de modo que la co-ocupación con múltiples células y perlas es un evento muy raro. Una vez que se completa la transcripción inversa, los ADNc de muchas células se pueden mezclar para secuenciar; las transcripciones de una celda en particular se identifican mediante el código de barras exclusivo de cada celda. [27] [28] Se puede adjuntar un identificador molecular único (UMI) a las secuencias diana de ARNm / ADNc para ayudar a identificar los artefactos durante la preparación de la biblioteca. [29]
Los desafíos para scRNA-Seq incluyen preservar la abundancia relativa inicial de mRNA en una célula e identificar transcripciones raras. [30] El paso de transcripción inversa es fundamental ya que la eficiencia de la reacción de RT determina qué parte de la población de ARN de la célula será finalmente analizada por el secuenciador. La procesividad de las transcriptasas inversas y las estrategias de cebado utilizadas pueden afectar la producción de ADNc de longitud completa y la generación de bibliotecas sesgadas hacia el extremo 3 'o 5' de los genes.
En la etapa de amplificación, actualmente se usa PCR o transcripción in vitro (IVT) para amplificar el ADNc. Una de las ventajas de los métodos basados en PCR es la capacidad de generar ADNc de longitud completa. Sin embargo, también se pueden amplificar exponencialmente diferentes eficiencias de PCR en secuencias particulares (por ejemplo, contenido de GC y estructura de retroceso), produciendo bibliotecas con cobertura desigual. Por otro lado, mientras que las bibliotecas generadas por IVT pueden evitar el sesgo de secuencia inducido por PCR, las secuencias específicas pueden transcribirse de manera ineficaz, provocando así la pérdida de secuencia o generando secuencias incompletas. [31] [22] Se han publicado varios protocolos de scRNA-Seq: Tang et al., [32] STRT, [33] SMART-seq, [34] CEL-seq, [35] RAGE-seq, [36] Quartz -seq [37] y C1-CAGE. [38] Estos protocolos difieren en términos de estrategias para la transcripción inversa, síntesis y amplificación de ADNc, y la posibilidad de acomodar códigos de barras específicos de secuencia (es decir, UMI ) o la capacidad de procesar muestras agrupadas. [39]
En 2017, se introdujeron dos enfoques para medir simultáneamente el ARNm de una sola célula y la expresión de proteínas a través de anticuerpos marcados con oligonucleótidos conocidos como REAP-seq, [40] y CITE-seq. [41]
Aplicaciones
scRNA-Seq se está utilizando ampliamente en disciplinas biológicas que incluyen Desarrollo, Neurología , [42] Oncología , [43] [44] [45] Enfermedades autoinmunes , [46] y Enfermedades infecciosas . [47]
scRNA-Seq ha proporcionado información considerable sobre el desarrollo de embriones y organismos, incluido el gusano Caenorhabditis elegans , [48] y la planaria regenerativa Schmidtea mediterranea . [49] [50] Los primeros animales vertebrados que se cartografiaron de esta manera fueron el pez cebra [51] [52] y Xenopus laevis . [53] En cada caso, se estudiaron múltiples etapas del embrión, lo que permitió mapear todo el proceso de desarrollo célula por célula. [8] La ciencia reconoció estos avances como el Avance del año 2018 . [54]
Consideraciones experimentales
Se consideran una variedad de parámetros al diseñar y realizar experimentos de RNA-Seq:
- Especificidad de tejido: la expresión génica varía dentro de los tejidos y entre ellos, y RNA-Seq mide esta mezcla de tipos de células. Esto puede dificultar el aislamiento del mecanismo biológico de interés. La secuenciación de una sola célula se puede utilizar para estudiar cada célula individualmente, mitigando este problema.
- Dependencia del tiempo: la expresión génica cambia con el tiempo y RNA-Seq solo toma una instantánea. Se pueden realizar experimentos de curso temporal para observar cambios en el transcriptoma.
- Cobertura (también conocida como profundidad): el ARN alberga las mismas mutaciones observadas en el ADN y la detección requiere una cobertura más profunda. Con una cobertura lo suficientemente alta, se puede utilizar RNA-Seq para estimar la expresión de cada alelo. Esto puede proporcionar información sobre fenómenos como la impronta o los efectos cis-reguladores . La profundidad de secuenciación requerida para aplicaciones específicas se puede extrapolar de un experimento piloto. [55]
- Artefactos de generación de datos (también conocidos como variación técnica): los reactivos (p. Ej., Kit de preparación de la biblioteca), el personal involucrado y el tipo de secuenciador (p. Ej., Illumina , Pacific Biosciences ) pueden dar lugar a artefactos técnicos que pueden interpretarse erróneamente como resultados significativos. . Al igual que con cualquier experimento científico, es prudente realizar RNA-Seq en un entorno bien controlado. Si esto no es posible o el estudio es un metanálisis , otra solución es detectar artefactos técnicos al inferir variables latentes (típicamente análisis de componentes principales o análisis factorial ) y posteriormente corregir estas variables. [56]
- Gestión de datos: un único experimento de RNA-Seq en seres humanos suele ser de 1 a 5 Gb (comprimido), o más cuando se incluyen archivos intermedios. [57] Este gran volumen de datos puede plantear problemas de almacenamiento. Una solución es comprimir los datos utilizando esquemas computacionales multipropósito (por ejemplo, gzip ) o esquemas específicos de genómica. Este último puede basarse en secuencias de referencia o de novo. Otra solución es realizar experimentos de microarrays, que pueden ser suficientes para trabajos basados en hipótesis o estudios de replicación (a diferencia de la investigación exploratoria).
Análisis
Ensamblaje del transcriptoma
Se utilizan dos métodos para asignar lecturas de secuencia sin procesar a características genómicas (es decir, ensamblar el transcriptoma):
- De novo: este enfoque no requiere un genoma de referencia para reconstruir el transcriptoma y se usa normalmente si el genoma es desconocido, incompleto o sustancialmente alterado en comparación con la referencia. [58] Los desafíos al usar lecturas cortas para ensamblaje de novo incluyen 1) determinar qué lecturas deben unirse en secuencias contiguas ( contigs ), 2) robustez a errores de secuenciación y otros artefactos, y 3) eficiencia computacional. El algoritmo principal utilizado para el ensamblaje de novo pasó de gráficos superpuestos, que identifican todas las superposiciones por pares entre lecturas, a gráficos de Bruijn , que dividen las lecturas en secuencias de longitud k y colapsan todos los k-mers en una tabla hash. [59] Se utilizaron gráficos superpuestos con la secuenciación de Sanger, pero no se ajustan bien a los millones de lecturas generadas con RNA-Seq. Ejemplos de ensambladores que usan gráficos de Bruijn son Trinity, [58] Oases [60] (derivado del ensamblador de genomas Velvet [61] ), Bridger, [62] y rnaSPAdes. [63] La secuenciación de pares y de lectura larga de la misma muestra puede mitigar los déficits en la secuenciación de lectura corta sirviendo como plantilla o esqueleto. Las métricas para evaluar la calidad de un ensamblaje de novo incluyen la longitud media del contig, el número de contigs y N50 . [64]
- Guiado por genoma: este enfoque se basa en los mismos métodos utilizados para la alineación del ADN, con la complejidad adicional de alinear las lecturas que cubren porciones no continuas del genoma de referencia. [65] Estas lecturas no continuas son el resultado de secuenciar transcripciones empalmadas (ver figura). Normalmente, los algoritmos de alineación tienen dos pasos: 1) alinear porciones cortas de la lectura (es decir, sembrar el genoma) y 2) utilizar programación dinámica para encontrar una alineación óptima, a veces en combinación con anotaciones conocidas. Las herramientas de software que utilizan la alineación guiada por el genoma incluyen Bowtie, [66] TopHat (que se basa en los resultados de BowTie para alinear las uniones de empalme), [67] [68] Subread, [69] STAR, [65] HISAT2, [70] y GMAP . [71] El resultado de las herramientas de alineación (mapeo) guiado por el genoma se puede utilizar con herramientas como Cufflinks [68] o StringTie [72] para reconstruir secuencias de transcripciones contiguas ( es decir , un archivo FASTA). se puede medir con 1) métricas de ensamblaje de novo (p. ej., N50) y 2) comparaciones con secuencias conocidas de transcripción, unión de empalme, genoma y proteínas usando precisión, recuperación o su combinación (p. ej., puntuación F1). [64] Además, la evaluación in silico podría realizarse utilizando lecturas simuladas. [73] [74]
Una nota sobre la calidad del ensamblaje: el consenso actual es que 1) la calidad del ensamblaje puede variar según la métrica que se utilice, 2) las herramientas de ensamblaje que obtuvieron buenos resultados en una especie no necesariamente funcionan bien en las otras especies y 3) la combinación de diferentes enfoques podría ser el más confiable. [75] [76] [77]
Cuantificación de expresión génica
La expresión se cuantifica para estudiar los cambios celulares en respuesta a estímulos externos, las diferencias entre estados sanos y enfermos y otras cuestiones de investigación. Los niveles de transcripción se utilizan a menudo como un indicador de la abundancia de proteínas, pero a menudo no son equivalentes debido a eventos postranscripcionales como la interferencia del ARN y la descomposición mediada por sinsentidos . [78]
La expresión se cuantifica contando el número de lecturas que se asignaron a cada locus en el paso de ensamblaje del transcriptoma . La expresión se puede cuantificar para exones o genes usando contigs o anotaciones de transcripción de referencia. [8] Estos recuentos de lectura de RNA-Seq observados se han validado sólidamente frente a tecnologías más antiguas, incluidos los microarrays de expresión y qPCR . [55] [79] Las herramientas que cuantifican los recuentos son HTSeq, [80] FeatureCounts, [81] Rcount, [82] maxcounts, [83] FIXSEQ, [84] y Cuffquant. Estas herramientas determinan los recuentos de lectura a partir de datos de RNA-Seq alineados, pero también se pueden obtener recuentos sin alineación con Sailfish [85] y Kallisto. [86] Los recuentos leídos se convierten luego en métricas apropiadas para pruebas de hipótesis, regresiones y otros análisis. Los parámetros para esta conversión son:
- Profundidad / cobertura de secuenciación : aunque la profundidad está preespecificada cuando se realizan múltiples experimentos de RNA-Seq, aún variará ampliamente entre los experimentos. [87] Por lo tanto, el número total de lecturas generadas en un solo experimento generalmente se normaliza convirtiendo los recuentos en fragmentos, lecturas o recuentos por millón de lecturas mapeadas (FPM, RPM o CPM). La diferencia entre RPM y FPM se derivó históricamente durante la evolución de la secuenciación de fragmentos de un solo extremo a la secuenciación de extremos emparejados. En la secuenciación de un solo extremo, solo hay una lectura por fragmento ( es decir , RPM = FPM). En la secuenciación de extremos emparejados, hay dos lecturas por fragmento ( es decir , RPM = 2 x FPM). La profundidad de secuenciación a veces se denomina tamaño de biblioteca , el número de moléculas de ADNc intermediarias en el experimento.
- Longitud del gen: los genes más largos tendrán más fragmentos / lecturas / recuentos que los genes más cortos si la expresión de la transcripción es la misma. Esto se ajusta dividiendo el FPM por la longitud de una característica (que puede ser un gen, transcripción o exón), lo que da como resultado los fragmentos métricos por kilobase de característica por millón de lecturas mapeadas (FPKM). [88] Al observar grupos de características en muestras, FPKM se convierte en transcripciones por millón (TPM) dividiendo cada FPKM por la suma de FPKM dentro de una muestra. [89] [90] [91]
- Salida total de ARN de la muestra: debido a que se extrae la misma cantidad de ARN de cada muestra, las muestras con más ARN total tendrán menos ARN por gen. Estos genes parecen tener una expresión disminuida, lo que resulta en falsos positivos en los análisis posteriores. [87] Las estrategias de normalización que incluyen el cuantil, DESeq2, TMM y la relación mediana intentan explicar esta diferencia comparando un conjunto de genes expresados no diferencialmente entre muestras y escalando en consecuencia. [92]
- Varianza para la expresión de cada gen: se modela para tener en cuenta el error de muestreo (importante para genes con recuentos de lectura bajos), aumentar la potencia y disminuir los falsos positivos. La varianza se puede estimar como unadistribución binomial normal , de Poisson o negativa [93] [94] [95] y con frecuencia se descompone en varianza técnica y biológica.
Picos para la cuantificación absoluta y la detección de efectos en todo el genoma
Los picos de ARN son muestras de ARN en concentraciones conocidas que se pueden utilizar como estándares de oro en el diseño experimental y durante los análisis posteriores para la cuantificación absoluta y la detección de efectos en todo el genoma.
- Cuantificación absoluta: la cuantificación absoluta de la expresión génica no es posible con la mayoría de los experimentos de RNA-Seq, que cuantifican la expresión en relación con todas las transcripciones. Es posible realizar RNA-Seq con picos, muestras de RNA a concentraciones conocidas. Después de la secuenciación, se utilizan recuentos de lectura de secuencias de pico para determinar la relación entre los recuentos de lectura de cada gen y las cantidades absolutas de fragmentos biológicos [11] [96] En un ejemplo, esta técnica se utilizó en embriones de Xenopus tropicalis para determinar la cinética de transcripción. [97]
- Detección de efectos en todo el genoma: los cambios en los reguladores globales, incluidos los remodeladores de cromatina, los factores de transcripción (p. Ej., MYC), los complejos de acetiltransferasa y la posición de los nucleosomas no son congruentes con los supuestos de normalización y los controles de aumento pueden ofrecer una interpretación precisa. [98] [99]
Expresión diferencial
El uso más simple pero a menudo más poderoso de RNA-Seq es encontrar diferencias en la expresión génica entre dos o más afecciones ( p . Ej. , Tratadas frente a no tratadas); este proceso se llama expresión diferencial. Las salidas se denominan con frecuencia genes expresados diferencialmente (DEG) y estos genes pueden estar regulados al alza o a la baja ( es decir , más altos o más bajos en la condición de interés). Hay muchas herramientas que realizan expresión diferencial . La mayoría se ejecutan en R , Python o la línea de comandos de Unix . Las herramientas de uso común incluyen DESeq, [94] edgeR, [95] y voom + limma, [93] [100] todas las cuales están disponibles a través de R / Bioconductor . [101] [102] Estas son las consideraciones comunes al realizar la expresión diferencial:
- Entradas: Las entradas de expresión diferencial incluyen (1) una matriz de expresión RNA-Seq (M genes x N muestras) y (2) una matriz de diseño que contiene condiciones experimentales para N muestras. La matriz de diseño más simple contiene una columna, que corresponde a las etiquetas de la condición que se está probando. Otras covariables (también denominadas factores, características, etiquetas o parámetros) pueden incluir efectos por lotes , artefactos conocidos y cualquier metadato que pueda confundir o mediar en la expresión génica. Además de las covariables conocidas, las covariables desconocidas también se pueden estimar mediante enfoques de aprendizaje automático no supervisados que incluyen análisis de componentes principales , variables sustitutas [103] y PEER [56] . Los análisis de variables ocultas se emplean a menudo para datos de RNA-Seq de tejido humano, que normalmente tienen artefactos adicionales que no se capturan en los metadatos ( p . Ej. , Tiempo isquémico, origen de múltiples instituciones, rasgos clínicos subyacentes, recopilación de datos durante muchos años con mucho personal).
- Métodos: la mayoría de las herramientas utilizan estadísticas de regresión o no paramétricas para identificar genes expresados diferencialmente, y se basan en recuentos de lectura mapeados en un genoma de referencia (DESeq2, limma, edgeR) o en recuentos de lectura derivados de la cuantificación sin alineación (sleuth, [104] Cuffdiff, [105] Ballgown [106] ). [107] Después de la regresión, la mayoría de las herramientas emplean ajustes del valor p de la tasa de error familiar (FWER) o de la tasa de descubrimiento falso (FDR) para tener en cuenta múltiples hipótesis (en estudios en humanos, ~ 20.000 genes codificadores de proteínas o ~ 50.000 biotipos).
- Resultados: un resultado típico consta de filas correspondientes al número de genes y al menos tres columnas, el cambio de pliegue logarítmico de cada gen ( transformación logarítmica de la relación en la expresión entre condiciones, una medida del tamaño del efecto ), valor p y p -valor ajustado para múltiples comparaciones . Los genes se definen como biológicamente significativos si pasan los puntos de corte para el tamaño del efecto (cambio logarítmico) y la significación estadística . Idealmente, estos límites deberían especificarse a priori , pero la naturaleza de los experimentos de RNA-Seq es a menudo exploratoria, por lo que es difícil predecir los tamaños del efecto y los límites pertinentes con anticipación.
- Escollos: La razón de ser de estos métodos complejos es evitar la gran cantidad de escollos que pueden conducir a errores estadísticos e interpretaciones engañosas. Los obstáculos incluyen un aumento de las tasas de falsos positivos (debido a comparaciones múltiples), artefactos de preparación de muestras, heterogeneidad de muestras (como antecedentes genéticos mixtos), muestras altamente correlacionadas, diseños experimentales de varios niveles no contabilizados y un diseño experimental deficiente . Un error notable es ver los resultados en Microsoft Excel sin utilizar la función de importación para garantizar que los nombres de los genes sigan siendo texto. [108] Aunque es conveniente, Excel convierte automáticamente algunos nombres de genes ( SEPT1 , DEC1 , MARCH2 ) en fechas o números de coma flotante.
- Elección de herramientas y evaluación comparativa: Existen numerosos esfuerzos que comparan los resultados de estas herramientas, y DESeq2 tiende a superar moderadamente a otros métodos. [109] [110] [111] [112] [17] [107] [113] Al igual que con otros métodos, la evaluación comparativa consiste en comparar los resultados de las herramientas entre sí y los estándares de oro conocidos .
Los análisis posteriores para una lista de genes expresados diferencialmente vienen en dos sabores, validando observaciones y haciendo inferencias biológicas. Debido a las trampas de la expresión diferencial y RNA-Seq, las observaciones importantes se replican con (1) un método ortogonal en las mismas muestras (como la PCR en tiempo real ) u (2) otro experimento , a veces prerregistrado , en una nueva cohorte . Esto último ayuda a garantizar la generalización y, por lo general, puede seguirse con un metanálisis de todas las cohortes agrupadas. El método más común para obtener una comprensión biológica de alto nivel de los resultados es el análisis de enriquecimiento de conjuntos de genes , aunque a veces se emplean enfoques de genes candidatos. El enriquecimiento del conjunto de genes determina si la superposición entre dos conjuntos de genes es estadísticamente significativa, en este caso, la superposición entre genes expresados diferencialmente y conjuntos de genes de rutas / bases de datos conocidas ( p . Ej. , Ontología de genes , KEGG , Ontología de fenotipo humano ) o de análisis complementarios en el mismos datos (como redes de coexpresión). Las herramientas comunes para el enriquecimiento de conjuntos de genes incluyen interfaces web ( por ejemplo , ENRICHR , g: profiler , WEBGESTALT ) [114] y paquetes de software. Al evaluar los resultados del enriquecimiento, una heurística es buscar primero el enriquecimiento de la biología conocida como una verificación de cordura y luego expandir el alcance para buscar una nueva biología.
Splicing alternativo
El empalme de ARN es parte integral de los eucariotas y contribuye significativamente a la regulación y diversidad de proteínas, lo que ocurre en> 90% de los genes humanos. [115] Existen múltiples modos de empalme alternativos : omisión de exón (modo de empalme más común en humanos y eucariotas superiores), exones mutuamente excluyentes, sitios donantes o aceptores alternativos, retención de intrones (modo de empalme más común en plantas, hongos y protozoos), sitio de inicio de la transcripción alternativo (promotor) y poliadenilación alternativa. [115] Uno de los objetivos de RNA-Seq es identificar eventos de empalme alternativos y probar si difieren entre las condiciones. La secuenciación de lectura larga captura la transcripción completa y, por lo tanto, minimiza muchos de los problemas en la estimación de la abundancia de isoformas, como el mapeo de lectura ambiguo. Para RNA-Seq de lectura corta, existen varios métodos para detectar empalmes alternativos que se pueden clasificar en tres grupos principales: [116] [89] [117]
- Empalme diferencial basado en recuento (también basado en eventos): estimación de la retención de exones. Algunos ejemplos son DEXSeq, [118] MATS, [119] y SeqGSEA. [120]
- Basado en isoformas (también módulos de lectura múltiple, expresión diferencial de isoformas) : estimar primero la abundancia de isoformas y luego la abundancia relativa entre condiciones. Algunos ejemplos son Gemelos 2 [121] y DiffSplice. [122]
- Basado en escisión de intrones: calcule el empalme alternativo utilizando lecturas divididas. Algunos ejemplos son MAJIQ [123] y Leafcutter. [117]
Las herramientas de expresión de genes diferenciales también se pueden utilizar para la expresión de isoformas diferenciales si las isoformas se cuantifican antes de tiempo con otras herramientas como RSEM. [124]
Redes de coexpresión
Las redes de coexpresión son representaciones derivadas de datos de genes que se comportan de manera similar en tejidos y condiciones experimentales. [125] Su propósito principal radica en la generación de hipótesis y enfoques de culpabilidad por asociación para inferir funciones de genes previamente desconocidos. [125] Los datos de RNA-Seq se han utilizado para inferir genes implicados en vías específicas basadas en la correlación de Pearson , tanto en plantas [126] como en mamíferos. [127] La principal ventaja de los datos RNA-Seq en este tipo de análisis sobre las plataformas de microarrays es la capacidad de cubrir todo el transcriptoma, lo que permite la posibilidad de desentrañar representaciones más completas de las redes reguladoras de genes. La regulación diferencial de las isoformas de corte y empalme del mismo gen puede detectarse y usarse para predecir sus funciones biológicas. [128] [129] El análisis de redes de coexpresión de genes ponderados se ha utilizado con éxito para identificar módulos de coexpresión y genes concentradores intramodulares basados en datos de secuencia de ARN. Los módulos de coexpresión pueden corresponder a tipos de células o vías. Los concentradores intramodulares altamente conectados se pueden interpretar como representantes de su módulo respectivo. Un eigengene es una suma ponderada de expresión de todos los genes en un módulo. Los genes propios son biomarcadores (características) útiles para el diagnóstico y el pronóstico. [130] Se han propuesto enfoques de transformación estabilizadora de la varianza para estimar coeficientes de correlación basados en datos de secuencia de ARN. [126]
Descubrimiento de variantes
RNA-Seq captura la variación del ADN, incluidas las variantes de un solo nucleótido , pequeñas inserciones / deleciones . y variación estructural . La llamada de variantes en RNA-Seq es similar a la llamada de variantes de ADN y, a menudo, emplea las mismas herramientas (incluidas SAMtools mpileup [131] y GATK HaplotypeCaller [132] ) con ajustes para tener en cuenta el empalme. Una dimensión única para las variantes de ARN es la expresión específica de alelos (ASE) : las variantes de un solo haplotipo podrían expresarse preferentemente debido a efectos reguladores que incluyen loci de rasgos cuantitativos de impronta y expresión , y variantes raras no codificantes . [133] [134] Las limitaciones de la identificación de variantes de ARN incluyen que solo refleja regiones expresadas (en humanos, <5% del genoma), podría estar sujeto a sesgos introducidos por el procesamiento de datos (p. Ej., Los conjuntos de transcriptomas de novo subestiman la heterocigosidad [135 ] ), y tiene una calidad inferior en comparación con la secuenciación directa de ADN.
Edición de ARN (alteraciones postranscripcionales)
Tener las secuencias genómicas y transcriptómicas coincidentes de un individuo puede ayudar a detectar ediciones postranscripcionales ( edición de ARN ). [3] Se identifica un evento de modificación postranscripcional si la transcripción del gen tiene un alelo / variante no observado en los datos genómicos.
Detección de genes de fusión
Causados por diferentes modificaciones estructurales en el genoma, los genes de fusión han ganado atención debido a su relación con el cáncer. [136] La capacidad de RNA-Seq para analizar el transcriptoma completo de una muestra de manera imparcial lo convierte en una herramienta atractiva para encontrar este tipo de eventos comunes en el cáncer. [4]
La idea se deriva del proceso de alinear las lecturas transcriptómicas cortas con un genoma de referencia. La mayoría de las lecturas cortas caerán dentro de un exón completo, y se esperaría que un conjunto más pequeño pero aún grande se mapeara en las uniones exón-exón conocidas. Las lecturas cortas restantes no mapeadas se analizarían luego para determinar si coinciden con una unión exón-exón donde los exones provienen de diferentes genes. Esto sería evidencia de un posible evento de fusión, sin embargo, debido a la longitud de las lecturas, esto podría resultar muy ruidoso. Un enfoque alternativo es utilizar lecturas de extremos emparejados, cuando un número potencialmente grande de lecturas emparejadas mapearía cada extremo a un exón diferente, dando una mejor cobertura de estos eventos (ver figura). No obstante, el resultado final consiste en múltiples y potencialmente nuevas combinaciones de genes que proporcionan un punto de partida ideal para una mayor validación.
Historia
RNA-Seq se desarrolló por primera vez a mediados de la década de 2000 con el advenimiento de la tecnología de secuenciación de próxima generación. [139] Los primeros manuscritos que usaron RNA-Seq incluso sin usar el término incluyen los de líneas celulares de cáncer de próstata [140] (fechado en 2006), Medicago truncatula [141] (2006), maíz [142] (2007) y Arabidopsis thaliana [143] (2007), mientras que el término "RNA-Seq" en sí mismo se mencionó por primera vez en 2008 [144] El número de manuscritos que se refieren a RNA-Seq en el título o en el resumen (Figura, línea azul) aumenta continuamente con 6754 manuscritos publicados en 2018. La intersección de RNA-Seq y medicina (Figura, línea dorada) tiene una celeridad similar. [145]
Aplicaciones a la medicina
RNA-Seq tiene el potencial de identificar nueva biología de enfermedades, perfilar biomarcadores para indicaciones clínicas, inferir vías farmacológicas y realizar diagnósticos genéticos. Estos resultados podrían personalizarse aún más para subgrupos o incluso pacientes individuales, destacando potencialmente una prevención, diagnóstico y terapia más efectivos. La viabilidad de este enfoque depende en parte de los costos en dinero y tiempo; una limitación relacionada es el equipo requerido de especialistas (bioinformáticos, médicos / clínicos, investigadores básicos, técnicos) para interpretar completamente la enorme cantidad de datos generados por este análisis. [146]
Esfuerzos de secuenciación a gran escala
Se ha dado mucho énfasis a los datos de RNA-Seq después de que los proyectos Encyclopedia of DNA Elements (ENCODE) y The Cancer Genome Atlas (TCGA) hayan utilizado este enfoque para caracterizar docenas de líneas celulares [147] y miles de muestras de tumores primarios. [148] respectivamente. ENCODE tenía como objetivo identificar regiones reguladoras de todo el genoma en diferentes cohortes de líneas celulares y los datos transcriptómicos son fundamentales para comprender el efecto posterior de esas capas reguladoras epigenéticas y genéticas. TCGA, en cambio, tenía como objetivo recolectar y analizar miles de muestras de pacientes de 30 tipos diferentes de tumores para comprender los mecanismos subyacentes de la transformación y progresión maligna. En este contexto, los datos de RNA-Seq proporcionan una instantánea única del estado transcriptómico de la enfermedad y observan una población imparcial de transcripciones que permite la identificación de nuevas transcripciones, transcripciones de fusión y ARN no codificantes que podrían no detectarse con diferentes tecnologías.
Ver también
- Transcriptómica
- Microarray de ADN
- Lista de herramientas bioinformáticas RNA-Seq
Referencias
Este artículo se envió a WikiJournal of Science para su revisión por pares académicos externos en 2019 ( informes de los revisores ). El contenido actualizado se reintegró a la página de Wikipedia bajo una licencia CC-BY-SA-3.0 ( 2021 ). La versión del registro revisada es: Felix Richter; et al. (17 de mayo de 2021). "Una amplia introducción a RNA-Seq". WikiJournal of Science . 4 (2): 4. doi : 10.15347 / WJS / 2021.004 . ISSN 2470-6345 . Wikidata Q100146647 .
- ^ Lowe R, Shirley N, Bleackley M, Dolan S, Shafee T (mayo de 2017). "Tecnologías de la transcriptómica" . PLOS Biología Computacional . 13 (5): e1005457. Código bibliográfico : 2017PLSCB..13E5457L . doi : 10.1371 / journal.pcbi.1005457 . PMC 5436640 . PMID 28545146 .
- ^ Chu Y, Corey DR (agosto de 2012). "Secuenciación de ARN: selección de plataforma, diseño experimental e interpretación de datos" . Terapéutica de ácidos nucleicos . 22 (4): 271–4. doi : 10.1089 / nat.2012.0367 . PMC 3426205 . PMID 22830413 .
- ^ a b c Wang Z, Gerstein M, Snyder M (enero de 2009). "RNA-Seq: una herramienta revolucionaria para la transcriptómica" . Reseñas de la naturaleza. Genética . 10 (1): 57–63. doi : 10.1038 / nrg2484 . PMC 2949280 . PMID 19015660 .
- ^ a b Maher CA, Kumar-Sinha C, Cao X, Kalyana-Sundaram S, Han B, Jing X, et al. (Marzo de 2009). "Secuenciación de transcriptomas para detectar fusiones de genes en cáncer" . Naturaleza . 458 (7234): 97–101. Código Bibliográfico : 2009Natur.458 ... 97M . doi : 10.1038 / nature07638 . PMC 2725402 . PMID 19136943 .
- ^ Ingolia NT, Brar GA, Rouskin S, McGeachy AM, Weissman JS (julio de 2012). "La estrategia de perfiles de ribosomas para el seguimiento de la traducción in vivo mediante secuenciación profunda de fragmentos de ARNm protegidos por ribosomas" . Protocolos de la naturaleza . 7 (8): 1534–50. doi : 10.1038 / nprot.2012.086 . PMC 3535016 . PMID 22836135 .
- ^ Lee JH, Daugharthy ER, Scheiman J, Kalhor R, Yang JL, Ferrante TC, et al. (Marzo del 2014). "Secuenciación in situ de ARN subcelular altamente multiplexado" . Ciencia . 343 (6177): 1360–3. Código bibliográfico : 2014Sci ... 343.1360L . doi : 10.1126 / science.1250212 . PMC 4140943 . PMID 24578530 .
- ^ Kukurba KR, Montgomery SB (abril de 2015). "Análisis y secuenciación de ARN" . Protocolos de Cold Spring Harbor . 2015 (11): 951–69. doi : 10.1101 / pdb.top084970 . PMC 4863231 . PMID 25870306 .
- ^ a b c d e Griffith M, Walker JR, Spies NC, Ainscough BJ, Griffith OL (agosto de 2015). "Informática para secuenciación de ARN: un recurso web para análisis en la nube" . PLOS Biología Computacional . 11 (8): e1004393. Código Bibliográfico : 2015PLSCB..11E4393G . doi : 10.1371 / journal.pcbi.1004393 . PMC 4527835 . PMID 26248053 .
- ^ "RNA-seqlopedia" . rnaseq.uoregon.edu . Consultado el 8 de febrero de 2017 .
- ^ Morin R, Bainbridge M, Fejes A, Hirst M, Krzywinski M, Pugh T, et al. (Julio de 2008). "Perfilando el transcriptoma HeLa S3 utilizando ADNc cebado aleatoriamente y secuenciación de lectura corta masivamente paralela" . BioTechniques . 45 (1): 81–94. doi : 10.2144 / 000112900 . PMID 18611170 .
- ^ a b c Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (julio de 2008). "Mapeo y cuantificación de transcriptomas de mamíferos por RNA-Seq". Métodos de la naturaleza . 5 (7): 621–8. doi : 10.1038 / nmeth.1226 . PMID 18516045 . S2CID 205418589 .
- ^ Sun Q, Hao Q, Prasanth KV (febrero de 2018). "ARN no codificantes largos nucleares: reguladores clave de la expresión génica" . Tendencias en Genética . 34 (2): 142-157. doi : 10.1016 / j.tig.2017.11.005 . PMC 6002860 . PMID 29249332 .
- ^ Sigurgeirsson B, Emanuelsson O, Lundeberg J (2014). "Secuenciación de ARN degradado dirigido por conteo de etiquetas 3 '" . PLOS ONE . 9 (3): e91851. Código bibliográfico : 2014PLoSO ... 991851S . doi : 10.1371 / journal.pone.0091851 . PMC 3954844 . PMID 24632678 .
- ^ Chen EA, Souaiaia T, Herstein JS, Evgrafov OV, Spitsyna VN, Rebolini DF, Knowles JA (octubre de 2014). "Efecto de la integridad del ARN en lecturas mapeadas de forma única en RNA-Seq" . Notas de investigación de BMC . 7 : 753. doi : 10.1186 / 1756-0500-7-753 . PMC 4213542 . PMID 25339126 .
- ^ Moll P, Ante M, Seitz A, Reda T (diciembre de 2014). "Secuenciación de ARNm QuantSeq 3 ′ para cuantificación de ARN". Métodos de la naturaleza . 11 (12): i – iii. doi : 10.1038 / nmeth.f.376 . ISSN 1548-7105 .
- ^ Oikonomopoulos S, Bayega A, Fahiminiya S, Djambazian H, Berube P, Ragoussis J (2020). "Metodologías para la elaboración de perfiles de transcripciones utilizando tecnologías de lectura larga" . Fronteras en genética . 11 : 606. doi : 10.3389 / fgene.2020.00606 . PMC 7358353 . PMID 32733532 .
- ^ a b Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A, et al. (Enero de 2016). "Una encuesta de las mejores prácticas para el análisis de datos RNA-seq" . Biología del genoma . 17 (1): 13. doi : 10.1186 / s13059-016-0881-8 . PMC 4728800 . PMID 26813401 .
- ^ Liu D, Graber JH (febrero de 2006). "La comparación cuantitativa de bibliotecas EST requiere compensación de sesgos sistemáticos en la generación de cDNA" . BMC Bioinformática . 7 : 77. doi : 10.1186 / 1471-2105-7-77 . PMC 1431573 . PMID 16503995 .
- ^ a b c Garalde DR, Snell EA, Jachimowicz D, Sipos B, Lloyd JH, Bruce M, et al. (Marzo de 2018). "Secuenciación directa de ARN altamente paralela en una matriz de nanoporos". Métodos de la naturaleza . 15 (3): 201–206. doi : 10.1038 / nmeth.4577 . PMID 29334379 . S2CID 3589823 .
- ^ Liu D, Graber JH (febrero de 2006). "La comparación cuantitativa de bibliotecas EST requiere compensación de sesgos sistemáticos en la generación de cDNA" . BMC Bioinformática . 7 : 77. doi : 10.1186 / 1471-2105-7-77 . PMC 1431573 . PMID 16503995 .
- ^ Gleeson J, Lane TA, Harrison PJ, Haerty W, Clark MB (2020-08-03). "La secuenciación directa de ARN de nanoporos detecta la expresión diferencial entre poblaciones de células humanas". bioRxiv : 2020.08.02.232785. doi : 10.1101 / 2020.08.02.232785 . S2CID 220975367 .
- ^ a b " Shapiro E, Biezuner T, Linnarsson S (septiembre de 2013). "Las tecnologías basadas en secuenciación unicelular revolucionarán la ciencia del organismo completo". Reseñas de la naturaleza. Genética . 14 (9): 618-30. doi : 10.1038 / nrg3542 . PMID 23897237 . S2CID 500845 ."
- ^ Kolodziejczyk AA, Kim JK, Svensson V, Marioni JC, Teichmann SA (mayo de 2015). "La tecnología y biología de la secuenciación de ARN unicelular" . Célula molecular . 58 (4): 610-20. doi : 10.1016 / j.molcel.2015.04.005 . PMID 26000846 .
- ^ Montoro DT, Haber AL, Biton M, Vinarsky V, Lin B, Birket SE, et al. (Agosto de 2018). "Una jerarquía epitelial de las vías respiratorias revisada incluye ionocitos que expresan CFTR" . Naturaleza . 560 (7718): 319–324. Código Bibcode : 2018Natur.560..319M . doi : 10.1038 / s41586-018-0393-7 . PMC 6295155 . PMID 30069044 .
- ^ Plasschaert LW, Žilionis R, Choo-Wing R, Savova V, Knehr J, Roma G, et al. (Agosto de 2018). "Un atlas unicelular del epitelio de las vías respiratorias revela el ionocito pulmonar rico en CFTR" . Naturaleza . 560 (7718): 377–381. Código Bib : 2018Natur.560..377P . doi : 10.1038 / s41586-018-0394-6 . PMC 6108322 . PMID 30069046 .
- ^ Valihrach L, Androvic P, Kubista M (marzo de 2018). "Plataformas para la recolección y análisis unicelular" . Revista Internacional de Ciencias Moleculares . 19 (3): 807. doi : 10.3390 / ijms19030807 . PMC 5877668 . PMID 29534489 .
- ^ Klein AM, Mazutis L, Akartuna I, Tallapragada N, Veres A, Li V, et al. (Mayo de 2015). "Código de barras de gotitas para transcriptómica unicelular aplicada a células madre embrionarias" . Celular . 161 (5): 1187–1201. doi : 10.1016 / j.cell.2015.04.044 . PMC 4441768 . PMID 26000487 .
- ^ Macosko EZ, Basu A, Satija R, Nemesh J, Shekhar K, Goldman M, et al. (Mayo de 2015). "Perfiles de expresión en todo el genoma altamente paralelos de células individuales utilizando gotitas de nanolitros" . Celular . 161 (5): 1202-1214. doi : 10.1016 / j.cell.2015.05.002 . PMC 4481139 . PMID 26000488 .
- ^ Islam S, Zeisel A, Joost S, La Manno G, Zajac P, Kasper M, et al. (Febrero 2014). "RNA-seq cuantitativa unicelular con identificadores moleculares únicos". Métodos de la naturaleza . 11 (2): 163–6. doi : 10.1038 / nmeth.2772 . PMID 24363023 . S2CID 6765530 .
- ^ " Hebenstreit D (noviembre de 2012). "Métodos, desafíos y potenciales de RNA-seq de célula única" . Biología . 1 (3): 658–67. doi : 10.3390 / biology1030658 . PMC 4009822 . PMID 24832513 ."
- ^ Eberwine J, Sul JY, Bartfai T, Kim J (enero de 2014). "La promesa de la secuenciación unicelular". Métodos de la naturaleza . 11 (1): 25–7. doi : 10.1038 / nmeth.2769 . PMID 24524134 . S2CID 11575439 .
- ^ Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N, et al. (Mayo de 2009). "Análisis de transcriptoma completo de mRNA-Seq de una sola célula". Métodos de la naturaleza . 6 (5): 377–82. doi : 10.1038 / NMETH.1315 . PMID 19349980 . S2CID 16570747 .
- ^ Islam S, Kjällquist U, Moliner A, Zajac P, Fan JB, Lönnerberg P, Linnarsson S (julio de 2011). "Caracterización del paisaje transcripcional unicelular por RNA-seq altamente multiplex" . Investigación del genoma . 21 (7): 1160–7. doi : 10.1101 / gr.110882.110 . PMC 3129258 . PMID 21543516 .
- ^ Ramsköld D, Luo S, Wang YC, Li R, Deng Q, Faridani OR, et al. (Agosto 2012). "Secuencia de ARNm de longitud completa a partir de niveles de ARN de células individuales y células tumorales circulantes individuales" . Biotecnología de la naturaleza . 30 (8): 777–82. doi : 10.1038 / nbt.2282 . PMC 3467340 . PMID 22820318 .
- ^ Hashimshony T, Wagner F, Sher N, Yanai I (septiembre de 2012). "CEL-Seq: RNA-Seq unicelular por amplificación lineal multiplexada" . Informes de celda . 2 (3): 666–73. doi : 10.1016 / j.celrep.2012.08.003 . PMID 22939981 .
- ^ Singh M, Al-Eryani G, Carswell S, Ferguson JM, Blackburn J, Barton K, Roden D, Luciani F, Phan T, Junankar S, Jackson K, Goodnow CC, Smith MA, Swarbrick A (2018). "La secuenciación unicelular de lectura larga dirigida de alto rendimiento revela el paisaje clonal y transcripcional de los linfocitos" . bioRxiv . 10 (1): 3120. doi : 10.1101 / 424945 . PMC 6635368 . PMID 31311926 .
- ^ Sasagawa Y, Nikaido I, Hayashi T, Danno H, Uno KD, Imai T, Ueda HR (abril de 2013). "Quartz-Seq: un método de secuenciación de ARN unicelular altamente reproducible y sensible, revela heterogeneidad de expresión génica no genética" . Biología del genoma . 14 (4): R31. doi : 10.1186 / gb-2013-14-4-r31 . PMC 4054835 . PMID 23594475 .
- ^ Kouno T, Moody J, Kwon AT, Shibayama Y, Kato S, Huang Y, et al. (Enero de 2019). "C1 CAGE detecta sitios de inicio de transcripción y actividad potenciadora en resolución de una sola célula" . Comunicaciones de la naturaleza . 10 (1): 360. Bibcode : 2019NatCo..10..360K . doi : 10.1038 / s41467-018-08126-5 . PMC 6341120 . PMID 30664627 .
- ^ Dal Molin A, Di Camillo B (2019). "Cómo diseñar un experimento de secuenciación de ARN unicelular: trampas, desafíos y perspectivas". Sesiones informativas en bioinformática . 20 (4): 1384-1394. doi : 10.1093 / bib / bby007 . PMID 29394315 .
- ^ Peterson VM, Zhang KX, Kumar N, Wong J, Li L, Wilson DC, et al. (Octubre de 2017). "Cuantificación multiplexada de proteínas y transcripciones en células individuales". Biotecnología de la naturaleza . 35 (10): 936–939. doi : 10.1038 / nbt.3973 . PMID 28854175 . S2CID 205285357 .
- ^ Stoeckius M, Hafemeister C, Stephenson W, Houck-Loomis B, Chattopadhyay PK, Swerdlow H, et al. (Septiembre de 2017). "Medición simultánea de epítopos y transcriptomas en células individuales" . Métodos de la naturaleza . 14 (9): 865–868. doi : 10.1038 / nmeth.4380 . PMC 5669064 . PMID 28759029 .
- ^ Raj B, Wagner DE, McKenna A, Pandey S, Klein AM, Shendure J, et al. (Junio de 2018). "Perfiles unicelulares simultáneos de linajes y tipos de células en el cerebro de vertebrados" . Biotecnología de la naturaleza . 36 (5): 442–450. doi : 10.1038 / nbt.4103 . PMC 5938111 . PMID 29608178 .
- ^ Olmos D, Arkenau HT, Ang JE, Ledaki I, Attard G, Carden CP, et al. (Enero de 2009). "La célula tumoral circulante (CTC) cuenta como puntos finales intermedios en el cáncer de próstata resistente a la castración (CRPC): una experiencia de un solo centro" . Annals of Oncology . 20 (1): 27–33. doi : 10.1093 / annonc / mdn544 . PMID 18695026 .
- ^ Levitin HM, Yuan J, Sims PA (abril de 2018). "Análisis transcriptómico unicelular de heterogeneidad tumoral" . Tendencias en cáncer . 4 (4): 264–268. doi : 10.1016 / j.trecan.2018.02.003 . PMC 5993208 . PMID 29606308 .
- ^ Jerby-Arnon L, Shah P, Cuoco MS, Rodman C, Su MJ, Melms JC, et al. (Noviembre de 2018). "Un programa de células cancerosas promueve la exclusión de células T y la resistencia al bloqueo del punto de control" . Celular . 175 (4): 984–997.e24. doi : 10.1016 / j.cell.2018.09.006 . PMC 6410377 . PMID 30388455 .
- ^ Stephenson W, Donlin LT, Butler A, Rozo C, Bracken B, Rashidfarrokhi A, et al. (Febrero de 2018). "RNA-seq unicelular de tejido sinovial de artritis reumatoide utilizando instrumentación de microfluidos de bajo costo" . Comunicaciones de la naturaleza . 9 (1): 791. Bibcode : 2018NatCo ... 9..791S . doi : 10.1038 / s41467-017-02659-x . PMC 5824814 . PMID 29476078 .
- ^ Avraham R, Haseley N, Brown D, Penaranda C, Jijon HB, Trombetta JJ, et al. (Septiembre de 2015). "La variabilidad patógena de célula a célula impulsa la heterogeneidad en las respuestas inmunitarias del huésped" . Celular . 162 (6): 1309–21. doi : 10.1016 / j.cell.2015.08.027 . PMC 4578813 . PMID 26343579 .
- ^ Cao J, Packer JS, Ramani V, Cusanovich DA, Huynh C, Daza R, et al. (Agosto de 2017). "Perfil transcripcional integral unicelular de un organismo multicelular" . Ciencia . 357 (6352): 661–667. Código bibliográfico : 2017Sci ... 357..661C . doi : 10.1126 / science.aam8940 . PMC 5894354 . PMID 28818938 .
- ^ Plass M, Solana J, Wolf FA, Ayoub S, Misios A, Glažar P, et al. (Mayo de 2018). "Atlas de tipo celular y árbol de linaje de un animal complejo completo por transcriptómica unicelular" . Ciencia . 360 (6391): eaaq1723. doi : 10.1126 / science.aaq1723 . PMID 29674432 .
- ^ Fincher CT, Wurtzel O, de Hoog T, Kravarik KM, Reddien PW (mayo de 2018). "Schmidtea mediterranea" . Ciencia . 360 (6391): eaaq1736. doi : 10.1126 / science.aaq1736 . PMC 6563842 . PMID 29674431 .
- ^ Wagner DE, Weinreb C, Collins ZM, Briggs JA, Megason SG, Klein AM (junio de 2018). "Mapeo unicelular de paisajes de expresión génica y linaje en el embrión de pez cebra" . Ciencia . 360 (6392): 981–987. Código bibliográfico : 2018Sci ... 360..981W . doi : 10.1126 / science.aar4362 . PMC 6083445 . PMID 29700229 .
- ^ Farrell JA, Wang Y, Riesenfeld SJ, Shekhar K, Regev A, Schier AF (junio de 2018). "Reconstrucción unicelular de trayectorias de desarrollo durante la embriogénesis del pez cebra" . Ciencia . 360 (6392): eaar3131. doi : 10.1126 / science.aar3131 . PMC 6247916 . PMID 29700225 .
- ^ Briggs JA, Weinreb C, Wagner DE, Megason S, Peshkin L, Kirschner MW, Klein AM (junio de 2018). "La dinámica de la expresión génica en la embriogénesis de vertebrados en resolución unicelular" . Ciencia . 360 (6392): eaar5780. doi : 10.1126 / science.aar5780 . PMC 6038144 . PMID 29700227 .
- ^ You J. "Science's 2018 Breakthrough of the Year: seguimiento del desarrollo célula por célula" . Revista de ciencia . Asociación Estadounidense para el Avance de la Ciencia.
- ^ a b Li H, Lovci MT, Kwon YS, Rosenfeld MG, Fu XD, Yeo GW (diciembre de 2008). "Determinación de la densidad de la etiqueta requerida para el análisis del transcriptoma digital: aplicación a un modelo de cáncer de próstata sensible a los andrógenos" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 105 (51): 20179–84. Código Bibliográfico : 2008PNAS..10520179L . doi : 10.1073 / pnas.0807121105 . PMC 2603435 . PMID 19088194 .
- ^ a b Stegle O, Parts L, Piipari M, Winn J, Durbin R (febrero de 2012). "Utilización de la estimación probabilística de residuos de expresión (PEER) para obtener un mayor poder e interpretabilidad de los análisis de expresión génica" . Protocolos de la naturaleza . 7 (3): 500–7. doi : 10.1038 / nprot.2011.457 . PMC 3398141 . PMID 22343431 .
- ^ Kingsford C, Patro R (junio de 2015). "Compresión basada en referencias de secuencias de lectura corta utilizando codificación de ruta" . Bioinformática . 31 (12): 1920–8. doi : 10.1093 / bioinformatics / btv071 . PMC 4481695 . PMID 25649622 .
- ^ a b Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, et al. (Mayo de 2011). "Ensamblaje de transcriptoma de longitud completa a partir de datos de RNA-Seq sin un genoma de referencia" . Biotecnología de la naturaleza . 29 (7): 644–52. doi : 10.1038 / nbt.1883 . PMC 3571712 . PMID 21572440 .
- ^ "Montaje de Novo con Illumina Reads" (PDF) . Consultado el 22 de octubre de 2016 .
- ^ Oasis: un ensamblador de transcriptomas para lecturas muy cortas
- ^ Zerbino DR, Birney E (mayo de 2008). "Velvet: algoritmos para ensamblaje de lectura corta de novo usando gráficos de Bruijn" . Investigación del genoma . 18 (5): 821–9. doi : 10.1101 / gr.074492.107 . PMC 2336801 . PMID 18349386 .
- ^ Chang Z, Li G, Liu J, Zhang Y, Ashby C, Liu D, et al. (Febrero de 2015). "Bridger: un nuevo marco para el ensamblaje del transcriptoma de novo utilizando datos de RNA-seq" . Biología del genoma . 16 (1): 30. doi : 10.1186 / s13059-015-0596-2 . PMC 4342890 . PMID 25723335 .
- ^ Bushmanova E, Antipov D, Lapidus A, Prjibelski AD (septiembre de 2019). "rnaSPAdes: un ensamblador de transcriptoma de novo y su aplicación a los datos de RNA-Seq" . GigaScience . 8 (9). doi : 10.1093 / gigascience / giz100 . PMC 6736328 . PMID 31494669 .
- ^ a b Li B, Fillmore N, Bai Y, Collins M, Thomson JA, Stewart R, Dewey CN (diciembre de 2014). "Evaluación de ensamblajes de transcriptoma de novo a partir de datos de RNA-Seq" . Biología del genoma . 15 (12): 553. doi : 10.1186 / s13059-014-0553-5 . PMC 4298084 . PMID 25608678 .
- ^ a b Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. (Enero 2013). "STAR: alineador de secuencia de ARN universal ultrarrápido" . Bioinformática . 29 (1): 15-21. doi : 10.1093 / bioinformática / bts635 . PMC 3530905 . PMID 23104886 .
- ^ Langmead B, Trapnell C, Pop M, Salzberg SL (2009). "Alineación ultrarrápida y eficiente para la memoria de secuencias cortas de ADN con el genoma humano" . Biología del genoma . 10 (3): R25. doi : 10.1186 / gb-2009-10-3-r25 . PMC 2690996 . PMID 19261174 .
- ^ Trapnell C, Pachter L, Salzberg SL (mayo de 2009). "TopHat: descubrimiento de uniones de empalme con RNA-Seq" . Bioinformática . 25 (9): 1105-11. doi : 10.1093 / bioinformatics / btp120 . PMC 2672628 . PMID 19289445 .
- ^ a b Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, et al. (Marzo de 2012). "Análisis de expresión diferencial de genes y transcripciones de experimentos de RNA-seq con TopHat y Gemelos" . Protocolos de la naturaleza . 7 (3): 562–78. doi : 10.1038 / nprot.2012.016 . PMC 3334321 . PMID 22383036 .
- ^ Liao Y, Smyth GK, Shi W (mayo de 2013). "El alineador de Subread: mapeo de lectura rápido, preciso y escalable por semilla y voto" . Investigación de ácidos nucleicos . 41 (10): e108. doi : 10.1093 / nar / gkt214 . PMC 3664803 . PMID 23558742 .
- ^ Kim D, Langmead B, Salzberg SL (abril de 2015). "HISAT: un alineador de empalme rápido con pocos requisitos de memoria" . Métodos de la naturaleza . 12 (4): 357–60. doi : 10.1038 / nmeth.3317 . PMC 4655817 . PMID 25751142 .
- ^ Wu TD, Watanabe CK (mayo de 2005). "GMAP: un programa de alineación y mapeo genómico para secuencias de ARNm y EST" . Bioinformática . 21 (9): 1859–75. doi : 10.1093 / bioinformática / bti310 . PMID 15728110 .
- ^ Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT, Salzberg SL (marzo de 2015). "StringTie permite una reconstrucción mejorada de un transcriptoma a partir de lecturas de RNA-seq" . Biotecnología de la naturaleza . 33 (3): 290–5. doi : 10.1038 / nbt.3122 . PMC 4643835 . PMID 25690850 .
- ^ Baruzzo G, Hayer KE, Kim EJ, Di Camillo B, FitzGerald GA, Grant GR (febrero de 2017). "Evaluación comparativa integral basada en simulación de alineadores de RNA-seq" . Métodos de la naturaleza . 14 (2): 135-139. doi : 10.1038 / nmeth.4106 . PMC 5792058 . PMID 27941783 .
- ^ Engström PG, Steijger T, Sipos B, Grant GR, Kahles A, Rätsch G, et al. (Diciembre 2013). "Evaluación sistemática de programas de alineación empalmados para datos de RNA-seq" . Métodos de la naturaleza . 10 (12): 1185–91. doi : 10.1038 / nmeth.2722 . PMC 4018468 . PMID 24185836 .
- ^ Lu B, Zeng Z, Shi T (febrero de 2013). "Estudio comparativo de ensamblaje de novo y estrategias de ensamblaje guiado por genoma para la reconstrucción del transcriptoma basado en RNA-Seq" . Science China Life Sciences . 56 (2): 143–55. doi : 10.1007 / s11427-013-4442-z . PMID 23393030 .
- ^ Bradnam KR, Fass JN, Alexandrov A, Baranay P, Bechner M, Birol I, et al. (Julio 2013). "Assemblathon 2: evaluación de métodos de novo de ensamblaje del genoma en tres especies de vertebrados" . GigaScience . 2 (1): 10. arXiv : 1301.5406 . Código bibliográfico : 2013arXiv1301.5406B . doi : 10.1186 / 2047-217X-2-10 . PMC 3844414 . PMID 23870653 .
- ^ Hölzer M, Marz M (mayo de 2019). "Ensamblaje de transcriptoma de novo: una comparación completa de especies cruzadas de ensambladores de RNA-Seq de lectura corta" . GigaScience . 8 (5). doi : 10.1093 / gigascience / giz039 . PMC 6511074 . PMID 31077315 .
- ^ Greenbaum D, Colangelo C, Williams K, Gerstein M (2003). "Comparación de la abundancia de proteínas y los niveles de expresión de ARNm a escala genómica" . Biología del genoma . 4 (9): 117. doi : 10.1186 / gb-2003-4-9-117 . PMC 193646 . PMID 12952525 .
- ^ Zhang ZH, Jhaveri DJ, Marshall VM, Bauer DC, Edson J, Narayanan RK, et al. (Agosto de 2014). "Un estudio comparativo de técnicas de análisis de expresión diferencial sobre datos de RNA-Seq" . PLOS ONE . 9 (8): e103207. Código bibliográfico : 2014PLoSO ... 9j3207Z . doi : 10.1371 / journal.pone.0103207 . PMC 4132098 . PMID 25119138 .
- ^ Anders S, Pyl PT, Huber W (enero de 2015). "HTSeq - un marco de Python para trabajar con datos de secuenciación de alto rendimiento" . Bioinformática . 31 (2): 166–9. doi : 10.1093 / bioinformatics / btu638 . PMC 4287950 . PMID 25260700 .
- ^ Liao Y, Smyth GK, Shi W (abril de 2014). "featureCounts: un programa eficiente de propósito general para asignar lecturas de secuencia a características genómicas". Bioinformática . 30 (7): 923–30. arXiv : 1305.3347 . doi : 10.1093 / bioinformatics / btt656 . PMID 24227677 .
- ^ Schmid MW, Grossniklaus U (febrero de 2015). "Rcount: recuento de lectura de RNA-Seq simple y flexible". Bioinformática . 31 (3): 436–7. doi : 10.1093 / bioinformatics / btu680 . PMID 25322836 .
- ^ Finotello F, Lavezzo E, Bianco L, Barzon L, Mazzon P, Fontana P, Toppo S, Di Camillo B (2014). "Reducir el sesgo en los datos de secuenciación de ARN: un enfoque novedoso para calcular los recuentos" . BMC Bioinformática . 15 (Supl. 1): S7. doi : 10.1186 / 1471-2105-15-s1-s7 . PMC 4016203 . PMID 24564404 .
- ^ Hashimoto TB, Edwards MD, Gifford DK (marzo de 2014). "Corrección de recuento universal para secuenciación de alto rendimiento" . PLOS Biología Computacional . 10 (3): e1003494. Código bibliográfico : 2014PLSCB..10E3494H . doi : 10.1371 / journal.pcbi.1003494 . PMC 3945112 . PMID 24603409 .
- ^ Patro R, Mount SM, Kingsford C (mayo de 2014). "Sailfish permite la cuantificación de isoformas sin alineación a partir de lecturas de RNA-seq utilizando algoritmos ligeros" . Biotecnología de la naturaleza . 32 (5): 462–4. arXiv : 1308.3700 . doi : 10.1038 / nbt.2862 . PMC 4077321 . PMID 24752080 .
- ^ Bray NL, Pimentel H, Melsted P, Pachter L (mayo de 2016). "Cuantificación probabilística casi óptima de RNA-seq". Biotecnología de la naturaleza . 34 (5): 525–7. doi : 10.1038 / nbt.3519 . PMID 27043002 . S2CID 205282743 .
- ^ a b Robinson MD, Oshlack A (2010). "Un método de normalización de escala para el análisis de expresión diferencial de datos de RNA-seq" . Biología del genoma . 11 (3): R25. doi : 10.1186 / gb-2010-11-3-r25 . PMC 2864565 . PMID 20196867 .
- ^ Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L (mayo de 2010). "El ensamblaje de transcripciones y la cuantificación por RNA-Seq revela transcripciones no anotadas y cambio de isoformas durante la diferenciación celular" . Biotecnología de la naturaleza . 28 (5): 511–5. doi : 10.1038 / nbt.1621 . PMC 3146043 . PMID 20436464 .
- ^ a b Pachter L (19 de abril de 2011). "Modelos para la cuantificación de la transcripción de RNA-Seq". arXiv : 1104,3889 [ q-bio.GN ].
- ^ "¿Qué es el FPKM? Una revisión de las unidades de expresión de RNA-Seq" . El farrago . 8 de mayo de 2014 . Consultado el 28 de marzo de 2018 .
- ^ Wagner GP, Kin K, Lynch VJ (diciembre de 2012). "Medición de la abundancia de ARNm usando datos de ARN-seq: la medida de RPKM es inconsistente entre las muestras". Teoría en biociencias = Theorie in den Biowissenschaften . 131 (4): 281–5. doi : 10.1007 / s12064-012-0162-3 . PMID 22872506 . S2CID 16752581 .
- ^ Evans C, Hardin J, Stoebel DM (septiembre de 2018). "Selección de métodos de normalización de RNA-Seq entre muestras desde la perspectiva de sus supuestos" . Sesiones informativas en bioinformática . 19 (5): 776–792. doi : 10.1093 / bib / bbx008 . PMC 6171491 . PMID 28334202 .
- ^ a b Law CW, Chen Y, Shi W, Smyth GK (febrero de 2014). "voom: pesos de precisión desbloquean herramientas de análisis de modelo lineal para recuentos de lectura de RNA-seq" . Biología del genoma . 15 (2): R29. doi : 10.1186 / gb-2014-15-2-r29 . PMC 4053721 . PMID 24485249 .
- ^ a b Anders S, Huber W (2010). "Análisis de expresión diferencial para datos de recuento de secuencias" . Biología del genoma . 11 (10): R106. doi : 10.1186 / gb-2010-11-10-r106 . PMC 3218662 . PMID 20979621 .
- ^ a b Robinson MD, McCarthy DJ, Smyth GK (enero de 2010). "edgeR: un paquete de bioconductores para el análisis de expresión diferencial de datos de expresión génica digital" . Bioinformática . 26 (1): 139–40. doi : 10.1093 / bioinformatics / btp616 . PMC 2796818 . PMID 19910308 .
- ^ Marguerat S, Schmidt A, Codlin S, Chen W, Aebersold R, Bähler J (octubre de 2012). "Análisis cuantitativo de transcriptomas y proteomas de levadura de fisión en células proliferantes y en reposo" . Celular . 151 (3): 671–83. doi : 10.1016 / j.cell.2012.09.019 . PMC 3482660 . PMID 23101633 .
- ^ Owens ND, Blitz IL, Lane MA, Patrushev I, Overton JD, Gilchrist MJ, Cho KW, Khokha MK (enero de 2016). "Medir números de copias de ARN absoluto en alta resolución temporal revela cinética del transcriptoma en desarrollo" . Informes de celda . 14 (3): 632–647. doi : 10.1016 / j.celrep.2015.12.050 . PMC 4731879 . PMID 26774488 .
- ^ Chen K, Hu Z, Xia Z, Zhao D, Li W, Tyler JK (diciembre de 2015). "El hecho pasado por alto: necesidad fundamental de control de picos para prácticamente todos los análisis de todo el genoma" . Biología Molecular y Celular . 36 (5): 662–7. doi : 10.1128 / MCB.00970-14 . PMC 4760223 . PMID 26711261 .
- ^ Lovén J, Orlando DA, Sigova AA, Lin CY, Rahl PB, Burge CB, et al. (Octubre 2012). "Revisando el análisis de expresión génica global" . Celular . 151 (3): 476–82. doi : 10.1016 / j.cell.2012.10.012 . PMC 3505597 . PMID 23101621 .
- ^ Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W, Smyth GK (abril de 2015). "Limma potencia análisis de expresión diferencial para estudios de secuenciación de ARN y microarrays" . Investigación de ácidos nucleicos . 43 (7): e47. doi : 10.1093 / nar / gkv007 . PMC 4402510 . PMID 25605792 .
- ^ "Bioconductor - Software de código abierto para bioinformática" .
- ^ Huber W, Carey VJ, Gentleman R, Anders S, Carlson M, Carvalho BS, et al. (Febrero de 2015). "Orquestando análisis genómico de alto rendimiento con Bioconductor" . Métodos de la naturaleza . 12 (2): 115–21. doi : 10.1038 / nmeth.3252 . PMC 4509590 . PMID 25633503 .
- ^ Leek JT, Storey JD (septiembre de 2007). "Captura de heterogeneidad en estudios de expresión génica mediante análisis de variables sustitutas" . PLOS Genetics . 3 (9): 1724–35. doi : 10.1371 / journal.pgen.0030161 . PMC 1994707 . PMID 17907809 .
- ^ Pimentel H, Bray NL, Puente S, Melsted P, Pachter L (julio de 2017). "Análisis diferencial de RNA-seq incorporando incertidumbre de cuantificación" . Métodos de la naturaleza . 14 (7): 687–690. doi : 10.1038 / nmeth.4324 . PMID 28581496 . S2CID 15063247 .
- ^ Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (enero de 2013). "Análisis diferencial de la regulación de genes en la resolución de la transcripción con RNA-seq" . Biotecnología de la naturaleza . 31 (1): 46–53. doi : 10.1038 / nbt.2450 . PMC 3869392 . PMID 23222703 .
- ^ Frazee AC, Pertea G, Jaffe AE, Langmead B, Salzberg SL, Leek JT (marzo de 2015). "Ballgown cierra la brecha entre el ensamblaje del transcriptoma y el análisis de expresión" . Biotecnología de la naturaleza . 33 (3): 243–6. doi : 10.1038 / nbt.3172 . PMC 4792117 . PMID 25748911 .
- ^ a b Sahraeian SM, Mohiyuddin M, Sebra R, Tilgner H, Afshar PT, Au KF, et al. (Julio de 2017). "Obtener una visión biológica integral del transcriptoma mediante la realización de un análisis de RNA-seq de amplio espectro" . Comunicaciones de la naturaleza . 8 (1): 59. Bibcode : 2017NatCo ... 8 ... 59S . doi : 10.1038 / s41467-017-00050-4 . PMC 5498581 . PMID 28680106 .
- ^ Ziemann M, Eren Y, El-Osta A (agosto de 2016). "Los errores de nombres de genes están muy extendidos en la literatura científica" . Biología del genoma . 17 (1): 177. doi : 10.1186 / s13059-016-1044-7 . PMC 4994289 . PMID 27552985 .
- ^ Soneson C, Delorenzi M (marzo de 2013). "Una comparación de métodos para el análisis de expresión diferencial de datos de RNA-seq" . BMC Bioinformática . 14 : 91. doi : 10.1186 / 1471-2105-14-91 . PMC 3608160 . PMID 23497356 .
- ^ Fonseca NA, Marioni J, Brazma A (30 de septiembre de 2014). "Generación de perfiles de genes RNA-Seq - una comparación empírica sistemática" . PLOS ONE . 9 (9): e107026. Código Bibliográfico : 2014PLoSO ... 9j7026F . doi : 10.1371 / journal.pone.0107026 . PMC 4182317 . PMID 25268973 .
- ^ Seyednasrollah F, Laiho A, Elo LL (enero de 2015). "Comparación de paquetes de software para la detección de expresión diferencial en estudios de RNA-seq" . Sesiones informativas en bioinformática . 16 (1): 59–70. doi : 10.1093 / bib / bbt086 . PMC 4293378 . PMID 24300110 .
- ^ Rapaport F, Khanin R, Liang Y, Pirun M, Krek A, Zumbo P, et al. (2013). "Evaluación integral de métodos de análisis de expresión génica diferencial para datos de RNA-seq" . Biología del genoma . 14 (9): R95. doi : 10.1186 / gb-2013-14-9-r95 . PMC 4054597 . PMID 24020486 .
- ^ Costa-Silva J, Domingues D, Lopes FM (21 de diciembre de 2017). "Análisis de expresión diferencial de RNA-Seq: una revisión ampliada y una herramienta de software" . PLOS ONE . 12 (12): e0190152. Código Bib : 2017PLoSO..1290152C . doi : 10.1371 / journal.pone.0190152 . PMC 5739479 . PMID 29267363 .
- ^ Liao Y, Wang J, Jaehnig EJ, Shi Z, Zhang B (julio de 2019). "WebGestalt 2019: conjunto de herramientas de análisis de conjuntos de genes con interfaces de usuario y API renovadas" . Investigación de ácidos nucleicos . 47 (W1): W199 – W205. doi : 10.1093 / nar / gkz401 . PMC 6602449 . PMID 31114916 .
- ^ a b Keren H, Lev-Maor G, Ast G (mayo de 2010). "Empalme alternativo y evolución: diversificación, definición y función del exón". Reseñas de la naturaleza. Genética . 11 (5): 345–55. doi : 10.1038 / nrg2776 . PMID 20376054 . S2CID 5184582 .
- ^ Liu R, Loraine AE, Dickerson JA (diciembre de 2014). "Comparaciones de métodos computacionales para la detección diferencial de empalme alternativo utilizando RNA-seq en sistemas de plantas" . BMC Bioinformática . 15 (1): 364. doi : 10.1186 / s12859-014-0364-4 . PMC 4271460 . PMID 25511303 .
- ^ a b Li YI, Knowles DA, Humphrey J, Barbeira AN, Dickinson SP, Im HK, Pritchard JK (enero de 2018). "Cuantificación libre de anotaciones de empalme de ARN usando LeafCutter" . Genética de la naturaleza . 50 (1): 151-158. doi : 10.1038 / s41588-017-0004-9 . PMC 5742080 . PMID 29229983 .
- ^ Anders S, Reyes A, Huber W (octubre de 2012). "Detección de uso diferencial de exones de datos de RNA-seq" . Investigación del genoma . 22 (10): 2008–17. doi : 10.1101 / gr.133744.111 . PMC 3460195 . PMID 22722343 .
- ^ Shen S, Park JW, Huang J, Dittmar KA, Lu ZX, Zhou Q, et al. (Abril de 2012). "MATS: un marco bayesiano para la detección flexible de empalme alternativo diferencial de datos de RNA-Seq" . Investigación de ácidos nucleicos . 40 (8): e61. doi : 10.1093 / nar / gkr1291 . PMC 3333886 . PMID 22266656 .
- ^ Wang X, Cairns MJ (junio de 2014). "SeqGSEA: un paquete de bioconductores para análisis de enriquecimiento de conjuntos de genes de datos de RNA-Seq que integran expresión diferencial y empalme" . Bioinformática . 30 (12): 1777–9. doi : 10.1093 / bioinformatics / btu090 . PMID 24535097 .
- ^ Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (enero de 2013). "Análisis diferencial de la regulación de genes en la resolución de la transcripción con RNA-seq" . Biotecnología de la naturaleza . 31 (1): 46–53. doi : 10.1038 / nbt.2450 . PMC 3869392 . PMID 23222703 .
- ^ Hu Y, Huang Y, Du Y, Orellana CF, Singh D, Johnson AR, et al. (Enero 2013). "DiffSplice: la detección de todo el genoma de eventos de empalme diferencial con RNA-seq" . Investigación de ácidos nucleicos . 41 (2): e39. doi : 10.1093 / nar / gks1026 . PMC 3553996 . PMID 23155066 .
- ^ Vaquero-Garcia J, Barrera A, Gazzara MR, González-Vallinas J, Lahens NF, Hogenesch JB, et al. (Febrero de 2016). "Una nueva visión de la complejidad y regulación del transcriptoma a través de la lente de las variaciones de empalme local" . eLife . 5 : e11752. doi : 10.7554 / eLife.11752 . PMC 4801060 . PMID 26829591 .
- ^ Merino GA, Conesa A, Fernández EA (marzo de 2019). "Una evaluación comparativa de los flujos de trabajo para detectar el empalme diferencial y la expresión diferencial a nivel de isoforma en estudios humanos de RNA-seq". Sesiones informativas en bioinformática . 20 (2): 471–481. doi : 10.1093 / bib / bbx122 . PMID 29040385 . S2CID 22706028 .
- ^ a b Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D (noviembre de 1999). "Un algoritmo combinado para la predicción de la función de la proteína en todo el genoma". Naturaleza . 402 (6757): 83–6. Código Bibliográfico : 1999Natur.402 ... 83M . doi : 10.1038 / 47048 . PMID 10573421 . S2CID 144447 .
- ^ a b Giorgi FM, Del Fabbro C, Licausi F (marzo de 2013). "Estudio comparativo de redes de coexpresión derivadas de RNA-seq- y microarrays en Arabidopsis thaliana" . Bioinformática . 29 (6): 717–24. doi : 10.1093 / bioinformatics / btt053 . PMID 23376351 .
- ^ Iancu OD, Kawane S, Bottomly D, Searles R, Hitzemann R, McWeeney S (junio de 2012). "Utilización de datos RNA-Seq para inferencia de red de coexpresión de novo" . Bioinformática . 28 (12): 1592–7. doi : 10.1093 / bioinformatics / bts245 . PMC 3493127 . PMID 22556371 .
- ^ Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (noviembre de 2013). "Funciones de diferenciación sistemática para isoformas empalmadas alternativamente mediante la integración de datos de RNA-seq" . PLOS Biología Computacional . 9 (11): e1003314. Código Bibliográfico : 2013PLSCB ... 9E3314E . doi : 10.1371 / journal.pcbi.1003314 . PMC 3820534 . PMID 24244129 .
- ^ Li HD, Menon R, Omenn GS, Guan Y (agosto de 2014). "La era emergente de la integración de datos genómicos para analizar la función de isoformas de empalme" . Tendencias en Genética . 30 (8): 340–7. doi : 10.1016 / j.tig.2014.05.005 . PMC 4112133 . PMID 24951248 .
- ^ Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, et al. (Marzo de 2017). "El análisis de la red de genes a gran escala revela la importancia de la vía de la matriz extracelular y los genes homeobox en la leucemia mieloide aguda: una introducción al paquete Pigengene y sus aplicaciones" . BMC Medical Genomics . 10 (1): 16. doi : 10.1186 / s12920-017-0253-6 . PMC 5353782 . PMID 28298217 .
- ^ Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. (Agosto de 2009). "El formato Sequence Alignment / Map y SAMtools" . Bioinformática . 25 (16): 2078–9. doi : 10.1093 / bioinformatics / btp352 . PMC 2723002 . PMID 19505943 .
- ^ DePristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C, et al. (Mayo de 2011). "Un marco para el descubrimiento de variaciones y el genotipado utilizando datos de secuenciación de ADN de próxima generación" . Genética de la naturaleza . 43 (5): 491–8. doi : 10.1038 / ng.806 . PMC 3083463 . PMID 21478889 .
- ^ Battle A, Brown CD, Engelhardt BE, Montgomery SB (octubre de 2017). "Efectos genéticos sobre la expresión génica en tejidos humanos" . Naturaleza . 550 (7675): 204–213. Código Bib : 2017Natur.550..204A . doi : 10.1038 / nature24277 . hdl : 10230/34202 . PMC 5776756 . PMID 29022597 .
- ^ Richter F, Hoffman GE, Manheimer KB, Patel N, Sharp AJ, McKean D y col. (Octubre de 2019). "ORE identifica efectos de expresión extremos enriquecidos para variantes raras" . Bioinformática . 35 (20): 3906–3912. doi : 10.1093 / bioinformatics / btz202 . PMC 6792115 . PMID 30903145 .
- ^ Freedman AH, Clamp M, Sackton TB (enero de 2021). "Error, ruido y sesgo en ensamblajes de transcriptoma de novo". Recursos de ecología molecular . 21 (1): 18-29. doi : 10.1111 / 1755-0998.13156 . PMID 32180366 .
- ^ Teixeira MR (diciembre de 2006). "Oncogenes de fusión recurrentes en carcinomas". Revisiones críticas en oncogénesis . 12 (3–4): 257–71. doi : 10.1615 / critrevoncog.v12.i3-4.40 . PMID 17425505 .
- ^ "Búsqueda en PubMed:" RNA Seq "O" RNA-Seq "O" Secuenciación de ARN "O" RNASeq " " . PubMed . Consultado el 20 de junio de 2021 .
- ^ "Búsqueda en PubMed: (" RNA Seq "O" RNA-Seq "O" RNA secuenciación "O" RNASeq ") Y" Medicina " " . PubMed . Consultado el 20 de junio de 2021 .
- ^ Weber AP (noviembre de 2015). "Descubrimiento de nueva biología a través de la secuenciación de ARN" . Fisiología vegetal . 169 (3): 1524–31. doi : 10.1104 / pp.15.01081 . PMC 4634082 . PMID 26353759 .
- ^ Bainbridge MN, Warren RL, Hirst M, Romanuik T, Zeng T, Go A, et al. (Septiembre de 2006). "Análisis del transcriptoma LNCaP de la línea celular de cáncer de próstata utilizando un enfoque de secuenciación por síntesis" . BMC Genomics . 7 : 246. doi : 10.1186 / 1471-2164-7-246 . PMC 1592491 . PMID 17010196 .
- ^ Cheung F, Haas BJ, Goldberg SM, May GD, Xiao Y, Town CD (octubre de 2006). "La secuenciación de Medicago truncatula expresó etiquetas secuenciadas usando tecnología 454 Life Sciences" . BMC Genomics . 7 : 272. doi : 10.1186 / 1471-2164-7-272 . PMC 1635983 . PMID 17062153 .
- ^ Emrich SJ, Barbazuk WB, Li L, Schnable PS (enero de 2007). "Anotación y descubrimiento de genes mediante secuenciación del transcriptoma LCM-454" . Investigación del genoma . 17 (1): 69–73. doi : 10.1101 / gr.5145806 . PMC 1716268 . PMID 17095711 .
- ^ Weber AP, Weber KL, Carr K, Wilkerson C, Ohlrogge JB (mayo de 2007). "Muestreo del transcriptoma de Arabidopsis con pirosecuenciación masivamente paralela" . Fisiología vegetal . 144 (1): 32–42. doi : 10.1104 / pp.107.096677 . PMC 1913805 . PMID 17351049 .
- ^ Nagalakshmi U, Wang Z, Waern K, Shou C, Raha D, Gerstein M, Snyder M (junio de 2008). "El paisaje transcripcional del genoma de la levadura definido por secuenciación de ARN" . Ciencia . 320 (5881): 1344–9. Código Bibliográfico : 2008Sci ... 320.1344N . doi : 10.1126 / science.1158441 . PMC 2951732 . PMID 18451266 .
- ^ Richter F (2021). "Una amplia introducción a RNA-Seq" . WikiJournal of Science . 4 (1): 4. doi : 10.15347 / WJS / 2021.004 .
- ^ Sandberg R (enero de 2014). "Entrando en la era de la transcriptómica unicelular en biología y medicina" . Métodos de la naturaleza . 11 (1): 22–4. doi : 10.1038 / nmeth.2764 . PMID 24524133 . S2CID 27632439 .
- ^ "ENCODE Data Matrix" . Consultado el 28 de julio de 2013 .
- ^ "El Atlas del genoma del cáncer - Portal de datos" . Consultado el 28 de julio de 2013 .
Otras lecturas
- Taguchi Y (2019). "Análisis comparativo de la transcriptómica". Enciclopedia de Bioinformática y Biología Computacional . págs. 814–818. doi : 10.1016 / B978-0-12-809633-8.20163-5 . ISBN 9780128114322.
enlaces externos
- Cresko B, Voelker R, Small C (2001). Bassham S, Catchen J (eds.). "RNA-seqlopedia" . Universidad de Oregon.: una guía de alto nivel para diseñar e implementar un experimento RNA-Seq.