El ensamblaje de novo del transcriptoma es elmétodo de ensamblaje de la secuencia de novo para crear un transcriptoma sin la ayuda de un genoma de referencia .
Introducción
Como resultado del desarrollo de nuevas tecnologías de secuenciación, los años comprendidos entre 2008 y 2012 vieron una gran caída en el costo de la secuenciación. Por megabase y genoma, el costo se redujo a 1 / 100.000 y 1 / 10.000 del precio, respectivamente. [1] Antes de esto, solo se secuenciaron transcriptomas de organismos que eran de amplio interés y utilidad para la investigación científica; sin embargo, estas tecnologías de secuenciación de alto rendimiento (también llamadas secuenciación de próxima generación) desarrolladas en la década de 2010 son rentables y rentables, y la gama de organismos estudiados a través de estos métodos se está expandiendo. [2] Posteriormente se crearon transcriptomas para garbanzos , [3] planarias , [4] Parhyale hawaiensis , [5] así como los cerebros del cocodrilo del Nilo , la serpiente de maíz , el dragón barbudo y el deslizador de orejas rojas , por nombrar unos cuantos. [6]
El examen de organismos no modelo puede proporcionar nuevos conocimientos sobre los mecanismos subyacentes a la "diversidad de fascinantes innovaciones morfológicas" que han permitido la abundancia de vida en el planeta Tierra. [7] En animales y plantas, las "innovaciones" que no pueden examinarse en organismos modelo comunes incluyen el mimetismo , el mutualismo , el parasitismo y la reproducción asexual . El ensamblaje de transcriptoma de novo es a menudo el método preferido para estudiar organismos no modelo, ya que es más barato y más fácil que construir un genoma, y los métodos basados en referencias no son posibles sin un genoma existente. Los transcriptomas de estos organismos pueden revelar proteínas novedosas y sus isoformas que están implicadas en fenómenos biológicos tan singulares.
Ensamblaje de novo versus ensamblado basado en referencias
Un conjunto de transcripciones ensambladas permite estudios iniciales de expresión génica. Antes del desarrollo de los programas informáticos de ensamblaje del transcriptoma, los datos del transcriptoma se analizaron principalmente mediante el mapeo de un genoma de referencia. Aunque la alineación del genoma es una forma sólida de caracterizar las secuencias de transcripción, este método tiene la desventaja de su incapacidad para tener en cuenta los incidentes de alteraciones estructurales de las transcripciones de ARNm, como el empalme alternativo . [8] Dado que un genoma contiene la suma de todos los intrones y exones que pueden estar presentes en una transcripción, las variantes empalmadas que no se alinean continuamente a lo largo del genoma pueden descartarse como isoformas proteicas reales. Incluso si se dispone de un genoma de referencia, se debe realizar un ensamblaje de novo , ya que puede recuperar transcripciones que se transcriben a partir de segmentos del genoma que faltan en el ensamblaje del genoma de referencia. [9]
Transcriptoma versus ensamblaje del genoma
A diferencia de los niveles de cobertura de la secuencia del genoma, que pueden variar aleatoriamente como resultado del contenido repetido en las regiones intrónicas no codificantes del ADN, los niveles de cobertura de la secuencia del transcriptoma pueden ser directamente indicativos de los niveles de expresión génica. Estas secuencias repetidas también crean ambigüedades en la formación de contigs en el ensamblaje del genoma, mientras que las ambigüedades en los contigs del ensamblaje del transcriptoma generalmente corresponden a isoformas empalmadas o variaciones menores entre los miembros de una familia de genes. [8] El ensamblador del genoma no se puede usar directamente en el ensamblaje del transcriptoma por varias razones. En primer lugar, la profundidad de secuenciación del genoma suele ser la misma en todo el genoma, pero la profundidad de las transcripciones puede variar. En segundo lugar, ambas cadenas siempre se secuencian en la secuenciación del genoma, pero la secuencia de ARN puede ser específica de la cadena. En tercer lugar, el ensamblaje del transcriptoma es más desafiante porque las variantes de la transcripción del mismo gen pueden compartir exones y son difíciles de resolver sin ambigüedades. [9]
Método
Secuencia de ARN
Una vez que el ARN se extrae y se purifica de las células, se envía a una instalación de secuenciación de alto rendimiento, donde primero se transcribe de forma inversa para crear una biblioteca de ADNc. Este ADNc puede luego fragmentarse en varias longitudes dependiendo de la plataforma utilizada para la secuenciación. Cada una de las siguientes plataformas utiliza un tipo diferente de tecnología para secuenciar millones de lecturas cortas: 454 Sequencing , Illumina y SOLiD .
Algoritmos de ensamblaje
Las lecturas de la secuencia de ADNc se ensamblan en transcripciones mediante un programa de ensamblaje de transcripciones de lectura corta. Lo más probable es que algunas variaciones de aminoácidos entre transcripciones que por lo demás son similares reflejen diferentes isoformas de proteínas. También es posible que representen genes diferentes dentro de la misma familia de genes, o incluso genes que comparten solo un dominio conservado, dependiendo del grado de variación.
Hay varios programas de ensamblaje disponibles (consulte Ensambladores ). Aunque estos programas han tenido éxito en general en el ensamblaje de genomas, el ensamblaje de transcriptomas presenta algunos desafíos únicos. Mientras que una alta cobertura de secuencia para un genoma puede indicar la presencia de secuencias repetitivas (y por lo tanto estar enmascaradas), para un transcriptoma, pueden indicar abundancia. Además, a diferencia de la secuenciación del genoma, la secuenciación del transcriptoma puede ser específica de cadena, debido a la posibilidad de transcripciones tanto con sentido como sin sentido . Finalmente, puede ser difícil reconstruir y separar todas las isoformas de empalme. [9]
Los ensambladores de lectura corta generalmente usan uno de dos algoritmos básicos: gráficos superpuestos y gráficos de Bruijn. [10] Los gráficos de superposición se utilizan para la mayoría de los ensambladores diseñados para lecturas secuenciadas de Sanger . Las superposiciones entre cada par de lecturas se calculan y compilan en un gráfico, en el que cada nodo representa una única secuencia de lectura. Este algoritmo es más intensivo desde el punto de vista computacional que los gráficos de Bruijn y es más efectivo para ensamblar menos lecturas con un alto grado de superposición. [10] Los gráficos de De Bruijn alinean k-mers (generalmente 25-50 pb) basados en la conservación de la secuencia k-1 para crear contigs. Los k-mers son más cortos que las longitudes de lectura, lo que permite un hash rápido, por lo que las operaciones en los gráficos de Bruijn son generalmente menos intensivas desde el punto de vista informático. [10]
Anotación funcional
La anotación funcional de las transcripciones ensambladas permite conocer las funciones moleculares particulares, los componentes celulares y los procesos biológicos en los que están involucradas las proteínas putativas. Blast2GO (B2G) permite la minería de datos basada en Gene Ontology para anotar datos de secuencia para los que aún no hay una anotación GO disponible. Es una herramienta de investigación empleada a menudo en la investigación de genómica funcional en especies no modelo. [11] Funciona mediante la explosión de contigs ensamblados contra una base de datos de proteínas no redundante (en NCBI), y luego anotándolos en función de la similitud de secuencia. GOanna es otro programa de anotaciones de GO específico para productos genéticos de plantas agrícolas y animales que funciona de manera similar. Es parte de la base de datos AgBase de un conjunto de herramientas computacionales seleccionadas y de acceso público para la anotación y el análisis de GO. [12] Tras la anotación, KEGG (Enciclopedia de genes y genomas de Kyoto) permite la visualización de las vías metabólicas y las redes de interacción molecular capturadas en el transcriptoma. [13]
Además de estar anotados para los términos GO, los contigs también se pueden cribar en busca de marcos de lectura abiertos (ORF) con el fin de predecir la secuencia de aminoácidos de las proteínas derivadas de estas transcripciones. Otro enfoque es anotar dominios de proteínas y determinar la presencia de familias de genes, en lugar de genes específicos.
Verificación y control de calidad
Dado que rara vez se dispone de un genoma de referencia bien resuelto, la calidad de los contigs ensamblados por computadora se puede verificar comparando las secuencias ensambladas con las lecturas utilizadas para generarlas (sin referencia) o alineando las secuencias de los dominios de genes conservados encontrados en transcripciones de ARNm a transcriptomas o genomas de especies estrechamente relacionadas (basadas en referencias). Herramientas como Transrate [14] y DETONATE [15] permiten el análisis estadístico de la calidad del ensamblaje mediante estos métodos. Otro método consiste en diseñar cebadores de PCR para las transcripciones previstas y luego intentar amplificarlas a partir de la biblioteca de ADNc. A menudo, las lecturas excepcionalmente breves se filtran. Es poco probable que las secuencias cortas (<40 aminoácidos) representen proteínas funcionales, ya que no pueden plegarse de forma independiente y formar núcleos hidrófobos. [dieciséis]
Como complemento de estas métricas, una evaluación cuantitativa del contenido genético puede proporcionar información adicional sobre la calidad del ensamblaje. Para realizar este paso, se pueden utilizar herramientas que modelen el espacio genético esperado basado en genes conservados, como BUSCO, [17] . En el caso de eucariotas, también se puede utilizar CEGMA [18] , aunque oficialmente ya no se admite desde 2015. [19]
Ensambladores
El siguiente es un compendio parcial de software de ensamblaje que se ha utilizado para generar transcriptomas y también se ha citado en la literatura científica.
SeqMan NGen
SeqMan NGen, parte del proceso de software de DNASTAR , incluye un ensamblador de transcriptomas de novo para conjuntos de datos de transcriptomas grandes o pequeños. SeqMan NGen utiliza un algoritmo patentado que utiliza RefSeq para identificar y fusionar transcripciones, y anota automáticamente las transcripciones ensambladas utilizando la herramienta de anotación de transcripciones patentada de DNASTAR para identificar y resaltar genes nuevos y conocidos. [20]
SOAPdenovo-Trans
SOAPdenovo-Trans es un ensamblador de transcriptoma de novo heredado del marco SOAPdenovo2, diseñado para ensamblar transcriptoma con empalme alternativo y diferente nivel de expresión. El ensamblador proporciona una forma más completa de construir los conjuntos de transcripciones completas en comparación con SOAPdenovo2.
Terciopelo / Oasis
El algoritmo Velvet utiliza gráficos de Bruijn para ensamblar transcripciones. En simulaciones, Velvet puede producir contigs de hasta 50 kb N50 de longitud utilizando datos procarióticos y 3 kb N50 en cromosomas artificiales bacterianos (BAC) de mamíferos . [21] Estas transcripciones preliminares se transfieren a Oasis , que utiliza información de lectura larga y de lectura final emparejada para construir isoformas de transcripción. [22]
Trans-ABySS
ABySS es un ensamblador de secuencia de extremos emparejados en paralelo. Trans-ABySS (Assembly By Short Sequences) es una tubería de software escrita en Python y Perl para analizar contigs de transcriptomas ensamblados con ABySS. Esta canalización se puede aplicar a ensamblajes generados en una amplia gama de valores de k. Primero reduce el conjunto de datos en conjuntos más pequeños de contigs no redundantes e identifica eventos de empalme que incluyen omisión de exón, exones nuevos, intrones retenidos, intrones nuevos y empalmes alternativos. Los algoritmos Trans-ABySS también pueden estimar los niveles de expresión génica, identificar sitios potenciales de poliadenilación , así como eventos de fusión de genes candidatos. [23]
Trinidad
Trinity [24] primero divide los datos de la secuencia en varios gráficos de De Bruijn , cada uno de los cuales representa variaciones transcripcionales en un solo gen o locus. Luego extrae isoformas de empalme de longitud completa y distingue las transcripciones derivadas de genes parálogos de cada gráfico por separado. Trinity consta de tres módulos de software independientes, que se utilizan secuencialmente para producir transcripciones:
- Inchworm reúne los datos de RNA-Seq en secuencias de transcripción, a menudo generando transcripciones de longitud completa para una isoforma dominante, pero luego informa solo las porciones únicas de transcripciones empalmadas alternativamente.
- Chrysalis agrupa los contigs de Inchworm y construye gráficos de Bruijn completos para cada grupo. Cada grupo representa la complejidad transcripcional completa de un gen determinado (o una familia o conjunto de genes que comparten una secuencia conservada). Chrysalis luego divide el conjunto de lectura completo entre estos gráficos separados.
- Luego, Butterfly procesa los gráficos individuales en paralelo, trazando las rutas de las lecturas dentro del gráfico y, en última instancia, informa las transcripciones completas de isoformas empalmadas alternativamente y separa las transcripciones que corresponden a genes parálogos. [25]
Ver también
- Transcriptoma
- Transcriptómica
- Base de datos de transcriptomas humanos para empalmes alternativos (H-DBAS)
- UniGene
- Parásitos completos
- Secuenciación del exoma
Referencias
- ^ Wettersrand, KA. "El costo de secuenciar un genoma humano" . Genome.gov . Consultado el 6 de mayo de 2021 .
- ^ Surget-Groba Y, Montoya-Burgos JI (2010). "Optimización del ensamblaje del transcriptoma de novo a partir de datos de secuenciación de próxima generación" . Genome Res . 20 (10): 1432–1440. doi : 10.1101 / gr.103846.109 . PMC 2945192 . PMID 20693479 .
- ^ Garg R, Patel RK, Tyagi AK, Jain M (2011). "Ensamblaje de novo del transcriptoma de garbanzo utilizando lecturas cortas para el descubrimiento de genes y la identificación de marcadores" . DNA Res . 18 (1): 53–63. doi : 10.1093 / dnares / dsq028 . PMC 3041503 . PMID 21217129 .
- ^ Adamidi C; et al. (2011). "Montaje de novo y validación del transcriptoma de planaria por secuenciación paralela masiva y proteómica de escopeta" . Genome Res . 21 (7): 1193-1200. doi : 10.1101 / gr.113779.110 . PMC 3129261 . PMID 21536722 .
- ^ Zeng V; et al. (2011). "Montaje de novo y caracterización de un transcriptoma materno y de desarrollo para el crustáceo modelo emergente Parhyale hawaiensis" . BMC Genomics . 12 : 581. doi : 10.1186 / 1471-2164-12-581 . PMC 3282834 . PMID 22118449 .
- ^ Tzika AC; et al. (2011). "Transcriptoma reptil v1.0, un vistazo en el transcriptoma cerebral de cinco linajes divergentes de Sauropsida y la posición filogenética de las tortugas" (PDF) . EvoDevo . 2 (1): 19. doi : 10.1186 / 2041-9139-2-19 . PMC 3192992 . PMID 21943375 .
- ^ Rowan BA, Weigel D, Koenig D (2011). "Genética del desarrollo y nuevas tecnologías de secuenciación: el surgimiento de organismos no modelo" . Célula de desarrollo . 21 (1): 65–76. doi : 10.1016 / j.devcel.2011.05.021 . PMID 21763609 .
- ^ a b Birol I; et al. (2009). "Ensamblaje de transcriptoma de novo con ABySS" . Bioinformática . 25 (21): 2872–7. doi : 10.1093 / bioinformatics / btp367 . PMID 19528083 .
- ^ a b c Martin, Jeffrey A .; Wang, Zhong (2011). "Ensamblaje de transcriptomas de próxima generación" . Nature Reviews Genética . 12 (10): 671–682. doi : 10.1038 / nrg3068 . PMID 21897427 . S2CID 3447321 .
- ^ a b c Illumina, Inc. (2010). "Montaje de Novo con Illumina Reads" (PDF) .
- ^ Conesa A; et al. (2005). "Blast2GO: una herramienta universal para la anotación, visualización y análisis en la investigación de la genómica funcional" . Bioinformática . 21 (18): 3674–3676. doi : 10.1093 / bioinformática / bti610 . PMID 16081474 .
- ^ McCarthy FM; et al. (2006). "AgBase: un recurso genómico funcional para la agricultura" . BMC Genomics . 7 : 229. doi : 10.1186 / 1471-2164-7-229 . PMC 1618847 . PMID 16961921 .
- ^ "Base de datos de KEGG PATHWAY" .
- ^ Transrate: comprenda su ensamblaje de transcriptoma. http://hibberdlab.com/transrate
- ^ Li B; et al. (2014). "Evaluación de ensamblajes de transcriptoma de novo a partir de datos de RNA-Seq" . Biología del genoma . 15 (12): 553. doi : 10.1186 / s13059-014-0553-5 . PMC 4298084 . PMID 25608678 .
- ^ Karplus, K. pdb-1: Longitud mínima de la secuencia de proteínas. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html .
- ^ Seppey, Mathieu; Manni, Mosè; Zdobnov, Evgeny M. (2019), Kollmar, Martin (ed.), "Busco: La evaluación de la Asamblea y anotación de genomas Integridad" , la predicción de genes , Nueva York, Nueva York: Springer New York, 1962 , pp 227-245,. Doi : 10.1007 / 978-1-4939-9173-0_14 , ISBN 978-1-4939-9172-3, PMID 31020564 , consultado el 24 de abril de 2021
- ^ Parra, G .; Bradnam, K .; Korf, I. (1 de mayo de 2007). "CEGMA: una tubería para anotar con precisión genes centrales en genomas eucariotas" . Bioinformática . 23 (9): 1061–1067. doi : 10.1093 / bioinformatics / btm071 . ISSN 1367-4803 . PMID 17332020 .
- ^ "CEGMA" . korflab.ucdavis.edu . Consultado el 24 de abril de 2021 .
- ^ "DNASTAR" .
- ^ Zerbino DR, Birney E (2008). "Velvet: Algoritmos para ensamblaje de lectura corta de novo usando gráficos de Bruijn" . Genome Res . 18 (5): 821–829. doi : 10.1101 / gr.074492.107 . PMC 2336801 . PMID 18349386 .
- ^ "Oasis: ensamblador de transcriptoma de novo para lecturas muy cortas" .
- ^ "Trans-ABySS: analizar datos del transcriptoma de escopeta ensamblada de ABySS multi-k" .
- ^ "Trinidad" . 2018-11-24.
- ^ "Trinity RNA-Seq Assembly - software para la reconstrucción de transcripciones completas e isoformas empalmadas alternativamente" . Archivado desde el original el 12 de julio de 2011.