La sustracción digital del transcriptoma ( DTS ) es un método bioinformático para detectar la presencia de nuevas transcripciones de patógenos mediante la eliminación computacional de las secuencias del hospedador. DTS es el análogo directo in silico del método de laboratorio húmedo Representational Difference Analysis (RDA) , y es posible gracias a la secuenciación imparcial de alto rendimiento y la disponibilidad de un genoma de referencia anotado de alta calidad del huésped. El método examina específicamente el agente etiológico de las enfermedades infecciosas y es más conocido por descubrir el polimavirus de células de Merkel , el agente causal sospechoso en el carcinoma de células de Merkel.. [1]
Historia
El uso de la resta computacional para descubrir nuevos patógenos fue propuesto por primera vez en 2002 por Meyerson et al. [2] utilizando conjuntos de datos de etiquetas de secuencia expresadas en humanos (EST) . En un experimento de prueba de principio , Meyerson et al. demostró que era un enfoque viable utilizando linfocitos infectados por el virus de Epstein-Barr en el trastorno linfoproliferativo postrasplante (PTLD) . [3]
En 2007, el término "Sustracción del transcriptoma digital" fue acuñado por el grupo de Chang - Moore [4] y se utilizó para descubrir el polimavirus de células de Merkel en el carcinoma de células de Merkel . [1]
Simultáneamente al descubrimiento de MCV, este enfoque se utilizó para implicar a un nuevo arenavirus como causa de muerte en un caso en el que tres pacientes murieron de enfermedades similares poco después de trasplantes de órganos de un solo donante. [5]
Método
Construcción de biblioteca de ADNc
Después del tratamiento con DNasa I para eliminar el ADN genómico humano, se extrae el ARN total del tejido infectado primario. Luego, el ARN mensajero se purifica utilizando una columna de oligo-dT que se une a la cola poli-A , una señal que se encuentra específicamente en los genes transcritos. Utilizando el cebado de hexámeros aleatorios, la transcriptasa inversa (RT) convierte todo el ARNm en ADNc y se clona en vectores bacterianos. Las bacterias, normalmente E. coli , se transforman luego usando los vectores de ADNc y se seleccionan usando un marcador, la colección de clones transformados es la biblioteca de ADNc. Esto genera una instantánea de ARNm de tejido que es estable y se puede secuenciar en una etapa posterior.
Secuenciación y control de calidad
La biblioteca de ADNc debe secuenciarse a gran profundidad (es decir, número de clones secuenciados) para detectar una secuencia de patógeno rara teórica (Tabla 1), especialmente si la secuencia extraña es nueva. Chang-Moore recomienda una profundidad de secuenciación de 200.000 transcripciones o más utilizando múltiples plataformas de secuenciación. [1]
% Viral | 5,000 clones | 10,000 clones | 20.000 clones | 50.000 clones |
---|---|---|---|---|
0,001% | 4,9% | 9,5% | 18,1% | 39,3% |
0,01% | 39,3% | 32,2% | 86,5% | 99,3% |
0,02% | 63,2% | 86,5% | 98,2% | > 99,995% |
0,03% | 77,7% | 95,5% | 99,8% | > 99,995% |
0,04% | 86,5% | 98,2% | > 99,995% | > 99,995% |
0,1% | 99,3% | > 99,995% | > 99,995% | > 99,995% |
Luego se aplica un estricto control de calidad a las secuencias sin procesar para minimizar los resultados falsos positivos. La pantalla de calidad inicial utiliza varios parámetros generales para excluir secuencias ambiguas, dejando atrás un conjunto de datos de lecturas de alta fidelidad (Hi-Fi).
- El corte de puntuación de Phred bajo se utiliza para eliminar las secuencias finales de baja calidad. Por lo general, se utiliza un límite de puntuación Phred de 20 o 30 para garantizar una precisión del 99% al 99,9% en cada llamada de base.
- Eliminación de vectores y adaptadores.
- Baja complejidad: la puntuación de complejidad de una secuencia refleja el número de bases idénticas en una serie (homopolímeros) como poli-dT o poli-dA.
- ADN humano repetitivo .
- Longitud: el parámetro depende de la longitud de lectura optimizada específica de la tecnología de secuenciación que se utilizó.
- BLAST y excluye las secuencias del genoma de E. coli .
BLAST para hospedar el genoma
Usando MEGABLAST, las lecturas de alta fidelidad se comparan con las secuencias en las bases de datos anotadas y las coincidencias positivas se restan del conjunto de datos. La longitud mínima de acierto para una coincidencia positiva de la secuencia humana es típicamente de 30 bases idénticas consecutivas, lo que equivale a una puntuación BLAST de 60; generalmente, la secuencia restante es BLAST de nuevo con parámetros menos estrictos para permitir ligeros desajustes (1 en 20 nucleótidos). La gran mayoría de secuencias (> 99%) deben eliminarse del conjunto de datos en esta etapa.
Las secuencias restadas generalmente incluyen:
- Transcriptoma humano de referencia : elimina cualquier transcripción humana conocida de los conjuntos de bibliotecas de expresión.
- Genoma humano de referencia : elimina los genes que se han perdido en el proceso de anotación y cualquier secuencia genómica contaminante durante la construcción de la biblioteca de ADNc.
- ADN mitocondrial: el ADN mitocondrial es muy abundante y polimórfico debido a la rápida tasa de mutación.
- Región de inmunoglobulina: los loci de inmunoglobulina son muy polimórficos y, de lo contrario, darían falsos positivos debido a una mala alineación con el genoma de referencia.
- Otras secuencias de vertebrados
- Secuencias no anotadas
Análisis de candidatos "no anfitriones"
Alineación con las bases de datos de patógenos
Después de rondas rigurosas de sustracción, las secuencias restantes se agrupan en contigs no redundantes y se alinean con secuencias de patógenos conocidas utilizando parámetros de bajo rigor. Como los genomas del patógeno muta rápidamente, las alineaciones nucleótido-nucleótido, o blastn , generalmente no son informativas, ya que es posible tener mutaciones en ciertas bases sin cambiar el residuo de aminoácido debido a la degeneración del codón . Hacer coincidir las secuencias de proteínas traducidas in silico de los 6 marcos de lectura abiertos con la secuencia de aminoácidos con las proteínas anotadas, o blastx , es el método de alineación preferido, ya que aumenta la probabilidad de identificar un nuevo patógeno al hacer coincidir una cepa / especie relacionada. [5] La extensión experimental de secuencias candidatas también podría usarse en esta etapa para maximizar las posibilidades de una coincidencia positiva. [6]
Montaje de novo
En los casos en los que la alineación con los patógenos conocidos no es informativa o es ambigua, se pueden usar contig de la secuencia candidata como plantillas para el paso del cebador en el tejido infectado primario para generar la secuencia completa del genoma del patógeno. [1] [5] Dado que las transcripciones virales son ARNm de tejido de proporción extremadamente rara (10 transcripciones en 1 millón), [1] es poco probable que se genere un transcriptoma basado únicamente en las secuencias candidatas originales debido a la baja cobertura .
Validación de patógeno
Una vez que se ha identificado un patógeno putativo en los datos de secuenciación de alto rendimiento, es imperativo validar la presencia de patógeno en pacientes infectados utilizando técnicas más sensibles, como:
- RT-PCR y métodos derivados, incluyendo 3'- y 5'- RACE para confirmar la existencia de ARNm del patógeno.
- Inmunohistoquímica utilizando anticuerpos contra patógenos relacionados para determinar la existencia del patógeno en tejidos.
- Pruebas serológicas para medir el título de anticuerpos específicos de patógenos .
- Cultivo bacteriano / cultivo viral , que se considera el estándar de oro en el diagnóstico de laboratorio.
Aplicaciones
La aplicación principal de DTS radica en la identificación de virus patógenos en el cáncer. [1] [4] También se puede utilizar para identificar patógenos virales en enfermedades no relacionadas con el cáncer. [5] Las aplicaciones clínicas futuras podrían incluir el uso de DTS de forma rutinaria en individuos. DTS también podría aplicarse a la agricultura , identificando patógenos que tienen un efecto en la producción. La resta computacional ya se utilizó en un estudio de metagenómica que asoció la infección viral por IAPV con el trastorno de colapso de colonias en abejas melíferas . [7]
Ventajas
- No requiere conocimientos previos sobre la secuencia de patógenos. [8]
- Puede identificar patógenos previamente no asociados y potencialmente tratables.
- Utiliza métodos y recursos moleculares ya disponibles.
Desventajas
- Identifica la presencia de patógenos pero no establece un vínculo causal con la enfermedad. [8] Véase el postulado de Koch y los criterios de Bradford-Hill .
- Debe tener un transcriptoma de referencia completo y altamente confiable para el organismo que se está estudiando. [8]
- La falta de identificación de la secuencia extraña no puede excluir por completo un cuerpo extraño patógeno. [8]
Referencias
- ^ a b c d e f Feng H, Shuda M, Chang Y, Moore PS (enero de 2008). "Integración clonal de un poliomavirus en el carcinoma de células de Merkel humano" . Ciencia . 5866. 319 (5866): 1096-1100. Código Bibliográfico : 2008Sci ... 319.1096F . doi : 10.1126 / science.1152586 . PMC 2740911 . PMID 18202256 .
- ^ a b Weber G, Shendure J, Tanenbaum DM, Church GM, Meyerson M (febrero de 2002). "Identificación de secuencias de genes extraños mediante filtrado de transcripciones contra el genoma humano". Nat Genet . 2. 30 (2): 141-142. doi : 10.1038 / ng818 . PMID 11788827 . S2CID 21842679 .
- ^ a b Xu Y, Stange-Thomann N, Weber G, Bo R, Dodge S, David RG, Foley K, Beheshti J, Harris NL, Birren B, Lander ES, Meyerson M (marzo de 2003). "Descubrimiento de patógenos de tejido humano por sustracción computacional basada en secuencia". Genómica . 3. 81 (3): 329–335. doi : 10.1016 / S0888-7543 (02) 00043-5 . PMID 12659816 .
- ^ a b Feng H, Taylor JL, Benos PV, Newton R, Waddell K, Lucas SB, Chang Y, Moore PS (agosto de 2007). "Resta del transcriptoma humano mediante el uso de etiquetas de secuencia corta para buscar virus tumorales en el carcinoma conjuntival" . J Virol . 20. 81 (20): 11332-11340. doi : 10.1128 / JVI.00875-07 . PMC 2045575 . PMID 17686852 .
- ^ a b c d Palacios G, Druce J, Du L, Tran T, Birch C, Briese T, Conlan S, Quan PL, Hui J, Marshall J, Simons JF, Egholm M, Paddock CD, Shieh WJ, Goldsmith CS, Zaki SR, Catton M , Lipkin WI (marzo de 2008). "Un nuevo arenavirus en un grupo de enfermedades asociadas a trasplantes mortales". N Engl J Med . 10. 358 (10): 991–998. CiteSeerX 10.1.1.453.2859 . doi : 10.1056 / NEJMoa073785 . PMID 18256387 .
- ^ Chang Y, Moore PS. "Descubrimiento de nuevos patógenos: sustracción de transcriptomas digitales" . Archivado desde el original el 25 de enero de 2010 . Consultado el 1 de marzo de 2012 .
- ^ Cox-Foster DL, Conlan S, Holmes EC, Palacios G, Evans JD, Moran NA, Quan PL, Briese T, Hornig M, Geiser DM, Martinson V, vanEngelsdorp D, Kalkstein AL, Drysdale A, Hui J, Zhai J, Cui L, Hutchison SK, Simons JF, Egholm M, Pettis JS, Lipkin WI (octubre de 2007). "Un estudio metagenómico de microbios en el trastorno de colapso de la colonia de abejas". Ciencia . 5848. 318 (5848): 283–287. Código Bibliográfico : 2007Sci ... 318..283C . doi : 10.1126 / science.1146498 . PMID 17823314 . S2CID 14013425 .
- ^ a b c d MacConaill L, Meyerson M (abril de 2008). "Adición de patógenos por sustracción genómica". Nat Genet . 4. 40 (4): 380–382. doi : 10.1038 / ng0408-380 . PMID 18368124 .