La secuenciación dúplex es un método de análisis y preparación de bibliotecas para plataformas de secuenciación de próxima generación (NGS) que emplea el etiquetado aleatorio de ADN de doble hebra para detectar mutaciones con mayor precisión y menores tasas de error.
Este método utiliza etiquetas moleculares degeneradas además de adaptadores de secuenciación para reconocer las lecturas que se originan en cada hebra de ADN. A continuación, las lecturas de secuenciación generadas se analizarán utilizando dos métodos: ensamblaje de secuencias consenso monocatenarias (SSCS) y secuencias consenso dúplex (DCS). La secuenciación dúplex teóricamente puede detectar mutaciones con frecuencias tan bajas como 5 x 10 −8, que es más de 10,000 veces mayor en precisión en comparación con los métodos de secuenciación convencionales de próxima generación. [1] [2]
La tasa de error estimada de las plataformas de secuenciación estándar de próxima generación es de 10 -2 a 10-3 por llamada base. Con esta tasa de error, miles de millones de llamadas base producidas por NGS darán como resultado millones de errores. Los errores se introducen durante la preparación y secuenciación de la muestra, como la reacción en cadena de la polimerasa , la secuenciación y los errores de análisis de imágenes. Si bien la tasa de error de las plataformas NGS es aceptable en algunas aplicaciones, como la detección de variantes clonales , es una limitación importante para las aplicaciones que requieren una mayor precisión para la detección de variantes de baja frecuencia, como la detección de mosaicismo intraorganismal , variantes subclonales en genéticamente. cánceres heterogéneos o ADN tumoral circulante. [3] [4] [5]
Se han desarrollado varias estrategias de preparación de bibliotecas que aumentan la precisión de las plataformas NGS, como el código de barras molecular y el método de secuenciación de consenso circular. [6] [7] [8] [9] Al igual que las plataformas NGS, los datos generados por estos métodos se originan en una sola hebra de ADN y, por lo tanto, los errores que se introducen durante la amplificación por PCR , el procesamiento de tejidos , la extracción de ADN , la captura de hibridación ( cuando se usa) o la secuenciación del ADN en sí misma todavía se puede distinguir como una verdadera variante. El método de secuenciación dúplex aborda este problema aprovechando la naturaleza complementaria de dos cadenas de ADN y confirmando solo las variantes que están presentes en ambas cadenas de ADN. Debido a que la probabilidad de que surjan dos errores complementarios en la misma ubicación en ambas cadenas es extremadamente baja, la secuenciación dúplex aumenta significativamente la precisión de la secuenciación. [1] [6] [8] [10]
Flujo de trabajo experimental
Los adaptadores etiquetados de secuenciación dúplex se pueden utilizar en combinación con la mayoría de los adaptadores NGS. En la sección de figuras y flujo de trabajo de este artículo, los adaptadores de secuenciación de Illumina se utilizan como ejemplo siguiendo el protocolo original publicado. [1] [2]
Recocido adaptador
Se utilizan dos oligonucleótidos para este paso (Figura 1: Oligonucleótidos adaptadores). Uno de los oligonucleótidos contiene una secuencia de etiqueta aleatoria monocatenaria de 12 nucleótidos seguida de una secuencia de nucleótidos 5 'fija (secuencia negra en la Figura 1). En este paso, los oligonucleótidos se hibridan en una región complementaria mediante incubación en la condición temporal requerida. [1] [2]
Síntesis de adaptadores
Los adaptadores que se aparearon con éxito se extienden y sintetizan mediante una ADN polimerasa para completar un adaptador de doble hebra que contiene etiquetas complementarias (Figura 1). [1] [2]
3'-dT-colas
Los adaptadores de doble hebra extendidos son escindidos por HpyCH4III en un sitio de restricción específico ubicado en el lado 3 'de la secuencia de la etiqueta y darán como resultado un saliente 3'-dT que se ligará al saliente 3'-dA en bibliotecas de ADN en el paso de ligadura del adaptador (Figura 1). [1] [2]
Preparación de la biblioteca
El ADN de doble hebra se corta utilizando uno de estos métodos: sonicación , digestión enzimática o nebulización. Los fragmentos se seleccionan por tamaño utilizando perlas Ampure XP. No se recomienda la selección del tamaño en base a gel, ya que puede causar la fusión de las cadenas dobles de ADN y dañar el ADN debido a la exposición a los rayos UV . El tamaño de los fragmentos seleccionados de ADN se somete a una cola de dA en el extremo 3 '. [1] [2]
Ligadura adaptadora
En este paso, se ligan dos adaptadores etiquetados desde las colas 3'-dT a las colas 3'-dA en ambos lados de los fragmentos de la biblioteca de ADN de doble hebra. Este proceso da como resultado fragmentos de biblioteca de doble hebra que contienen dos etiquetas aleatorias (α y β) en cada lado que son el complemento inverso entre sí (Figura 1 y 2). La relación "ADN: adaptador" es crucial para determinar el éxito de la ligadura. [1] [2]
Inserción de adaptadores de secuenciación a bibliotecas etiquetadas
En el último paso de la preparación de la biblioteca de secuenciación dúplex, los adaptadores de secuenciación de Illumina se agregan a las bibliotecas bicatenarias etiquetadas mediante amplificación por PCR utilizando cebadores que contienen adaptadores de secuenciación. Durante la amplificación por PCR, ambas cadenas complementarias de ADN se amplifican y generan dos tipos de productos de PCR. El producto 1 se deriva de las hebras 1 que tienen una secuencia de etiquetas única (llamada α en la Figura 2) junto al adaptador 1 de Illumina y el producto 2 tiene una etiqueta única (llamada β en la Figura 2) junto al adaptador 1 de Illumina (en cada hebra , la etiqueta α es el complemento inverso de la etiqueta β y viceversa). Las bibliotecas que contienen etiquetas dúplex y adaptadores de Illumina se secuencian mediante el sistema Illumina TruSeq. Las lecturas que se originan en cada hebra de ADN forman un grupo de lecturas (familias de etiquetas) que comparten la misma etiqueta. Las familias de lecturas detectadas se utilizarán en el siguiente paso para analizar los datos de secuenciación. [1] [2]
Consideraciones
Eficiencia de la ligadura del adaptador
La eficacia de la ligadura del adaptador es muy importante para el éxito de la secuenciación dúplex. Una cantidad adicional de bibliotecas o adaptadores puede afectar el equilibrio del ADN al adaptador, lo que da como resultado una ligadura ineficaz y una cantidad excesiva de dímeros de cebadores, respectivamente. Por lo tanto, es importante mantener la concentración molar de ADN al adaptador en la proporción óptima (0.05). [2]
Etiqueta tamaño de la familia
La eficiencia de la secuenciación dúplex depende del número final de DCS que está directamente relacionado con el número de lecturas en cada familia (tamaño de la familia). Si el tamaño de la familia es demasiado pequeño, entonces el DCS no se puede ensamblar y si demasiadas lecturas comparten la misma etiqueta, la producción de datos será baja. El tamaño de la familia está determinado por la cantidad de plantilla de ADN necesaria para la amplificación por PCR y la fracción de carril de secuenciación dedicada. El tamaño óptimo de la familia de etiquetas es entre 6 y 12 miembros. Para obtener el tamaño de familia óptimo, es necesario ajustar las cantidades de plantilla de ADN y la fracción de carril de secuenciación dedicada. La siguiente fórmula tiene en cuenta las variables más importantes que pueden afectar la profundidad de cobertura (N = 40DG ÷ R) donde "N" es el número de lecturas, "D" es la profundidad de cobertura deseada, "G" es el tamaño de ADN objetivo en el par de bases y "R" es la longitud de lectura final.
Flujo de trabajo computacional
Filtrar y recortar
Cada lectura de secuenciación dúplex contiene una secuencia fija de 5 nucleótidos (mostrada en las figuras en negro) ubicada corriente arriba de la secuencia de etiqueta de 12 nucleótidos. Las lecturas se filtran si no tienen la secuencia de 5 nucleótidos esperada o tienen más de nueve bases idénticas o ambiguas dentro de cada etiqueta. Las dos etiquetas de 12 nucleótidos en cada extremo de las lecturas se combinan y se mueven al encabezado de lectura. Se forman dos familias de lecturas que se originan a partir de las dos hebras de ADN. Una familia contiene lecturas con encabezado αβ que se origina en la hebra 1 y la segunda contiene lecturas con encabezado βα que se origina en la hebra 2 (Figura 2). Luego, las lecturas se recortan eliminando la secuencia fija de 5 pares de bases y los 4 nucleótidos propensos a errores ubicados en los sitios de ligadura y reparación de extremos. [1] [2] Las lecturas restantes se ensamblan en secuencias de consenso utilizando ensamblajes SSCS y DCS.
Montaje SSCS
Las secuencias recortadas del paso anterior se alinean con el genoma de referencia utilizando un alineador de Burrows-Wheeler (BWA) y se eliminan las lecturas sin asignar. Las lecturas alineadas que tienen la misma secuencia de etiqueta de 24 pares de bases y la misma región genómica se detectan y agrupan (familia αβ y βα en la Figura 2). Cada grupo representa una "familia de etiquetas". Las familias de etiquetas con menos de tres miembros no se analizan. Para eliminar los errores que surgen durante la amplificación o secuenciación por PCR, las mutaciones que son compatibles con menos del 70% de los miembros (lecturas) se filtran del análisis. A continuación, se genera una secuencia de consenso para cada familia utilizando las secuencias idénticas en cada posición de las lecturas restantes. La secuencia de consenso se llama SSCS. Aumenta la precisión de NGS a unas 20 veces más; sin embargo, este método se basa en la información de secuenciación de hebras simples de ADN y, por lo tanto, es sensible a los errores inducidos en la primera ronda o antes de la amplificación por PCR. [1] [2]
Montaje DCS
Las lecturas del último paso se realinean con el genoma de referencia. En este método, los pares de familias SSCS que tienen etiquetas complementarias se agruparán (familia αβ y βα en la Figura 2). Estas lecturas se originan a partir de dos hebras complementarias de ADN. Las secuencias de alta confianza se seleccionan en función de las llamadas base perfectamente emparejadas de cada familia. La secuencia final se llama DCS. Las verdaderas mutaciones son aquellas que coinciden perfectamente entre SSCS complementarios. Este paso filtra los errores restantes que surgen durante la primera ronda de amplificación por PCR o durante la preparación de la muestra. [1] [2]
Ventajas
Disminución de la tasa de error de secuenciación
La alta tasa de error (0.01-0.001) de las plataformas NGS estándar introducidas durante la preparación o secuenciación de muestras es una limitación importante para la detección de variantes presentes en una pequeña fracción de células. Debido al sistema de etiquetado dúplex y al uso de información en ambas cadenas de ADN, la secuenciación dúplex ha disminuido significativamente la tasa de error de secuenciación alrededor de 10 millones de veces usando el método SSCS y DCS. [1] [2] [10]
Aumento de la precisión de la llamada de variantes
Es un desafío identificar variantes raras con precisión utilizando métodos NGS estándar con una tasa de mutación de (10 −2 a 10 −3 ). Los errores que ocurren al principio de la preparación de la muestra se pueden detectar como variantes raras. Un ejemplo de tales errores es la transversión C> A / G> T , detectada en bajas frecuencias utilizando secuenciación profunda o datos de captura dirigida y que surgen debido a la oxidación del ADN durante la preparación de la muestra. [11] Estos tipos de variantes falsas positivas se filtran mediante el método de secuenciación dúplex, ya que las mutaciones deben coincidir con precisión en ambas cadenas de ADN para que se validen como mutaciones verdaderas. La secuenciación dúplex teóricamente puede detectar mutaciones con frecuencias tan bajas como 10 −8 en comparación con la tasa de 10 −2 de los métodos NGS estándar. [1] [2] [10]
Aplicable a la mayoría de plataformas NGS
Otra ventaja de la secuenciación dúplex es que se puede utilizar en combinación con la mayoría de las plataformas NGS sin realizar cambios significativos en los protocolos estándar.
Limitaciones
Costo
Debido a que la secuenciación dúplex proporciona una precisión de secuenciación significativamente mayor y utiliza información en ambas cadenas de ADN, este método necesita una profundidad de secuenciación mucho mayor y, por lo tanto, es un enfoque costoso. El gasto limita su aplicación a la secuenciación dirigida y de amplicones en la actualidad y no será aplicable para los enfoques de secuenciación del genoma completo. Sin embargo, la aplicación de la secuenciación dúplex para dianas de ADN más grandes será más factible cuando el costo de NGS disminuya. [12]
Aplicación práctica
La secuenciación dúplex es un método nuevo y su eficacia se estudió en aplicaciones limitadas, como la detección de mutaciones puntuales mediante la secuenciación de captura dirigida. [13] Es necesario realizar más estudios para ampliar la aplicación y la viabilidad de la secuenciación dúplex a muestras más complejas con un mayor número de mutaciones, indeles y variaciones en el número de copias .
Aplicaciones
Detección de variantes con bajas frecuencias
La secuenciación dúplex y el aumento significativo de la precisión de la secuenciación ha tenido un impacto importante en aplicaciones como la detección de variantes genéticas humanas raras, la detección de mutaciones subclonales implicadas en los mecanismos de resistencia a la terapia en cánceres genéticamente heterogéneos, el cribado de variantes en el ADN tumoral circulante como no biomarcador invasivo y detección prenatal de anomalías genéticas en un feto.
Detección de número de copias
Otra aplicación para la secuenciación dúplex es la detección de números de copias de ADN / ARN mediante la estimación de la frecuencia relativa de variantes. Un método para contar moléculas de plantilla de PCR con aplicación a la secuenciación de próxima generación es un ejemplo. [1]
Análisis y software
Se puede encontrar en línea una lista de las herramientas y los paquetes necesarios para el análisis de SSCS y DCS .
Ver también
|
Referencias
- ^ a b c d e f g h i j k l m n o M. W. Schmitt, SR Kennedy, JJ Salk, et al. “Detección de mutaciones ultrararas mediante secuenciación de próxima generación” . Proc. Natl. Acad. Sci., Vol. 109 no. 36. 2012. PMID 22853953 .
- ^ a b c d e f g h i j k l m n S. R. Kennedy, MW Schmitt, EJ Fox, BF Kohrn, et al. “Detección de mutaciones de frecuencia ultrabaja mediante secuenciación dúplex” . Nature Protoc., Vol. 9 no. 11, 2586-606. 2014. PMID 25299156 .
- ^ TE Druley, FLM Vallania, DJ Wegner, et al. "Cuantificación de variantes alélicas raras de ADN genómico combinado" Nature Methods, vol. 6, no. 4, págs. 263–265, 2009. PMID 19252504 .
- ^ N. McGranahan y C. Swanton. "Impacto biológico y terapéutico de la heterogeneidad intratumoral en la evolución del cáncer " Cancer Cell, vol. 27, no. 1, págs. 15-26, 2015. PMID 25584892 .
- ^ C Bettegowda, M Sausen, RJ Leary, et al. “Detección de ADN tumoral circulante en neoplasias malignas humanas en etapa temprana y tardía” . Sci Transl Med, vol. 6, no. 224, pág. 224ra24, 2014. PMID 24553385 .
- ^ a b B. E. Miner, RJ Stöger, AF Burden, et al. “Los códigos de barras moleculares detectan redundancia y contaminación en PCR con bisulfito en horquilla” [ enlace muerto ] . Nucleic Acids Res, vol. 32, no. 17, pág. e135, 2004. PMID 15459281 .
- ^ ML McCloskey, R. Stoger, RS Hansen, et al. “Codificación de productos de PCR con sellos de lote y códigos de barras” , Biochem. Genet., Vol. 45, no. 11-12, págs. 761-767, 2007. PMID 17955361 .
- ^ a b D. I. Lou, JA Hussmann, RM Mcbee, et al. “Los errores de secuenciación de ADN de alto rendimiento se reducen en órdenes de magnitud utilizando la secuenciación circular” . Proc Natl Acad Sci USA, vol. 110 no. 49, 19872–19877, 2013. PMID 24243955 .
- ^ AY Maslov, W. Quispe-Tintaya, T. Gorbacheva, RR White y J. Vijg, "Secuenciación de alto rendimiento en la detección de mutaciones: ¿una nueva generación de pruebas de genotoxicidad?" , Mutat. Res., Vol. 776, págs. 136–43, 2015. PMID 25934519 .
- ^ a b c E. J. Fox, KS Reid-Bayliss, MJ Emond, et al. “Precisión de las plataformas de secuenciación de próxima generación” . Solicitud de Next Gener Seq., Págs. 1–9, 2015. PMID 25699289 .
- ^ M. Costello, TJ Pugh, TJ Fennell, et al. “Descubrimiento y caracterización de mutaciones de artefactos en datos de secuenciación de captura dirigida de cobertura profunda debido al daño oxidativo del ADN durante la preparación de la muestra” . Nucleic Acids Res., Vol. 41, no. 6, págs. 1 a 12, 2013. PMID 23303777 .
- ^ "Secuenciación de próxima generación (NGS) en microfluidos por microLIQUID -" El costo de NGS disminuye en desarrollos de microfluidos " " .
- ^ MW Schmitt, EJ Fox, MJ Prindle, et al. “Secuenciación de pequeños objetivos genómicos con alta eficiencia y extrema precisión” . Nat Methods, vol. 12, no. 5, págs. 423–425, 2015. PMID 2584963 .