Secuenciación de tintes Illumina

La secuenciación de tintes de Illumina es una técnica que se utiliza para determinar la serie de pares de bases en el ADN , también conocida como secuenciación de ADN . El concepto de química terminada reversible fue inventado por Bruno Canard y Simon Sarfati en el Instituto Pasteur de París. ^[1]^[2] Fue desarrollado por Shankar Balasubramanian y David Klenerman de la Universidad de Cambridge, ^[3] quienes posteriormente fundaron Solexa, una compañía que luego adquirió Illumina . Este método de secuenciación se basa en terminadores de colorante reversibles que permiten la identificación de nucleótidos individuales a medida que se lavan sobre cadenas de ADN. También se puede utilizar para el genoma completo.y secuenciación de regiones, análisis de transcriptomas , metagenómica , descubrimiento de ARN pequeño , perfil de metilación y análisis de interacción proteína - ácido nucleico en todo el genoma . ^[4]^[5]

El ADN se adhiere a la celda de flujo a través de secuencias complementarias. La hebra se dobla y se adhiere a un segundo oligo formando un puente. Una polimerasa sintetiza la hebra inversa. Las dos hebras se sueltan y se enderezan. Cada uno forma un nuevo puente (amplificación del puente). El resultado es un grupo de clones de hebras directas e inversas de ADN.

Descripción general

La tecnología de secuenciación de Illumina funciona en tres pasos básicos: amplificar, secuenciar y analizar. El proceso comienza con ADN purificado. El ADN se fragmenta y se agregan adaptadores que contienen segmentos que actúan como puntos de referencia durante la amplificación, secuenciación y análisis. El ADN modificado se carga en una celda de flujo donde se llevará a cabo la amplificación y secuenciación. La celda de flujo contiene nanopozos que espacian los fragmentos y ayudan con el hacinamiento. ^[6] Cada nanopozo contiene oligonucleótidos que proporcionan un punto de anclaje para que los adaptadores se unan. Una vez que los fragmentos se han adherido, comienza una fase llamada generación de clústeres. Este paso produce alrededor de mil copias de cada fragmento de ADN y se realiza mediante PCR de amplificación en puente. A continuación, los cebadores y los nucleótidos modificados se lavan en el chip. Estos nucleótidos tienen un bloqueador fluorescente 3 'reversible, por lo que la ADN polimerasa solo puede agregar un nucleótido a la vez en el fragmento de ADN. ^[6] Después de cada ronda de síntesis, una cámara toma una fotografía del chip. Una computadora determina qué base se agregó por la longitud de onda de la etiqueta fluorescente y la registra para cada punto en el chip. Después de cada ronda, las moléculas no incorporadas se eliminan por lavado. A continuación, se utiliza un paso de desbloqueo químico para eliminar el grupo bloqueador del terminal fluorescente 3 '. El proceso continúa hasta que se secuencia la molécula de ADN completa. ^[5] Con esta tecnología, miles de lugares en todo el genoma se secuencian a la vez mediante secuenciación paralela masiva .

Procedimiento

Biblioteca genómica

Después de purificar el ADN, es necesario generar una biblioteca de ADN, una biblioteca genómica. Hay dos formas de crear una biblioteca genómica: sonificación y etiquetado. Con el etiquetado, las transposasas cortan aleatoriamente el ADN en tamaños de fragmentos de 50 a 500 pb y agregan adaptadores simultáneamente. ^[6] También se puede generar una biblioteca genética mediante el uso de sonificación para fragmentar el ADN genómico. La sonificación fragmenta el ADN en tamaños similares utilizando ondas de sonido ultrasónicas. Los adaptadores derecho e izquierdo deberán estar unidos por la ADN polimerasa T7 y la ADN ligasa T4 después de la sonificación. Las hebras que no tienen adaptadores ligados se eliminan por lavado. ^[7]

El ADN bicatenario se escinde mediante transposomas. Los extremos cortados se reparan y se añaden adaptadores, índices, sitios de unión de cebadores y sitios terminales a cada hebra del ADN. Imagen basada en parte en el video de secuenciación de illumina ^[7]

Adaptadores

Los adaptadores contienen tres segmentos diferentes: la secuencia complementaria al soporte sólido (oligonucleótidos en la celda de flujo), la secuencia de código de barras (índices) y el sitio de unión para el cebador de secuenciación. ^{[6] Los} índices suelen tener una longitud de seis pares de bases y se utilizan durante el análisis de la secuencia de ADN para identificar muestras. Los índices permiten ejecutar juntas hasta 96 muestras diferentes, esto también se conoce como multiplexación. Durante el análisis, la computadora agrupará todas las lecturas con el mismo índice. ^[8]^[9] Illumina utiliza un enfoque de "secuencia por síntesis". ^[9] Este proceso tiene lugar dentro de una celda de flujo de vidrio recubierta de acrilamida. ^[10] La celda de flujo tiene oligonucleótidos (secuencias de nucleótidos cortas) que recubren la parte inferior de la celda y sirven como soporte sólido para mantener las hebras de ADN en su lugar durante la secuenciación. A medida que el ADN fragmentado se lava sobre la celda de flujo, el adaptador apropiado se une al soporte sólido complementario.

Millones de oligos se alinean en la parte inferior de cada carril de la celda de flujo.

Amplificación de puente

Una vez conectado, puede comenzar la generación de clústeres. El objetivo es crear cientos de hebras idénticas de ADN. Algunos serán el hilo delantero; el resto, al revés. Por eso se utilizan adaptadores derecho e izquierdo. Los clústeres se generan a través de la amplificación del puente. La ADN polimerasa se mueve a lo largo de una hebra de ADN, creando su hebra complementaria. La hebra original se lava, dejando solo la hebra inversa. En la parte superior de la hebra inversa hay una secuencia de adaptadores. La hebra de ADN se dobla y se une al oligo que es complementario a la secuencia del adaptador superior. Las polimerasas se unen a la hebra inversa y se forma su hebra complementaria (que es idéntica a la original). El ahora ADN de doble hebra se desnaturaliza para que cada hebra pueda unirse por separado a una secuencia de oligonucleótidos anclada a la celda de flujo. Uno será el hilo inverso; el otro, el delantero. Este proceso se llama amplificación puente y ocurre en miles de grupos en toda la celda de flujo a la vez. ^[11]

Amplificación clonal

Una y otra vez, las hebras de ADN se doblarán y se unirán al soporte sólido. La ADN polimerasa sintetizará una nueva hebra para crear un segmento de doble hebra, que se desnaturalizará para que todas las hebras de ADN en un área sean de una sola fuente (amplificación clonal). La amplificación clonal es importante para fines de control de calidad. Si se encuentra que una hebra tiene una secuencia extraña, los científicos pueden verificar la hebra inversa para asegurarse de que tenga el complemento de la misma rareza. Las hebras de avance y retroceso actúan como controles para protegerse contra artefactos. Debido a que la secuenciación de Illumina utiliza ADN polimerasa, se han observado errores de sustitución de bases, ^[12] especialmente en el extremo 3 '. ^[13] Las lecturas finales emparejadas combinadas con la generación de clústeres pueden confirmar que se produjo un error. Las hebras inversa y directa deben ser complementarias entre sí, todas las lecturas inversas deben coincidir entre sí y todas las lecturas directas deben coincidir entre sí. Si una lectura no es lo suficientemente similar a sus contrapartes (con las que debería ser un clon), es posible que se haya producido un error. En los análisis de algunos laboratorios se ha utilizado un umbral mínimo del 97% de similitud. ^[13]

Secuencia por síntesis

Al final de la amplificación clonal, todas las hebras inversas se eliminan por lavado de la celda de flujo, dejando solo hebras delanteras. Un cebador se adhiere al sitio de unión del cebador del adaptador de hebras directas, y una polimerasa agrega un dNTP marcado con fluorescencia a la hebra de ADN. Solo se puede agregar una base por ronda debido a que el fluoróforo actúa como un grupo de bloqueo; sin embargo, el grupo de bloqueo es reversible. ^[6] Usando la química de cuatro colores, cada una de las cuatro bases tiene una emisión única, y después de cada ronda, la máquina registra qué base se agregó. Una vez que se registra el color, se lava el fluoróforo y se lava otro dNTP sobre la celda de flujo y se repite el proceso. Los dATP, dTTP, dGTP y dCTP se lavan sobre la célula por separado para poder identificar cada nucleótido.

A partir del lanzamiento de NextSeq y más tarde de MiniSeq, Illumina introdujo una nueva química de secuenciación de dos colores. Los nucleótidos se distinguen por uno de dos colores (rojo o verde), sin color ("negro") o combinando ambos colores (apareciendo naranja como una mezcla entre rojo y verde).

Los nucleótidos marcados se agregan con el fin de la cadena de ADN. Cada uno de los cuatro nucleótidos tiene una etiqueta de identificación que puede excitarse para emitir una longitud de onda característica. Una computadora registra todas las emisiones y, a partir de estos datos, se realizan llamadas de base.

Una vez que se ha leído la hebra de ADN, la hebra que se acaba de agregar se lava. Luego, la imprimación de índice 1 se adhiere, polimeriza la secuencia de índice 1 y se lava. La hebra vuelve a formar un puente y el extremo 3 'de la hebra de ADN se une a un oligo en la celda de flujo. El cebador de índice 2 se adhiere, polimeriza la secuencia y se lava.

Una polimerasa secuencia la hebra complementaria en la parte superior de la hebra arqueada. Se separan y se bloquea el extremo de 3 'de cada hebra. La hebra delantera se elimina por lavado y el proceso de secuenciación por síntesis se repite para la hebra inversa.

Análisis de los datos

La secuenciación ocurre para millones de grupos a la vez, y cada grupo tiene aproximadamente 1000 copias idénticas de un inserto de ADN. ^[12] Los datos de la secuencia se analizan encontrando fragmentos con áreas superpuestas, llamados contigs , y alineándolos. Si se conoce una secuencia de referencia, los contigs se comparan con ella para identificar la variante.

Este proceso fragmentado permite a los científicos ver la secuencia completa aunque nunca se ejecutó una secuencia no fragmentada; sin embargo, debido a que las longitudes de lectura de Illumina no son muy largas ^[13] (la secuenciación de HiSeq puede producir longitudes de lectura de alrededor de 90 pb de longitud ^[8] ), puede ser difícil resolver áreas de repetición en tándem cortas. ^[8]^[12] Además, si la secuencia es de novo y no existe una referencia, las áreas repetidas pueden causar mucha dificultad en el ensamblaje de la secuencia. ^[12] Las dificultades adicionales incluyen sustituciones de bases (especialmente en el extremo 3 'de las lecturas ^[13] ) por polimerasas inexactas, secuencias quiméricas y sesgo de PCR, todo lo cual puede contribuir a generar una secuencia incorrecta. ^[13]

Comparación con otros métodos de secuenciación

Esta técnica ofrece varias ventajas sobre los métodos de secuenciación tradicionales como la secuenciación de Sanger . La secuenciación de Sanger requiere dos reacciones, una para el cebador directo y otra para el cebador inverso. A diferencia de Illumina, la secuenciación de Sanger utiliza trifosfatos de didesoxinucleósidos marcados con fluorescencia (ddNTP) para determinar la secuencia del fragmento de ADN. A los ddNTP les falta el grupo 3 'OH y terminan la síntesis de ADN de forma permanente. ^[6] En cada tubo de reacción, se agregan dNTP y ddNTP, junto con la ADN polimerasa y los cebadores. La proporción de ddNTP a dNTP es importante, ya que el ADN de la plantilla debe sintetizarse por completo, y una sobreabundancia de ddNTP creará múltiples fragmentos del mismo tamaño y posición de la plantilla de ADN. Cuando la ADN polimerasa agrega un ddNTP, el fragmento termina y se sintetiza un nuevo fragmento. Cada fragmento sintetizado es un nucleótido más largo que el anterior. Una vez que la plantilla de ADN se ha sintetizado por completo, los fragmentos se separan mediante electroforesis capilar. En la parte inferior del tubo capilar, un láser excita los ddNTP marcados con fluorescencia y una cámara captura el color emitido.

Debido a la naturaleza automatizada de la secuenciación de tintes de Illumina, es posible secuenciar múltiples hebras a la vez y obtener datos de secuenciación reales rápidamente. Con la secuenciación de Sanger, solo se puede secuenciar una hebra a la vez y es relativamente lenta. Illumina solo utiliza ADN polimerasa en lugar de múltiples y costosas enzimas requeridas por otras técnicas de secuenciación (es decir, pirosecuenciación ). ^[14]

Ejemplos de uso

La secuenciación de Illumina se ha utilizado para investigar transcriptomas de la batata ^[15] y del género Taxus de gimnospermas . ^[dieciséis]

Referencias

^ CA 2158975 , Canard B, Sarfati S, "Nuevos derivados utilizables para la secuenciación de ácidos nucleicos", publicado el 13 de octubre de 1994, asignado al Instituto Pasteur
^ Canard B, Sarfati RS (octubre de 1994). "Sustratos fluorescentes de ADN polimerasa con etiquetas 3 'reversibles". Gene . 148 (1): 1–6. doi : 10.1016 / 0378-1119 (94) 90226-7 . PMID 7523248 .
^ "Historia de la secuenciación de Illumina" . Archivado desde el original el 12 de octubre de 2014.
^ "Illumina - Secuenciación y soluciones basadas en matrices para la investigación genética" . www.illumina.com .
^ a b Meyer M, Kircher M (junio de 2010). "Preparación de la biblioteca de secuenciación de Illumina para la captura y secuenciación de objetivos altamente multiplexados". Protocolos de Cold Spring Harbor . 2010 (6): pdb.prot5448. doi : 10.1101 / pdb.prot5448 . PMID 20516186 .
^ a b c d e f Clark, David P. (2 de noviembre de 2018). Biología molecular . Pazdernik, Nanette Jean ,, McGehee, Michelle R. (Tercera ed.). Londres. ISBN 978-0-12-813289-0. OCLC 1062496183 .
^ a b "Tecnología de secuenciación de Illumina" . Consultado el 24 de septiembre de 2015 .
^ a b c Feng YJ, Liu QF, Chen MY, Liang D, Zhang P (enero de 2016). "Secuenciación de amplicones marcados en paralelo de productos de PCR relativamente largos utilizando la plataforma Illumina HiSeq y el ensamblaje del transcriptoma". Recursos de ecología molecular . 16 (1): 91-102. doi : 10.1111 / 1755-0998.12429 . PMID 25959587 . S2CID 36882760 .
^ a b Illumina, Inc. "Secuenciación multiplexada con el sistema analizador de genoma de Illumina" (PDF) . Consultado el 25 de septiembre de 2015 .
^ Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, et al. (Julio de 2012). "Una historia de tres plataformas de secuenciación de próxima generación: comparación de secuenciadores Ion Torrent, Pacific Biosciences e Illumina MiSeq" . BMC Genomics . 13 : 341. doi : 10.1186 / 1471-2164-13-341 . PMC 3431227 . PMID 22827831 .
^ Clark, David P .; Pazdernik, Nanette J .; McGehee, Michelle R. (2019). Biología molecular . Célula académica. págs. 253-255. ISBN 9780128132883.
^ a b c d Morozova O, Marra MA (noviembre de 2008). "Aplicaciones de las tecnologías de secuenciación de última generación en genómica funcional". Genómica . 92 (5): 255–64. doi : 10.1016 / j.ygeno.2008.07.001 . PMID 18703132 .
^ a b c d e Jeon YS, Park SC, Lim J, Chun J, Kim BS (enero de 2015). "Canalización mejorada para reducir la identificación errónea por secuencias de ARNr 16S utilizando la plataforma Illumina MiSeq". Revista de Microbiología . 53 (1): 60–9. doi : 10.1007 / s12275-015-4601-y . PMID 25557481 . S2CID 17210846 .
^ Pettersson E, Lundeberg J, Ahmadian A (febrero de 2009). "Generaciones de tecnologías de secuenciación". Genómica . 93 (2): 105-11. doi : 10.1016 / j.ygeno.2008.10.003 . PMID 18992322 .
^ Wang Z, Fang B, Chen J, Zhang X, Luo Z, Huang L, et al. (Diciembre de 2010). "Ensamblaje de novo y caracterización del transcriptoma de la raíz utilizando secuenciación de extremos emparejados de Illumina y desarrollo de marcadores cSSR en batata (Ipomoea batatas)" . BMC Genomics . 11 : 726. doi : 10.1186 / 1471-2164-11-726 . PMC 3016421 . PMID 21182800 .
^ Hao DC, Ge G, Xiao P, Zhang Y, Yang L (22 de junio de 2011). "La primera información sobre el transcriptoma de taxus específico de tejido a través de la secuenciación de segunda generación de Illumina" . PLOS ONE . 6 (6): e21220. Código bibliográfico : 2011PLoSO ... 621220H . doi : 10.1371 / journal.pone.0021220 . PMC 3120849 . PMID 21731678 .

[1] CA 2158975 , Canard B, Sarfati S, "Nuevos derivados utilizables para la secuenciación de ácidos nucleicos", publicado el 13 de octubre de 1994, asignado al Instituto Pasteur

[2] Canard B, Sarfati RS (octubre de 1994). "Sustratos fluorescentes de ADN polimerasa con etiquetas 3 'reversibles". Gene . 148 (1): 1–6. doi : 10.1016 / 0378-1119 (94) 90226-7 . PMID 7523248 .

[3] "Historia de la secuenciación de Illumina" . Archivado desde el original el 12 de octubre de 2014.

[Weiss-4] "Illumina - Secuenciación y soluciones basadas en matrices para la investigación genética" . www.illumina.com .

[Meyer-5] Meyer M, Kircher M (junio de 2010). "Preparación de la biblioteca de secuenciación de Illumina para la captura y secuenciación de objetivos altamente multiplexados". Protocolos de Cold Spring Harbor . 2010 (6): pdb.prot5448. doi : 10.1101 / pdb.prot5448 . PMID 20516186 .

[:0-6] Clark, David P. (2 de noviembre de 2018). Biología molecular . Pazdernik, Nanette Jean ,, McGehee, Michelle R. (Tercera ed.). Londres. ISBN 978-0-12-813289-0. OCLC 1062496183 .

[Illumina,_Inc_2013-7] "Tecnología de secuenciación de Illumina" . Consultado el 24 de septiembre de 2015 .

[Feng-8] Feng YJ, Liu QF, Chen MY, Liang D, Zhang P (enero de 2016). "Secuenciación de amplicones marcados en paralelo de productos de PCR relativamente largos utilizando la plataforma Illumina HiSeq y el ensamblaje del transcriptoma". Recursos de ecología molecular . 16 (1): 91-102. doi : 10.1111 / 1755-0998.12429 . PMID 25959587 . S2CID 36882760 .

[Illumina,_Inc_Multiplex-9] Illumina, Inc. "Secuenciación multiplexada con el sistema analizador de genoma de Illumina" (PDF) . Consultado el 25 de septiembre de 2015 .

[Quail-10] Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, et al. (Julio de 2012). "Una historia de tres plataformas de secuenciación de próxima generación: comparación de secuenciadores Ion Torrent, Pacific Biosciences e Illumina MiSeq" . BMC Genomics . 13 : 341. doi : 10.1186 / 1471-2164-13-341 . PMC 3431227 . PMID 22827831 .

[11] Clark, David P .; Pazdernik, Nanette J .; McGehee, Michelle R. (2019). Biología molecular . Célula académica. págs. 253-255. ISBN 9780128132883.

[Morozova-12] Morozova O, Marra MA (noviembre de 2008). "Aplicaciones de las tecnologías de secuenciación de última generación en genómica funcional". Genómica . 92 (5): 255–64. doi : 10.1016 / j.ygeno.2008.07.001 . PMID 18703132 .

[Jeon-13] Jeon YS, Park SC, Lim J, Chun J, Kim BS (enero de 2015). "Canalización mejorada para reducir la identificación errónea por secuencias de ARNr 16S utilizando la plataforma Illumina MiSeq". Revista de Microbiología . 53 (1): 60–9. doi : 10.1007 / s12275-015-4601-y . PMID 25557481 . S2CID 17210846 .

[Pettersson_2008-14] Pettersson E, Lundeberg J, Ahmadian A (febrero de 2009). "Generaciones de tecnologías de secuenciación". Genómica . 93 (2): 105-11. doi : 10.1016 / j.ygeno.2008.10.003 . PMID 18992322 .

[15] Wang Z, Fang B, Chen J, Zhang X, Luo Z, Huang L, et al. (Diciembre de 2010). "Ensamblaje de novo y caracterización del transcriptoma de la raíz utilizando secuenciación de extremos emparejados de Illumina y desarrollo de marcadores cSSR en batata (Ipomoea batatas)" . BMC Genomics . 11 : 726. doi : 10.1186 / 1471-2164-11-726 . PMC 3016421 . PMID 21182800 .

[16] Hao DC, Ge G, Xiao P, Zhang Y, Yang L (22 de junio de 2011). "La primera información sobre el transcriptoma de taxus específico de tejido a través de la secuenciación de segunda generación de Illumina" . PLOS ONE . 6 (6): e21220. Código bibliográfico : 2011PLoSO ... 621220H . doi : 10.1371 / journal.pone.0021220 . PMC 3120849 . PMID 21731678 .

[1]