2 codificación base

2 Base Encoding , también llamada SOLiD ( secuenciación por ligación y detección de oligonucleótidos ), es una tecnología de secuenciación de próxima generación desarrollada por Applied Biosystems y disponible comercialmente desde 2008. Estas tecnologías generan cientos de miles de lecturas de secuencias pequeñas a la vez. Ejemplos bien conocidos de tales métodos de secuenciación de ADN incluyen 454 pirosecuenciación(introducido en 2005), el sistema Solexa (introducido en 2006) y el sistema SOLiD (introducido en 2007). Estos métodos han reducido el costo de $ 0.01 / base en 2004 a casi $ 0.0001 / base en 2006 y han aumentado la capacidad de secuenciación de 1,000,000 bases / máquina / día en 2004 a más de 100,000,000 bases / máquina / día en 2006.

Esquema de codificación de dos bases. En la codificación de dos bases, a cada par único de bases en el extremo 3 'de la sonda se le asigna uno de los cuatro colores posibles. Por ejemplo, "AA" se asigna al azul, "AC" se asigna al verde, y así sucesivamente para los 16 pares únicos. Durante la secuenciación, cada base de la plantilla se secuencia dos veces y los datos resultantes se decodifican de acuerdo con este esquema.

La codificación de 2 bases se basa en la secuenciación por ligadura en lugar de la secuenciación por síntesis. ^[1] Sin embargo, en lugar de utilizar sondas de 9 meros etiquetadas con fluorescencia que distinguen solo 6 bases, la codificación de 2 bases aprovecha las sondas de 8 meros con etiqueta fluorescente que distinguen las dos bases de 3 primos, pero se pueden ciclar de manera similar al método de Macevicz. , por lo tanto, se pueden obtener lecturas superiores a 6 pb (25-50 pb publicado, ^[2] 50 pb en NCBI en febrero de 2008). La codificación de 2 bases permite leer cada base dos veces sin realizar el doble de trabajo. ^[3]^[4]^[5]^[6]

Características generales

Los pasos generales comunes a muchas de estas técnicas de secuenciación de próxima generación incluyen:

Fragmentación aleatoria del ADN genómico
Inmovilización de fragmentos de ADN individuales en un soporte sólido como una perla o una superficie sólida plana
Amplificación de fragmentos de ADN en la superficie sólida mediante PCR y creación de colonias de polimerasa ^[7]
Secuenciación y posterior interrogatorio in situ después de cada ciclo mediante barrido de fluorescencia o quimioluminiscencia. ^[8]

En 1988, Whiteley et al. demostraron el uso de ligación de oligonucleótidos marcados con fluorescencia para la detección de variantes de ADN. ^[9] En 1995 Macevicz ^[10] demostró la ligadura repetida de oligonucleótidos para detectar variantes de ADN contiguas. En 2003, Dressman et al. ^[11] demostró el uso de la PCR en emulsión para generar millones de perlas amplificadas clonalmente en las que se podrían realizar estos ensayos de ligación repetidos. En 2005, Shendure et al. llevó a cabo un procedimiento de secuenciación que combinaba las técnicas de Whiteley y Dressman realizando ligación de sondas de 9 meros "degeneradas en 8 bases" marcadas con fluorescencia que distinguían una base diferente según la etiqueta de las sondas y la base no degenerada. Este proceso se repitió (sin regenerar un extremo extensible como en Macevicz) utilizando cebadores idénticos pero con sondas con etiquetas que identificaron diferentes bases no degeneradas en la secuencia de lecturas de 6 pb en la dirección 5-> 3 y lecturas de 7 pb en la dirección 3-> 5.

Cómo funciona

El sistema de secuenciación SOLiD utiliza sondas con codificación de base dual.

La química subyacente se resume en los siguientes pasos: ^[12]

- Paso 1, preparación de una biblioteca: este paso comienza cortando el ADN genómico en pequeños fragmentos. Luego, se agregan dos adaptadores diferentes (por ejemplo, A1 y A2). La biblioteca resultante contiene fragmentos de ADN de plantilla, que se etiquetan con un adaptador en cada extremo (A1-plantilla-A2).

- Paso 2, PCR en emulsión: En este paso se realiza la reacción PCR en emulsión (gotitas de agua suspendidas en aceite) utilizando fragmentos de ADN de biblioteca, dos cebadores (P1 y P2) que complementan los adaptadores previamente utilizados (P1 con A1 y P2 con A2), otros componentes de la reacción de PCR y perlas de 1 μm acopladas con uno de los cebadores (p. Ej., P1). haga una dilución de la biblioteca de ADN para maximizar la gota que contiene un fragmento de ADN y una perla en una sola gota de emulsión.

En cada gota, la plantilla de ADN se hibrida con la perla acoplada a P1 desde su lado A1. Luego, la ADN polimerasa se extenderá desde P1 para formar la secuencia complementaria, lo que eventualmente dará como resultado una perla enriquecida con productos de PCR de una única plantilla. Después de la reacción de PCR, las plantillas se desnaturalizan y se disocian de las perlas. Dressman y col. describir esta técnica por primera vez en 2003.

- Paso 3, Enriquecimiento de perlas: en la práctica, solo el 30% de las perlas tienen ADN diana. Para aumentar el número de perlas que tienen ADN diana, se agregan a la solución perlas grandes de poliestireno recubiertas con A2. Por tanto, cualquier perla que contenga los productos extendidos se unirá a la perla de poliestireno a través de su extremo P2. El complejo resultante se separará de las perlas no seleccionadas y se fundirá para disociar las perlas seleccionadas del poliestireno. Este paso puede aumentar el rendimiento de este sistema del 30% antes del enriquecimiento al 80% después del enriquecimiento.

Después del enriquecimiento, el extremo 3 'de los productos (extremo P2) se modificará, lo que los hace capaces de unirse covalentemente en el siguiente paso. Por lo tanto, los productos de este paso son perlas acopladas a ADN con modificación 3 'de cada hebra de ADN.

- Paso 4, Deposición de perlas: En este paso, los productos del último paso se depositan en un portaobjetos de vidrio. Las perlas se adhieren a la superficie del vidrio al azar a través de enlaces covalentes de las perlas modificadas en 3 'y el vidrio.

- Paso 5, reacción de secuenciación: como se mencionó anteriormente, a diferencia de otros métodos de próxima generación que realizan la secuenciación mediante síntesis, la codificación de 2 bases se basa en la secuenciación por ligación. La ligadura se realiza utilizando sondas específicas de 8 meros:

Estas sondas tienen ocho bases de longitud con un grupo hidroxilo libre en el extremo 3 ', un tinte fluorescente en el extremo 5' y un sitio de escisión entre el quinto y el sexto nucleótido. Las dos primeras bases (comenzando en el extremo 3 ') son complementarias a los nucleótidos que se están secuenciando. Las bases 3 a 5 están degeneradas y pueden emparejarse con cualquier nucleótido de la secuencia molde. Las bases 6-8 también están degeneradas pero se escinden, junto con el tinte fluorescente, a medida que continúa la reacción. La escisión del tinte fluorescente y las bases 6-8 deja un grupo fosfato 5 'libre listo para la ligación adicional. De esta manera, las posiciones n + 1 y n + 2 están correctamente emparejadas con bases seguidas de n + 6 y n + 7 emparejadas correctamente, etc. La composición de las bases n + 3, n + 4 y n + 5 permanece indeterminada hasta más adelante rondas de la reacción de secuenciación.

El paso de secuenciación se compone básicamente de cinco rondas y cada ronda consta de aproximadamente 5-7 ciclos (Figura 2). Cada ronda comienza con la adición de un cebador universal complementario P1. Este cebador tiene, por ejemplo, n nucleótidos y su extremo 5 'coincide exactamente con el extremo 3' de P1. En cada ciclo, se agregan y se ligan sondas de 8 meros de acuerdo con su primera y segunda base. Luego, se lavan las sondas restantes no unidas, se mide la señal fluorescente de la sonda unida y la sonda unida se escinde entre su quinto y sexto nucleótido. Finalmente, el cebador y las sondas se reinician para la siguiente ronda.

En la siguiente ronda, un nuevo cebador universal templa la posición n-1 (su extremo 5 'coincide con la base exactamente antes del extremo 3' de P1) y los ciclos posteriores se repiten de manera similar a la primera ronda. Las tres rondas restantes se realizarán con nuevos cebadores universales que recogen las posiciones n-2, n-3 y n-4 con respecto al extremo 3 'de P1.

Una reacción completa de cinco rondas permite la secuenciación de aproximadamente 25 pares de bases de la plantilla de P1.

- Paso 6, Decodificación de datos: Para decodificar los datos, que se representan como colores, primero debemos conocer dos factores importantes. Primero, debemos saber que cada color indica dos bases. En segundo lugar, necesitamos conocer una de las bases de la secuencia: esta base se incorpora a la secuencia en la última (quinta) ronda del paso 5. Esta base conocida es el último nucleótido del extremo 3 'del P1 conocido. Por tanto, dado que cada color representa dos nucleótidos en los que la segunda base de cada unidad de dinucleótido constituye la primera base del siguiente dinucleótido, conocer solo una base en la secuencia nos llevará a interpretar la secuencia completa (Figura 2). ^[13]

2 Consideraciones sobre la codificación base

En la práctica, no se recomienda la traducción directa de lecturas de color a lecturas de base, ya que en el momento en que uno encuentra un error en las llamadas de color, se producirá un cambio de fotograma de las llamadas de base. Para aprovechar mejor las propiedades de "corrección de errores" de la codificación de dos bases, es mejor convertir su secuencia de referencia base en espacio de color. Hay una conversión inequívoca de una secuencia de referencia base en un espacio de color y, si bien lo contrario también es cierto, la conversión puede ser tremendamente inexacta si hay errores de secuenciación. ^[14]

La asignación de lecturas de espacio de color a una referencia de espacio de color puede utilizar correctamente las reglas de codificación de dos bases donde solo las diferencias de color adyacentes pueden representar un verdadero polimorfismo de base. La decodificación directa o la traducción de las lecturas de color en bases no puede hacer esto de manera eficiente sin otros conocimientos.

Más específicamente, este método no es una herramienta de corrección de errores, sino una herramienta de transformación de errores. El espacio de color transforma su modo de error más común (errores de medición única) en una frecuencia diferente a la forma más común de variación de ADN (SNP o cambios de base única). Estos cambios de base única afectan a los colores adyacentes en el espacio de color. Existen reglas lógicas que ayudan a corregir errores adyacentes en errores adyacentes "válidos" e "inválidos".

Se puede estimar la probabilidad de obtener dos errores adyacentes en una lectura de 50 pb. Hay 49 formas de realizar cambios adyacentes a una cadena de 50 letras (lectura de 50 pb). Hay 1225 formas de realizar cambios no adyacentes a una cadena de 50 letras (50 elegir 2). De manera simplista, si se supone que los errores son completamente aleatorios (suelen tener una frecuencia más alta al final de las lecturas), solo 49 de los 1225 errores serán candidatos para SNP. Además, solo un tercio de los errores adyacentes pueden ser errores válidos de acuerdo con el etiquetado conocido de las sondas, entregando así solo 16 de los 1225 errores que pueden ser candidatos para SNP. Esto es particularmente útil para la detección de SNP de cobertura baja, ya que reduce los falsos positivos en una cobertura baja, Smith et al. ^[15]

Ventajas

Cada base de este método de secuenciación se lee dos veces. Esto cambia el color de dos llamadas de espacio de color adyacentes, por lo tanto, para llamar incorrectamente un SNP, dos colores adyacentes deben llamarse incorrectamente. Debido a esto, la tasa de llamadas erróneas de SNP es del orden de e ^ 2, donde e es la tasa de error del dispositivo.

Desventajas

Cuando las llamadas de base de un solo color, las llamadas incorrectas causan errores en la parte restante de la lectura. En las llamadas SNP, esto se puede corregir, lo que da como resultado una tasa de error de llamada SNP más baja. Sin embargo, para el ensamblaje de novo simplista, se queda con la tasa de error del dispositivo sin procesar, que será significativamente más alta que el 0.06% informado para las llamadas SNP. El filtrado de calidad de las lecturas puede ofrecer lecturas de mayor precisión sin procesar que, cuando se alinean para formar contigs de color, pueden proporcionar secuencias de referencia en las que la codificación de 2 bases se puede aprovechar mejor. Los ensamblajes híbridos con otras tecnologías también pueden utilizar mejor la codificación de 2 bases.

Ver también

Referencias

^ Jay Shendure y col. (2005) Secuenciación multiplex precisa de polonia de un genoma bacteriano evolucionado. Ciencia 309 (5741), 1728-1732
^ Secuencia y variación estructural en un genoma humano descubierta por secuenciación de ligación masivamente paralela de lectura corta utilizando codificación de dos bases. McKernan KJ, Peckham HE, Costa GL, McLaughlin SF, Fu Y, Tsung EF, Clouser CR, Duncan C, Ichikawa JK, Lee CC, Zhang Z, Ranade SS, Dimalanta ET, Hyland FC, Sokolsky TD, Zhang L, Sheridan A , Fu H, Hendrickson CL, Li B, Kotler L, Stuart JR, Malek JA, Manning JM, Antipova AA, Perez DS, Moore MP, Hayashibara KC, Lyons MR, Beaudoin RE, Coleman BE, Laptewicz MW, Sannicandro AE, Rhodes MD, Gottimukkala RK, Yang S, Bafna V, Bashir A, MacBride A, Alkan C, Kidd JM, Eichler EE, Reese MG, De La Vega FM, Blanchard AP. Genome Res. Septiembre de 2009; 19 (9): 1527-41. Epub 2009 22 de junio.
^ Patente: reactivos, métodos y bibliotecas para secuenciación basada en perlas
^ Artículo: Un mapa de posición de nucleosomas de alta resolución de C. elegans revela una falta de universalidad ...
^ Artículo: Perfiles de transcriptomas de células madre mediante secuenciación de ARNm a escala masiva
^ Creación rápida de perfiles mutacionales de genoma completo utilizando tecnologías de secuenciación de próxima generación, Genome Research, 2008 18: 1638-1642
^ Chetverin, NAR, 1993, Vol.21, No. 10 2349-2353
^ MATTHEW E. HUDSON (2008) Avances en la secuenciación de la ecología genómica y la biología evolutiva. Recursos de ecología molecular 8 (1), 3–17
^ Número de patente estadounidense de Whiteley 4.883.750
^ Patente estadounidense de Macevicz número 5.750.341
^ Transformación de moléculas de ADN individuales en partículas magnéticas fluorescentes fr detección y enumeración de variaciones genéticas, PNAS 22 de julio de 2004 Vol. 100 no. 15, 8817-8822
^ Biosistemas aplicados
^ Resumen técnico: ABI's SOLiD (Seq. By Oligo Ligation / Detection) - SEQanswers
^ [1] Ejemplo de espacio de color a FastQ
^ Smith et al., Genome Research 2008 18: 1638-1642

[1] Jay Shendure y col. (2005) Secuenciación multiplex precisa de polonia de un genoma bacteriano evolucionado. Ciencia 309 (5741), 1728-1732

[2] Secuencia y variación estructural en un genoma humano descubierta por secuenciación de ligación masivamente paralela de lectura corta utilizando codificación de dos bases. McKernan KJ, Peckham HE, Costa GL, McLaughlin SF, Fu Y, Tsung EF, Clouser CR, Duncan C, Ichikawa JK, Lee CC, Zhang Z, Ranade SS, Dimalanta ET, Hyland FC, Sokolsky TD, Zhang L, Sheridan A , Fu H, Hendrickson CL, Li B, Kotler L, Stuart JR, Malek JA, Manning JM, Antipova AA, Perez DS, Moore MP, Hayashibara KC, Lyons MR, Beaudoin RE, Coleman BE, Laptewicz MW, Sannicandro AE, Rhodes MD, Gottimukkala RK, Yang S, Bafna V, Bashir A, MacBride A, Alkan C, Kidd JM, Eichler EE, Reese MG, De La Vega FM, Blanchard AP. Genome Res. Septiembre de 2009; 19 (9): 1527-41. Epub 2009 22 de junio.

[3] Patente: reactivos, métodos y bibliotecas para secuenciación basada en perlas

[4] Artículo: Un mapa de posición de nucleosomas de alta resolución de C. elegans revela una falta de universalidad ...

[5] Artículo: Perfiles de transcriptomas de células madre mediante secuenciación de ARNm a escala masiva

[6] Creación rápida de perfiles mutacionales de genoma completo utilizando tecnologías de secuenciación de próxima generación, Genome Research, 2008 18: 1638-1642

[7] Chetverin, NAR, 1993, Vol.21, No. 10 2349-2353

[8] MATTHEW E. HUDSON (2008) Avances en la secuenciación de la ecología genómica y la biología evolutiva. Recursos de ecología molecular 8 (1), 3–17

[9] Número de patente estadounidense de Whiteley 4.883.750

[10] Patente estadounidense de Macevicz número 5.750.341

[11] Transformación de moléculas de ADN individuales en partículas magnéticas fluorescentes fr detección y enumeración de variaciones genéticas, PNAS 22 de julio de 2004 Vol. 100 no. 15, 8817-8822

[12] Biosistemas aplicados

[13] Resumen técnico: ABI's SOLiD (Seq. By Oligo Ligation / Detection) - SEQanswers

[14] [1] Ejemplo de espacio de color a FastQ

[15] Smith et al., Genome Research 2008 18: 1638-1642

[1]