Errores de lectura de ADN

En bioinformática , se produce un error de lectura de ADN cuando un ensamblador de secuencias cambia una base de ADN por una base diferente . Las lecturas del ensamblador de secuencias se pueden usar para crear un gráfico de Bruijn , que se puede usar de varias maneras para encontrar errores .

Descripción general

Figura 1

Una secuencia de ADN de muestra y su respectivo gráfico de Bruijn

En un gráfico de De Bruijn , existe la posibilidad de 4 ^ k nodos diferentes para hacer arreglos de un genoma . El número de nodos utilizados para crear el gráfico se puede reducir considerando solo los k-mers que se encuentran dentro de la cadena de ADN de interés. Dada la secuencia 1, es posible determinar los nodos de tamaño 7, o 7-mers, que estarán en el gráfico. Estos 7-mers luego crean el gráfico que se muestra en la figura 1. ^[1]

El gráfico que se muestra en la figura 1 es una versión muy simple de cómo podría verse un gráfico. ^[2] Este gráfico se forma tomando los últimos 6 elementos del 7-mer y vinculándolos al nodo cuyos primeros 6 elementos son iguales. La Figura 1 es lo más simplista que puede ser un gráfico de De Bruijn , ya que cada nodo tiene exactamente una ruta de entrada y una de salida. La mayoría de las veces, los gráficos tendrán más de un borde dirigido a un nodo y / o más de un borde saliendo de un nodo. Esto sucede debido a la forma en que están conectados los nodos. Los nodos están conectados por bordes que apuntan a nodos si los últimos k-1 elementos del k -mer coinciden con los primeros k-1 elementos de cualquier nodo. Esto permite que se forme un gráfico de Bruijn de múltiples bordes . Estos gráficos más complicados ocurren debido a errores de lectura o variaciones en las cadenas de ADN. Ambas causas hacen que sea difícil determinar la estructura correcta del ADN y qué está causando las diferencias. Dado que la mayoría de las cadenas de ADN probablemente incluirán errores de lectura y variaciones, los científicos esperan utilizar un proceso de ensamblaje que pueda fusionar los nodos del gráfico cuando estén conectados de manera inequívoca después de que el gráfico haya sido limpiado de vértices y bordes creados por los errores. ^[3]

Consejos y burbujas

Cuando se forma un gráfico a partir de datos secuenciados , los errores de lectura forman consejos y burbujas. Una sugerencia es donde ocurrió un error durante el proceso de secuenciación y ha causado que el gráfico finalice prematuramente e incluye k -mers correctos e incorrectos . También se forma una burbuja cuando ocurre un error durante el proceso de lectura de la secuencia; sin embargo, dondequiera que ocurra el error, hay una ruta para que las lecturas k -mer se vuelvan a conectar con el gráfico principal y continúen como si nada hubiera pasado. Cuando hay puntas y burbujas presentes en un gráfico de Bruijn formado a partir de los datos, pueden eliminarse solo si un error es lo que provocó la aparición de la punta o la burbuja. Cuando los científicos utilizan un genoma de referencia , pueden saber rápida y fácilmente dónde se encuentran las puntas comparando el gráfico del genoma de referencia y el gráfico de la secuencia. Si no hay un genoma de referencia, las puntas se eliminan rastreando las ramas hacia atrás hasta encontrar un punto de ambigüedad. Luego, las puntas se retiran solo si la rama que contiene la punta es más corta que una longitud de umbral establecida. ^[3] El proceso de eliminación de burbujas es un poco más complicado. Lo primero que debe hacerse es identificar el comienzo de la burbuja. A partir de ahí, se sigue cada camino desde el inicio de la burbuja hasta el punto de reconexión. El punto de reconexión puede ser diferente para cada ruta. Dado que puede haber caminos de varias longitudes desde el nodo inicial, se elimina el camino que tiene una cobertura menor. ^[3]

Ejemplo

secuencia 2

Dada una secuencia de cualquier longitud, el primer paso que debe realizarse es ingresar la secuencia en un programa de secuenciación, ordenarla y un par de bases de retorno (bp) lee de cierta longitud. Dado que no existe un programa de secuenciación que sea completamente preciso, siempre habrá algunas lecturas que contengan errores. El método de secuenciación más común es el método de la escopeta , que es el método más probablemente utilizado en la secuencia 2. Una vez que se decide un método, debe especificar la longitud de las lecturas bp que le gustaría que devolviera. En el caso de la secuencia 2, devolvió lecturas de 7 pb con todos los errores cometidos durante el proceso señalados en rojo. ^[4]

Una vez que se obtienen las lecturas, se convierten en k -mers. Los k -dores a continuación, se registran en una tabla con cuántas veces cada k -mer apareció en las lecturas. Para este ejemplo, cada lectura se dividió en 4 meros y, si había un error, se registró en rojo. A continuación, se registraron todos los 4 meros, con su frecuencia en la siguiente tabla.

ACAG (5X)	A C GC	AGA A	AGAC (9X)	AGAG (9X)	AGAT (8X)
AGGC (16X)	AGTC (7X)	ATCC (7X)	ATGA (8X)	CCGA (7X)	CGA C
CGAG (8X)	CGAT (6X)	ETIQUETA C (2X)	CT C T	CTTT (8X)	GACA (8X)
GA C G	GAGA (12X)	GAGG (16X)	GATG (5X)	GATC (8X)	GAT T
GCT C (2 veces)	GCTT (8X)	GGCT (11X)	GTCG (9X)	TAGA (16X)	ETIQUETA (3X)
TCCG (7X)	TCGA (10X)	T C TA (2X)	TGAG (9X)	TTAG (12X)	TTTA (8X)

Cada celda individual de la tabla formará un nodo, lo que permitirá que se forme un gráfico de De Bruijn a partir de los k -mers dados. En la figura 2, se identifican los tramos lineales y luego se forma otro gráfico, la figura 3, donde los tramos lineales se han convertido en un solo nodo, de un tamaño k -mer diferente , lo que permite un gráfico más conciso. En este gráfico simplificado, es fácil identificar varias puntas y burbujas, como se muestra en la figura 4. Estas burbujas y puntas se pueden eliminar, ya que podemos identificar que se formaron a partir de errores en las lecturas de pb, lo que nos da una estructura gráfica. que debe reflejar de forma precisa y completa la secuencia original. ^[4] Si sigue el gráfico de Bruijn que se muestra en la figura 5, verá que la secuencia formada realmente coincide con la secuencia de ADN dada en la secuencia 2.

figura 2 El gráfico de De Bruijn con tramos lineales identificados	figura 3 Gráfico de Bruijn simplificado
figura 4 El gráfico de De Bruijn con puntas y burbujas identificadas	figura 5 Gráfico final de Bruijn de la cadena de ADN

Comparando dos hebras de ADN

Al comparar dos hebras de ADN , los gráficos de Bruijn coloreados se utilizan con frecuencia para identificar errores. Estos errores, a menudo polimorfismos , provocan la formación de burbujas similares a las mencionadas anteriormente. Actualmente se utilizan cuatro algoritmos principales para generalizar los datos y localizar burbujas. Los cuatro algoritmos amplían los gráficos de Bruijn al permitir que los nodos y los bordes del gráfico sean coloreados por las muestras de las que se observaron ^[5]

Llamada de burbuja

El uso más simple de un gráfico de Bruijn coloreado se conoce como algoritmo de llamada de burbujas. Este algoritmo busca y localiza burbujas en el genoma que difieren del original. Estas burbujas deben estar "limpias", o simplemente una divergencia del genoma de referencia, pero no pueden ser causadas por deleciones de bases de ADN. Este algoritmo puede tener altas tasas de falsos positivos ya que existe la dificultad de separar las burbujas inducidas por repetición y variante; sin embargo, a menudo hay un genoma de referencia para ayudar a mejorar la confiabilidad . El genoma de referencia también ayuda en la detección de variantes y es esencial para detectar sitios variantes. ^[5] Recientemente, los científicos han descubierto una forma de utilizar el algoritmo de llamada de burbujas con detección de variación del número de copias para permitir una oportunidad de detección imparcial de estas variaciones en el futuro ^[6]^[7]

Divergencia de caminos

Cuando se observan variantes complejas, existe una posibilidad muy baja de que hagan un contig limpio . Dado que este es el caso más a menudo, el algoritmo de divergencia de ruta es útil, especialmente cuando se considera dónde ocurren las deleciones y la variante es tan compleja que se limita al alelo de referencia . Cuando se forma una burbuja, el algoritmo de divergencia de ruta se utiliza con más frecuencia y permite que las burbujas detectadas se eliminen en un procedimiento muy sistemático. El algoritmo primero localiza cada punto de divergencia. Luego, desde cada punto de divergencia , se trazan las hebras que forman la burbuja para encontrar dónde se unen las dos rutas después de n nodos. Si las dos rutas se unen, la ruta con una cobertura menor se elimina y se almacena en un archivo. ^[3]^[8]

Análisis de muestras múltiples

El uso de múltiples muestras mejora sustancialmente la potencia y la tasa de falso descubrimiento de la detección de variantes. En los casos más simples, las muestras se combinan en un grupo de un solo color y los datos se analizan como se describió anteriormente. Sin embargo, al mantener colores separados para cada conjunto de muestras, se presenta información adicional sobre cómo se formaron las burbujas, ya sea por error o por repeticiones. ^[5] En 1997, el Departamento de Tecnología de Genzyme Genetics en Framingham , Massachusetts , desarrolló un nuevo enfoque que proporcionó un gran avance en el tratamiento de las burbujas utilizando el ensayo de diagnóstico de alelos específicos múltiples (MASDA). Este programa combina transferencia puntual directa, hibridación de sonda simultánea compleja y detección directa de mutaciones para ayudar a resolver el problema dual del análisis de muestras múltiples. ^[9]

Genotipado

Los gráficos coloreados de De Bruijn se pueden usar para genotipar cualquier muestra de ADN en un loci conocido , incluso cuando la cobertura es menos que suficiente para el ensamblaje de variantes. ^[5] El primer paso de este proceso es construir un gráfico del alelo de referencia , variantes conocidas y datos de la muestra. El algoritmo calcula entonces la probabilidad de cada genotipo y da cuenta de la estructura del gráfico, tanto de la secuencia local y de todo el genoma. Esto luego se generaliza a múltiples tipos alélicos y ayuda a genotipar variantes complejas y compuestas. ^[5] Este algoritmo se utiliza con frecuencia, ya que no se forman burbujas con las que lidiar. Esto también ayuda directamente a encontrar los problemas más complicados en los genes de forma más directa que cualquiera de los tres algoritmos mencionados anteriormente. ^[10]

Referencias

^ Mecanismos de recombinación del ADN y reordenamientos del genoma: intersección entre la recombinación homóloga, la replicación del ADN y la reparación del ADN . Prensa académica. 2018-03-06. ISBN 978-0-12-813980-6.
^ De Bruijn Gráfico de una pequeña secuencia . (2011). Obtenido el 7 de febrero de 2015 de Homolog.us - Bioinformatics: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1 Archivado el 30 de octubre de 2014 en Wayback Machine.
↑ a b c d Simpson, JT, Wong, K., Jackman, SD, Schein, JE, Jones, SJ y Birol, I. (2009). ABySS: un ensamblador paralelo para datos de secuencia de lectura corta. Investigación del genoma, 19 (6), 1117-1123
↑ a b Flicek, P. y Birney, E. (2009). El sentido de la secuencia lee: métodos de alineación y montaje. Métodos de la naturaleza, 6 , S6-S12. figura 3
↑ a b c d e Iqbal, Z., Caccamo, M., Turner, I., Flicek, P. y McVean, G. (2012). Montaje de novo y genotipado de variantes utilizando gráficos de Bruijn coloreados. Genética de la naturaleza, 44 (2), 226-232
^ Nijkamp, JF, van den Broek, MA, Geertman, JMA, Reinders, MJ, Daran, JMG y de Ridder, D. (2012). Detección de novo de la variación del número de copias mediante el ensamblaje conjunto. Bioinformática, 28 (24), 3195-3202
^ Mesner, Larry D .; Valsakumar, Veena; Cieślik, Marcin; Pickin, Rebecca; Hamlin, Joyce L .; Bekiranov, Stefan (noviembre de 2013). "El análisis de Bubble-seq del genoma humano revela distintos mecanismos mediados por cromatina para regular los orígenes de disparo temprano y tardío" . Investigación del genoma . 23 (11): 1774-1788. doi : 10.1101 / gr.155218.113 . ISSN 1088-9051 . PMC 3814878 . PMID 23861383 .
^ "Path Divergence - Project Management Knowledge" . Consultado el 9 de octubre de 2020 .
^ Shuber, AP, Michalowsky, LA, Nass, GS, Skoletsky, J., Hire, LM, Kotsopoulos, SK, ... y Klinger, KW (1997). Análisis paralelo de alto rendimiento de cientos de muestras de pacientes para más de 100 mutaciones en múltiples genes de enfermedades. Genética molecular humana, 6 (3), 337-347
^ "Genotipado: una descripción general | Temas de ScienceDirect" . www.sciencedirect.com . Consultado el 9 de octubre de 2020 .

[1] Mecanismos de recombinación del ADN y reordenamientos del genoma: intersección entre la recombinación homóloga, la replicación del ADN y la reparación del ADN . Prensa académica. 2018-03-06. ISBN 978-0-12-813980-6.

[Homolog-2] De Bruijn Gráfico de una pequeña secuencia . (2011). Obtenido el 7 de febrero de 2015 de Homolog.us - Bioinformatics: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1 Archivado el 30 de octubre de 2014 en Wayback Machine.

[Simpson-3] Simpson, JT, Wong, K., Jackman, SD, Schein, JE, Jones, SJ y Birol, I. (2009). ABySS: un ensamblador paralelo para datos de secuencia de lectura corta. Investigación del genoma, 19 (6), 1117-1123

[Flicek-4] Flicek, P. y Birney, E. (2009). El sentido de la secuencia lee: métodos de alineación y montaje. Métodos de la naturaleza, 6 , S6-S12. figura 3

[Iqbal-5] Iqbal, Z., Caccamo, M., Turner, I., Flicek, P. y McVean, G. (2012). Montaje de novo y genotipado de variantes utilizando gráficos de Bruijn coloreados. Genética de la naturaleza, 44 (2), 226-232

[Nijkamp-6] Nijkamp, JF, van den Broek, MA, Geertman, JMA, Reinders, MJ, Daran, JMG y de Ridder, D. (2012). Detección de novo de la variación del número de copias mediante el ensamblaje conjunto. Bioinformática, 28 (24), 3195-3202

[7] Mesner, Larry D .; Valsakumar, Veena; Cieślik, Marcin; Pickin, Rebecca; Hamlin, Joyce L .; Bekiranov, Stefan (noviembre de 2013). "El análisis de Bubble-seq del genoma humano revela distintos mecanismos mediados por cromatina para regular los orígenes de disparo temprano y tardío" . Investigación del genoma . 23 (11): 1774-1788. doi : 10.1101 / gr.155218.113 . ISSN 1088-9051 . PMC 3814878 . PMID 23861383 .

[8] "Path Divergence - Project Management Knowledge" . Consultado el 9 de octubre de 2020 .

[Shuber-9] Shuber, AP, Michalowsky, LA, Nass, GS, Skoletsky, J., Hire, LM, Kotsopoulos, SK, ... y Klinger, KW (1997). Análisis paralelo de alto rendimiento de cientos de muestras de pacientes para más de 100 mutaciones en múltiples genes de enfermedades. Genética molecular humana, 6 (3), 337-347

[10] "Genotipado: una descripción general | Temas de ScienceDirect" . www.sciencedirect.com . Consultado el 9 de octubre de 2020 .

[1]