La teoría de la secuenciación de ADN es el amplio cuerpo de trabajo que intenta sentar las bases analíticas para determinar el orden de nucleótidos específicos en una secuencia de ADN , también conocida como secuenciación de ADN . Los aspectos prácticos giran en torno al diseño y optimización de proyectos de secuenciación (conocidos como "genómica estratégica"), la predicción del rendimiento del proyecto, la resolución de problemas de resultados experimentales, la caracterización de factores como el sesgo de secuencia y los efectos de los algoritmos de procesamiento de software y la comparación de varios métodos de secuenciación entre sí. En este sentido, podría considerarse una rama de la ingeniería de sistemas o la investigación de operaciones.. El archivo permanente de trabajo es principalmente matemático, aunque a menudo también se realizan cálculos numéricos para problemas particulares. La teoría de la secuenciación del ADN aborda los procesos físicos relacionados con la secuenciación del ADN y no debe confundirse con las teorías del análisis de las secuencias de ADN resultantes, por ejemplo , la alineación de secuencias . Las publicaciones [1] a veces no hacen una distinción cuidadosa, pero estas últimas se ocupan principalmente de cuestiones algorítmicas . La teoría de la secuenciación se basa en elementos de las matemáticas , la biología y la ingeniería de sistemas , por lo que es altamente interdisciplinaria. El tema puede estudiarse en el contexto de la biología computacional .
Teoría y estrategias de secuenciación
Secuenciación como problema de cobertura
Todos los métodos principales de secuenciación de ADN se basan en la lectura de pequeños fragmentos de ADN y, posteriormente, en la reconstrucción de estos datos para inferir el ADN objetivo original, ya sea mediante ensamblaje o alineación con una referencia. La abstracción común a estos métodos es la de un problema de cobertura matemático . [2] Por ejemplo, uno puede imaginar un segmento de línea que represente el objetivo y un proceso posterior en el que se "suelten" segmentos más pequeños en ubicaciones aleatorias del objetivo. El objetivo se considera "secuenciado" cuando se acumula una cobertura adecuada (por ejemplo, cuando no quedan espacios).
Las propiedades abstractas del recubrimiento han sido estudiadas por matemáticos durante más de un siglo. [3] Sin embargo, la aplicación directa de estos resultados en general no ha sido posible. Las soluciones matemáticas de forma cerrada, especialmente para distribuciones de probabilidad, a menudo no se pueden evaluar fácilmente. Es decir, implican cantidades excesivamente grandes de tiempo informático para los parámetros característicos de la secuenciación del ADN . La configuración de Stevens es un ejemplo. [4] Los resultados obtenidos desde la perspectiva de las matemáticas puras tampoco tienen en cuenta los factores que son realmente importantes en la secuenciación, por ejemplo, superposición detectable en fragmentos de secuenciación, doble hebra, efectos de borde y multiplicidad de objetivos. En consecuencia, el desarrollo de la teoría de la secuenciación ha avanzado más de acuerdo con la filosofía de las matemáticas aplicadas . En particular, se ha centrado en problemas y hace un uso conveniente de aproximaciones, simulaciones, etc.
Usos tempranos derivados de la teoría de probabilidad elemental
El resultado más temprano puede obtenerse directamente de la teoría de probabilidad elemental. Supongamos que modelamos el proceso anterior tomando y como la longitud del fragmento y la longitud del objetivo, respectivamente. La probabilidad de "cubrir" cualquier ubicación dada en el objetivo con un fragmento en particular es entonces. (Esto supone, que es válido a menudo, pero no para todos los casos del mundo real). Por lo tanto, la probabilidad de que un solo fragmento no cubra una ubicación determinada en el objetivo es, y por fragmentos. Por lo tanto, la probabilidad de cubrir una ubicación determinada en el objetivo con al menos un fragmento es
Esta ecuación se utilizó por primera vez para caracterizar bibliotecas de plásmidos, [5] pero puede aparecer en una forma modificada. Para la mayoría de proyectos, de modo que, en un buen grado de aproximación
dónde se llama redundancia . Tenga en cuenta la importancia de la redundancia como representación del número medio de veces que una posición se cubre con fragmentos. Tenga en cuenta también que al considerar el proceso de cobertura en todas las posiciones en el objetivo, esta probabilidad es idéntica al valor esperado de la variable aleatoria, la fracción de la cobertura objetivo. El resultado final,
sigue siendo de uso generalizado como un estimador de " reverso del sobre " y predice que la cobertura para todos los proyectos evoluciona a lo largo de una curva universal que es una función sólo de la redundancia.
Teoría de Lander-Waterman
En 1988, Eric Lander y Michael Waterman publicaron un importante artículo [6] que examinaba el problema de la cobertura desde el punto de vista de las lagunas. Aunque se centraron en el llamado problema del mapeo , la abstracción de la secuenciación es muy parecida. Proporcionaron una serie de resultados útiles que se adoptaron como teoría estándar desde los primeros días de la secuenciación del genoma "a gran escala". [7] Su modelo también se utilizó en el diseño del Proyecto Genoma Humano y sigue desempeñando un papel importante en la secuenciación del ADN.
En última instancia, el objetivo principal de un proyecto de secuenciación es cerrar todas las brechas, por lo que la "perspectiva de la brecha" fue una base lógica para desarrollar un modelo de secuenciación. Uno de los resultados más utilizados de este modelo es el número esperado de contigs , dado el número de fragmentos secuenciados. Si uno descuida la cantidad de secuencia que es esencialmente "desperdiciada" al tener que detectar superposiciones, su teoría cede
En 1995, Roach [8] publicó mejoras a esta teoría, lo que le permitió aplicarla a proyectos de secuenciación en los que el objetivo era secuenciar completamente un genoma diana. Michael Wendl y Bob Waterston [9] confirmaron, basándose en el método de Stevens, [4] que ambos modelos produjeron resultados similares cuando el número de contigs era sustancial, como en proyectos de secuenciación o mapeo de baja cobertura. A medida que los proyectos de secuenciación se intensificaron en la década de 1990 y los proyectos se acercaron a su finalización, las aproximaciones de baja cobertura se volvieron inadecuadas y se necesitaba el modelo exacto de Roach. Sin embargo, a medida que se redujo el costo de la secuenciación, los parámetros de los proyectos de secuenciación se volvieron más fáciles de probar directamente de manera empírica, y disminuyó el interés y la financiación de la genómica estratégica.
Las ideas básicas de la teoría de Lander-Waterman llevaron a una serie de resultados adicionales para variaciones particulares en las técnicas de mapeo. [10] [11] [12] Sin embargo, los avances tecnológicos han hecho que las teorías cartográficas sean en gran parte obsoletas, excepto en organismos distintos de los organismos modelo altamente estudiados (por ejemplo, levaduras, moscas, ratones y humanos).
Estrategia de estacionamiento
La estrategia de estacionamiento para secuenciar se asemeja al proceso de estacionar autos a lo largo de una acera. Cada coche es un clon secuenciado y la acera es el objetivo genómico. [13] Cada clon secuenciado se analiza para garantizar que los clones secuenciados posteriormente no se superpongan a ningún clon secuenciado previamente. Ningún esfuerzo de secuenciación es redundante en esta estrategia. Sin embargo, al igual que los espacios entre los automóviles estacionados, los espacios no secuenciados menores que la longitud de un clon se acumulan entre los clones secuenciados. Puede haber un costo considerable para cerrar esas brechas.
Secuenciación final por pares
En 1995, Roach et al. [14] propuso y demostró mediante simulaciones una generalización de un conjunto de estrategias exploradas anteriormente por Edwards y Caskey. [15] Este método de secuenciación del genoma completo se hizo inmensamente popular ya que fue defendido por Celera y se utilizó para secuenciar varios organismos modelo antes de que Celera lo aplicara al genoma humano. En la actualidad, la mayoría de los proyectos de secuenciación emplean esta estrategia, a menudo denominada secuenciación de extremos emparejados.
Avances posteriores al Proyecto Genoma Humano
Los procesos físicos y los protocolos de secuenciación del ADN han seguido evolucionando, impulsados en gran medida por los avances en los métodos bioquímicos, la instrumentación y las técnicas de automatización. En la actualidad, existe una amplia gama de problemas en los que la secuenciación de ADN se ha abierto camino, incluida la metagenómica y la secuenciación médica (del cáncer) . Hay factores importantes en estos escenarios que la teoría clásica no tiene en cuenta. El trabajo reciente ha comenzado a centrarse en resolver los efectos de algunos de estos problemas. El nivel de matemáticas se vuelve proporcionalmente más sofisticado.
Varios artefactos de secuenciación de insertos grandes
Los biólogos han desarrollado métodos para filtrar regiones de genomas altamente repetitivas y esencialmente no secuenciables. Estos procedimientos son importantes para organismos cuyos genomas consisten principalmente en dicho ADN, por ejemplo, maíz. Producen multitud de pequeñas islas de productos de ADN secuenciables. Wendl y Barbazuk [16] propusieron una extensión de la teoría de Lander-Waterman para tener en cuenta las "brechas" en el objetivo debido al filtrado y el llamado "efecto de borde". Este último es un sesgo de muestreo específico de la posición, por ejemplo, la posición base del terminal tiene solo una posibilidad de ser cubierto, a diferencia de para posiciones interiores. Para, la teoría clásica de Lander-Waterman todavía ofrece buenas predicciones, pero la dinámica cambia para obtener redundancias más altas.
Los métodos de secuenciación modernos suelen secuenciar ambos extremos de un fragmento más grande, lo que proporciona información de enlace para el ensamblaje de novo y mejores probabilidades de alineación con la secuencia de referencia. Los investigadores generalmente creen que las longitudes de datos más largas (longitudes de lectura) mejoran el rendimiento para objetivos de ADN muy grandes, una idea coherente con las predicciones de los modelos de distribución. [17] Sin embargo, Wendl [18] mostró que los fragmentos más pequeños proporcionan una mejor cobertura en objetivos lineales pequeños porque reducen el efecto de borde en moléculas lineales. Estos hallazgos tienen implicaciones para la secuenciación de los productos de los procedimientos de filtrado de ADN. El emparejamiento de lecturas y el tamaño de los fragmentos evidentemente tienen una influencia insignificante para los objetivos grandes de clases de genoma completo.
Secuenciación individual y poblacional
La secuenciación está emergiendo como una herramienta importante en medicina, por ejemplo, en la investigación del cáncer. Aquí, la capacidad de detectar mutaciones heterocigotas es importante y esto solo se puede hacer si se obtiene la secuencia del genoma diploide . En los esfuerzos pioneros para secuenciar individuos, Levy et al. [19] y Wheeler et al. , [20] quienes secuenciaron a Craig Venter y Jim Watson , respectivamente, describieron modelos para cubrir ambos alelos en un genoma. Wendl y Wilson [21] siguieron con una teoría más general que permitía un número arbitrario de recubrimientos de cada alelo y una ploidía arbitraria . Estos resultados apuntan a la conclusión general de que la cantidad de datos necesarios para tales proyectos es significativamente mayor que la de los proyectos haploides tradicionales. Generalmente, ahora es estándar una redundancia de al menos 30 veces, es decir, cada nucleótido abarcado por un promedio de 30 lecturas de secuencia. [22] Sin embargo, los requisitos pueden ser incluso mayores, dependiendo de qué tipo de eventos genómicos se encuentren. Por ejemplo, en el llamado "método de pares de lectura discordantes", se pueden inferir inserciones de ADN si la distancia entre pares de lectura es mayor de lo esperado. Los cálculos muestran que se necesita una redundancia de alrededor de 50 veces para evitar errores de falso positivo en el umbral del 1%. [23]
El advenimiento de la secuenciación de próxima generación también ha hecho factible la secuenciación de poblaciones a gran escala, por ejemplo, el Proyecto 1000 Genomas para caracterizar la variación en grupos de población humana. Si bien la variación común se captura fácilmente, la variación rara plantea un desafío de diseño: muy pocas muestras con una redundancia de secuencia significativa corre el riesgo de no tener una variante en el grupo de muestra, pero las muestras grandes con una redundancia leve no capturan una variante en el conjunto de lectura que realmente está en el grupo de muestra. Wendl y Wilson [24] informan de un conjunto simple de reglas de optimización que maximizan la probabilidad de descubrimiento para un conjunto dado de parámetros. Por ejemplo, para observar un alelo raro al menos dos veces (para eliminar la posibilidad es única de un individuo), se debe usar una redundancia de un poco menos de 4 veces, independientemente del tamaño de la muestra.
Secuenciación metagenómica
Los instrumentos de próxima generación ahora también permiten la secuenciación de comunidades metagenómicas no cultivadas enteras. El escenario de secuenciación es más complicado aquí y hay varias formas de enmarcar las teorías de diseño para un proyecto dado. Por ejemplo, Stanhope [25] desarrolló un modelo probabilístico para la cantidad de secuencia necesaria para obtener al menos un contig de un tamaño dado de cada organismo nuevo de la comunidad, mientras que Wendl et al. informó un análisis para el tamaño medio del contig o la probabilidad de recuperar completamente un organismo nuevo para una rareza dada dentro de la comunidad. [26] Por el contrario, Hooper et al. proponen un modelo semi-empírico basado en la distribución gamma . [27]
Limitaciones
Las teorías de secuenciación del ADN a menudo invocan la suposición de que ciertas variables aleatorias en un modelo son independientes y están distribuidas de manera idéntica . Por ejemplo, en la teoría de Lander-Waterman, se supone que un fragmento secuenciado tiene la misma probabilidad de cubrir cada región de un genoma y se supone que todos los fragmentos son independientes entre sí. En realidad, los proyectos de secuenciación están sujetos a varios tipos de sesgos, incluidas las diferencias de qué tan bien se pueden clonar las regiones, las anomalías de secuenciación, los sesgos en la secuencia objetivo (que no es aleatoria) y los errores y sesgos que dependen del software. En general, la teoría concordará bien con la observación hasta el punto en que se hayan generado suficientes datos para exponer sesgos latentes. [21] Los tipos de sesgos relacionados con la secuencia objetivo subyacente son particularmente difíciles de modelar, ya que es posible que la secuencia en sí no se conozca a priori . Esto presenta un tipo de problema Catch-22 (lógico) .
Ver también
- Biología Computacional
- Bioinformática
- Biologia matematica
- Puntuación de Sulston
Referencias
- ^ Waterman, Michael S. (1995). Introducción a la Biología Computacional . Boca Raton: Chapman y Hall / CRC. ISBN 978-0-412-99391-6.
- ^ Hall, P. (1988). Introducción a la Teoría de los Procesos de Cobertura . Nueva York: Wiley. ISBN 978-0-471-85702-0.
- ^ Solomon, H. (1978). Probabilidad geométrica . Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 978-0-898-71025-0.
- ^ a b Stevens WL (1939). "Solución a un problema geométrico en probabilidad". Anales de la eugenesia . 9 (4): 315–320. doi : 10.1111 / j.1469-1809.1939.tb02216.x .
- ^ Clarke L, Carbon J (1976). "Un banco de colonias que contiene plásmidos híbridos Col-El sintéticos representativos de todo el genoma de E. coli". Celular . 9 (1): 91–99. doi : 10.1016 / 0092-8674 (76) 90055-6 . PMID 788919 . S2CID 2535372 .
- ^ Lander ES , Waterman MS (1988). "Mapeo genómico por huellas dactilares de clones aleatorios: un análisis matemático". Genómica . 2 (3): 231–239. doi : 10.1016 / 0888-7543 (88) 90007-9 . PMID 3294162 .
- ^ Fleischmann RD; et al. (1995). "Secuenciación aleatoria de todo el genoma y ensamblaje de Haemophilus influenzae Rd". Ciencia . 269 (5223): 496–512. Código Bibliográfico : 1995Sci ... 269..496F . doi : 10.1126 / science.7542800 . PMID 7542800 .
- ^ Roach JC (1995). "Subclonación aleatoria" . Investigación del genoma . 5 (5): 464–473. doi : 10.1101 / gr.5.5.464 . PMID 8808467 .
- ^ Wendl MC , Waterston RH (2002). "Modelo de brecha generalizada para mapeo de huellas dactilares de clones de cromosomas artificiales bacterianos y secuenciación de escopeta" . Investigación del genoma . 12 (12): 1943-1949. doi : 10.1101 / gr.655102 . PMC 187573 . PMID 12466299 .
- ^ Arratia R ; et al. (1991). "Mapeo genómico mediante el anclaje de clones aleatorios: un análisis matemático". Genómica . 11 (4): 806–827. CiteSeerX 10.1.1.80.8788 . doi : 10.1016 / 0888-7543 (91) 90004-X . PMID 1783390 .
- ^ Puerto E; et al. (1995). "Mapeo genómico por clones aleatorios caracterizados al final: un análisis matemático". Genómica . 26 (1): 84–100. CiteSeerX 10.1.1.74.4380 . doi : 10.1016 / 0888-7543 (95) 80086-2 . PMID 7782090 .
- ^ Zhang MQ, Marr TG (1993). "Mapeo del genoma por anclaje no aleatorio: un análisis teórico discreto" . Actas de la Academia Nacional de Ciencias . 90 (2): 600–604. Código Bibliográfico : 1993PNAS ... 90..600Z . doi : 10.1073 / pnas.90.2.600 . PMC 45711 . PMID 8421694 .
- ^ Roach JC; et al. (2000). "Estrategias de estacionamiento para la secuenciación del genoma" . Investigación del genoma . 10 (7): 1020–1030. doi : 10.1101 / gr.10.7.1020 . PMC 310895 . PMID 10899151 .
- ^ Roach JC, Boysen C, Wang K, Hood L (1995). "Secuenciación final por pares: un enfoque unificado para el mapeo genómico y la secuenciación". Genómica . 26 (2): 345–353. doi : 10.1016 / 0888-7543 (95) 80219-C . PMID 7601461 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Edwards, A .; Caskey, T. (1991). Estrategias de cierre para secuenciación aleatoria de ADN . 3 . Un compañero de métodos en enzimología. págs. 41–47.
- ^ Wendl MC , Barbazuk WB (2005). "Extensión de la teoría de Lander-Waterman para secuenciar bibliotecas de ADN filtrado" . BMC Bioinformática . 6 : artículo 245. doi : 10.1186 / 1471-2105-6-245 . PMC 1280921 . PMID 16216129 .
- ^ Wendl MC (2006). "Modelado de ocupación de distribución de cobertura para secuenciación de ADN de escopeta de genoma completo". Boletín de Biología Matemática . 68 (1): 179-196. doi : 10.1007 / s11538-005-9021-4 . PMID 16794926 . S2CID 23889071 .
- ^ Wendl MC (2006). "Una teoría de cobertura general para la secuenciación de ADN de escopeta" . Revista de Biología Computacional . 13 (6): 1177–1196. doi : 10.1089 / cmb.2006.13.1177 . PMID 16901236 .
- ^ Levy S; et al. (2007). "La secuencia del genoma diploide de un ser humano individual" . PLOS Biología . 5 (10): artículo e254. doi : 10.1371 / journal.pbio.0050254 . PMC 1964779 . PMID 17803354 .
- ^ Wheeler DA; et al. (2008). "El genoma completo de un individuo mediante secuenciación masiva de ADN en paralelo" . Naturaleza . 452 (7189): 872–876. Código Bib : 2008Natur.452..872W . doi : 10.1038 / nature06884 . PMID 18421352 .
- ^ a b Wendl MC , Wilson RK (2008). "Aspectos de cobertura en secuenciación de ADN médico" . BMC Bioinformática . 9 : artículo 239. doi : 10.1186 / 1471-2105-9-239 . PMC 2430974 . PMID 18485222 .
- ^ Ley TJ ; et al. (2008). "Secuenciación de ADN de un genoma de leucemia mieloide aguda citogenéticamente normal" . Naturaleza . 456 (7218): 66–72. Código bibliográfico : 2008Natur.456 ... 66L . doi : 10.1038 / nature07485 . PMC 2603574 . PMID 18987736 .
- ^ Wendl MC , Wilson RK (2009). "Aspectos estadísticos de discernir variación estructural de tipo indel a través de la alineación de la secuencia de ADN" . BMC Genomics . 10 : artículo 359. doi : 10.1186 / 1471-2164-10-359 . PMC 2748092 . PMID 19656394 .
- ^ Wendl MC , Wilson RK (2009). "La teoría del descubrimiento de variantes raras mediante secuenciación de ADN" . BMC Genomics . 10 : artículo 485. doi : 10.1186 / 1471-2164-10-485 . PMC 2778663 . PMID 19843339 .
- ^ Stanhope SA (2010). "Modelado de ocupación de probabilidades de tamaño máximo de contig y diseño de experimentos de metagenómica" . PLOS ONE . 5 (7): artículo e11652. Código Bibliográfico : 2010PLoSO ... 511652S . doi : 10.1371 / journal.pone.0011652 . PMC 2912229 . PMID 20686599 .
- ^ Wendl MC ; et al. (2012). "Teorías de cobertura para la secuenciación del ADN metagenómico basadas en una generalización del teorema de Stevens" . Revista de Biología Matemática . 67 (5): 1141-1161. doi : 10.1007 / s00285-012-0586-x . PMC 3795925 . PMID 22965653 .
- ^ Hooper SD; et al. (2010). "Estimación de la cobertura y abundancia de ADN en metagenomas mediante una aproximación gamma" . Bioinformática . 26 (3): 295-301. doi : 10.1093 / bioinformatics / btp687 . PMC 2815663 . PMID 20008478 .