Genética computacional y estadística

El campo de investigación interdisciplinario de Genética Computacional y Estadística utiliza los últimos enfoques en genómica , genética cuantitativa , ciencias computacionales , bioinformática y estadística para desarrollar y aplicar métodos computacionalmente eficientes y estadísticamente robustos para clasificar conjuntos de datos genómicos cada vez más ricos y masivos para identificar genes complejos patrones, funcionalidades e interacciones de genes, asociaciones de enfermedades y fenotipos que involucran los genomas de varios organismos. ^[1]^[2] Este campo también se conoce como genómica computacional.. Esta es una disciplina importante dentro del campo general de la biología computacional .

Fase de haplotipos

Durante las últimas dos décadas, ha habido un gran interés en comprender la composición genética y genómica de varias especies, incluidos los humanos, con la ayuda principalmente de las diferentes tecnologías de secuenciación del genoma para leer los genomas que se han desarrollado rápidamente. Sin embargo, estas tecnologías aún son limitadas, y los métodos computacionales y estadísticos son imprescindibles para detectar y procesar errores y reunir las piezas de información parcial de las tecnologías de secuenciación y genotipado.

Un haplotipo se define como la secuencia de nucleótidos (A, G, T, C) a lo largo de un solo cromosoma. En los humanos, tenemos 23 pares de cromosomas. Otro ejemplo es el maíz, que también es un diploide con 10 pares de cromosomas. Sin embargo, con la tecnología actual, es difícil separar los dos cromosomas dentro de un par y los ensayos producen el haplotipo combinado, llamado información del genotipo en cada nucleótido. El objetivo de la fase de haplotipos es encontrar la fase de los dos haplotipos dada la información combinada del genotipo. El conocimiento de los haplotipos es extremadamente importante y no solo nos da una imagen completa del genoma de un individuo, sino que también ayuda a otros procesos genómicos computacionales como la imputación entre muchas motivaciones biológicas importantes.

Para los organismos diploides como los humanos y el maíz, cada organismo tiene dos copias de un cromosoma, una de cada uno de los dos padres. Las dos copias son muy similares entre sí. Un haplotipo es la secuencia de nucleótidos en un cromosoma. el problema de la fase de haplotipos se centra en los nucleótidos donde difieren los dos cromosomas homólogos. Computacionalmente, para una región genómica con K sitios de nucleótidos diferentes, hay 2 ^ K - 1 posibles haplotipos, por lo que el problema de la fase se centra en encontrar de manera eficiente los haplotipos más probables dado un genotipo observado. Para obtener más información, consulte Haplotipo .

Predicción de genotipos de SNP por imputación

Aunque el genoma de un organismo superior (eucariotas) contiene millones de polimorfismos de un solo nucleótido (SNP), las matrices de genotipado están predeterminadas para detectar solo un puñado de tales marcadores. Los marcadores faltantes se predicen mediante análisis de imputación. La imputación de marcadores no genotipados se ha convertido ahora en una parte esencial de los estudios genéticos y genómicos. Utiliza el conocimiento del desequilibrio de ligamiento (LD) de haplotipos en un panel de referencia conocido (por ejemplo, HapMap y los proyectos de 1000 genomas) para predecir genotipos en los marcadores faltantes o no genotipados. El proceso permite a los científicos realizar con precisión un análisis tanto de los marcadores polimórficos genotipados como de los marcadores no genotipados que se predicen computacionalmente. Se ha demostrado que los estudios posteriores ^{[3] se} benefician mucho del análisis de imputación en la forma de una mejora del poder para detectar loci asociados a enfermedades. Otra contribución crucial de la imputación es que también facilita la combinación de estudios genéticos y genómicos que utilizaron diferentes plataformas de genotipado para sus experimentos. Por ejemplo. aunque existen 415 millones de variantes genéticas comunes y raras en el genoma humano, las matrices de genotipado actuales, como las micromatrices de Affymetrix e Illumina, solo pueden analizar hasta 2,5 millones de SNP. Por lo tanto, el análisis de imputación es una dirección de investigación importante y es importante identificar métodos y plataformas para imputar datos de genotipos de alta calidad utilizando genotipos existentes y paneles de referencia de recursos disponibles públicamente, como el Proyecto Internacional HapMap y el Proyecto 1000 Genomas. Para los humanos, el análisis ha generado con éxito genotipos predichos en muchas razas, incluidos los europeos ^[4] y los afroamericanos. ^[5] Para otras especies como las plantas, el análisis de imputación es un proceso continuo que utiliza paneles de referencia como el maíz. ^[6]

Existen varios métodos diferentes para la imputación de genotipos. Los tres métodos de imputación más utilizados son: Mach, ^[7] Impute ^[8] y Beagle. ^[9] Los tres métodos utilizan modelos de Markov ocultos como base subyacente para estimar la distribución de las frecuencias de los haplotipos. Mach e Impute2 son más intensivos en computación en comparación con Beagle. Tanto Impute como Mach se basan en diferentes implementaciones del producto de los condicionales o modelo PAC. Beagle agrupa los haplotipos del panel de referencia en grupos en cada SNP para formar un modelo de grupo de haplotipos localizado que le permite variar dinámicamente el número de grupos en cada SNP, lo que lo hace computacionalmente más rápido que Mach e Impute2.

Para obtener más información, consulte imputación (genética) .

Análisis de asociación de todo el genoma

En los últimos años, los estudios de asociación de todo el genoma (GWAS) se han convertido en una herramienta poderosa para investigar la base genética de enfermedades comunes y han mejorado nuestra comprensión de la base genética de muchos rasgos complejos . ^[10] SNP (polimorfismo de un solo nucleótido) tradicional GWAS es el método más utilizado para encontrar variantes de secuencia de ADN asociadas a rasgos; las asociaciones entre variantes y uno o más fenotipos de interés se investigan mediante el estudio de individuos con diferentes fenotipos y el examen de sus genotipos en la posición de cada SNP individualmente. Los SNP para los que una variante es estadísticamente más común en individuos que pertenecen a un grupo fenotípico se informan luego como asociados con el fenotipo. Sin embargo, las enfermedades comunes más complejas involucran pequeñas contribuciones a nivel de población de múltiples loci genómicos. Para detectar efectos tan pequeños como significativos en todo el genoma, los GWAS tradicionales se basan en un mayor tamaño de muestra, por ejemplo, para detectar un efecto que representa el 0,1% de la varianza total, los GWAS tradicionales deben muestrear casi 30.000 individuos. Aunque el desarrollo de tecnologías de genotipado de SNP de alto rendimiento ha reducido el costo y mejorado la eficiencia de la genotipificación. La realización de un estudio a tan gran escala sigue costando tiempo y dinero considerables. Recientemente, se han propuesto métodos de análisis de asociación que utilizan pruebas basadas en genes ^[11] que se basan en el hecho de que es más probable que las variaciones en las regiones reguladoras adyacentes y codificadoras de proteínas tengan relevancia funcional. Estos métodos tienen la ventaja de que pueden dar cuenta de múltiples variantes funcionales independientes dentro de un gen, con el potencial de aumentar en gran medida el poder para identificar genes asociados a enfermedades / rasgos. Además, la imputación de marcadores no genotipados utilizando paneles de referencia conocidos (p. Ej., HapMap y el Proyecto 1000 Genomas) predice genotipos en los marcadores faltantes o no tipificados, lo que permite evaluar con precisión la evidencia de asociación en marcadores genéticos que no están directamente genotipados (además de los marcadores tipificados) y se ha demostrado que mejora el poder de GWAS para detectar loci asociados a enfermedades.

Para obtener más información, consulte Estudio de asociación de todo el genoma

Análisis estadístico de interacciones relacionadas con enfermedades

En esta era de gran cantidad de datos genéticos y genómicos, la representación e identificación precisas de interacciones estadísticas en datos biológicos / genéticos / genómicos constituye una base vital para diseñar intervenciones y soluciones curativas para muchas enfermedades complejas. Se sabe desde hace mucho tiempo que las variaciones en el genoma humano nos hacen susceptibles a muchas enfermedades. Nos dirigimos a toda velocidad hacia la era de la genómica personal y la medicina personalizada que requieren predicciones precisas del riesgo de enfermedad que plantean los factores genéticos predisponentes. Los métodos computacionales y estadísticos para identificar estas variaciones genéticas y construirlos en modelos inteligentes para estudios de análisis de interacción y asociación de enfermedades en todo el genoma son una necesidad imperiosa en muchas áreas de enfermedades. Los principales desafíos son: (1) las enfermedades más complejas involucran contribuciones pequeñas o débiles de múltiples factores genéticos que explican solo una fracción minúscula de la variación poblacional atribuida a factores genéticos. (2) Los datos biológicos son inherentemente extremadamente ruidosos, por lo que las complejidades subyacentes de los sistemas biológicos (como el desequilibrio de ligamiento y la heterogeneidad genética) deben incorporarse a los modelos estadísticos para los estudios de asociación de enfermedades. Las posibilidades de desarrollar muchas enfermedades comunes como el cáncer, las enfermedades autoinmunes y las enfermedades cardiovasculares implican interacciones complejas entre múltiples genes y varios agentes ambientales o covariables endógenos y exógenos. Muchos estudios previos de asociación de enfermedades no pudieron producir resultados significativos debido a la falta de incorporación de interacciones estadísticas en sus modelos matemáticos que expliquen el resultado de la enfermedad. En consecuencia, se desconocen muchos de los riesgos genéticos subyacentes a varias enfermedades y trastornos. Los métodos computacionales como ^[12]^[13]^[14]^[15]^[16]^[17] para modelar e identificar las variaciones genéticas / genómicas subyacentes a los riesgos de enfermedad tienen un gran potencial para mejorar la predicción de los resultados de la enfermedad, comprender las interacciones y el diseño mejores métodos terapéuticos basados en ellos.

Referencias

^ Peltz, Gary, ed. (2005). Genética y genómica computacional - Springer . Link.springer.com. doi : 10.1007 / 978-1-59259-930-1 . ISBN 978-1-58829-187-5.^{[ página necesaria ]}
^ "Nature Reviews Genetics - Focus on Computational Genetics" . Nature.com . Consultado el 20 de octubre de 2013 .^{[ página necesaria ]}
^ Hao, Ke; Chudin, Eugene; McElwee, Joshua; Schadt, Eric E (2009). "Precisión de la imputación de todo el genoma de marcadores no tipificados e impactos en el poder estadístico para estudios de asociación" . BMC Genetics . 10 : 27. doi : 10.1186 / 1471-2156-10-27 . PMC 2709633 . PMID 19531258 .
^ Nothnagel, M; Ellinghaus, D; Schreiber, S; Krawczak, M; Franke, A (2009). "Una evaluación integral de la imputación del genotipo SNP". Genética humana . 125 (2): 163–71. doi : 10.1007 / s00439-008-0606-5 . PMID 19089453 . S2CID 6678626 .
^ Chanda, P; Yuhki, N; Li, M; Bader, JS; Hartz, A; Boerwinkle, E; Kao, WH; Arking, DE (2012). "Evaluación integral del desempeño de imputación en afroamericanos" . Revista de Genética Humana . 57 (7): 411–21. doi : 10.1038 / jhg.2012.43 . PMC 3477509 . PMID 22648186 .
^ Hickey, John M .; Crossa, José; Babu, Raman; De Los Campos, Gustavo (2012). "Factores que afectan la precisión de la imputación de genotipos en poblaciones de varios programas de mejoramiento de maíz". Ciencia de cultivos . 52 (2): 654. doi : 10.2135 / cropci2011.07.0358 .
^ "Mach" .
^ "Impute2" .
^ "Beagle" .
^ McCarthy, MI; Abecasis, GR; Cardon, LR; Goldstein, DB; Little, J; Ioannidis, JP; Hirschhorn, JN (2008). "Estudios de asociación de genoma completo para rasgos complejos: consenso, incertidumbre y desafíos". Nature Reviews Genética . 9 (5): 356–69. doi : 10.1038 / nrg2344 . PMID 18398418 . S2CID 15032294 .
^ Chanda, Pritam; Huang, Hailiang; Arking, Dan E .; Bader, Joel S. (2013). Veitia, Reiner Albert (ed.). "Pruebas de asociación rápida de genes con FAST" . PLOS ONE . 8 (7): e68585. Código bibliográfico : 2013PLoSO ... 868585C . doi : 10.1371 / journal.pone.0068585 . PMC 3720833 . PMID 23935874 .
^ Chanda, P; Zhang, A; Brazeau, D; Sucheston, L; Freudenheim, JL; Ambrosone, C; Ramanathan, M (2007). "Métricas teóricas de la información para visualizar interacciones gen-ambiente" . Revista Estadounidense de Genética Humana . 81 (5): 939–63. doi : 10.1086 / 521878 . PMC 2265645 . PMID 17924337 .
^ Chanda, Pritam; Sucheston, Lara; Liu, Song; Zhang, Aidong ; Ramanathan, Murali (2009). "Análisis de la interacción gen-gen y gen-ambiente teórico de la información de rasgos cuantitativos" . BMC Genomics . 10 : 509. doi : 10.1186 / 1471-2164-10-509 . PMC 2779196 . PMID 19889230 .
^ Chanda, P .; Sucheston, L .; Zhang, A .; Brazeau, D .; Freudenheim, JL; Ambrosone, C .; Ramanathan, M. (2008). "AMBIENCE: Un enfoque novedoso y un algoritmo eficiente para identificar asociaciones genéticas y ambientales informativas con fenotipos complejos" . Genética . 180 (2): 1191–210. doi : 10.1534 / genetics.108.088542 . PMC 2567367 . PMID 18780753 .
^ "MDR" .
^ Shang, Junliang; Zhang, Junying; Sun, Yan; Zhang, Yuanke (2013). "EpiMiner: un método basado en co-información de tres etapas para detectar y visualizar interacciones epistáticas". Procesamiento de señales digitales . 24 : 1-13. doi : 10.1016 / j.dsp.2013.08.007 .
^ "IMPULSAR" .

[1] Peltz, Gary, ed. (2005). Genética y genómica computacional - Springer . Link.springer.com. doi : 10.1007 / 978-1-59259-930-1 . ISBN 978-1-58829-187-5.^{[ página necesaria ]}

[2] "Nature Reviews Genetics - Focus on Computational Genetics" . Nature.com . Consultado el 20 de octubre de 2013 .^{[ página necesaria ]}

[3] Hao, Ke; Chudin, Eugene; McElwee, Joshua; Schadt, Eric E (2009). "Precisión de la imputación de todo el genoma de marcadores no tipificados e impactos en el poder estadístico para estudios de asociación" . BMC Genetics . 10 : 27. doi : 10.1186 / 1471-2156-10-27 . PMC 2709633 . PMID 19531258 .

[4] Nothnagel, M; Ellinghaus, D; Schreiber, S; Krawczak, M; Franke, A (2009). "Una evaluación integral de la imputación del genotipo SNP". Genética humana . 125 (2): 163–71. doi : 10.1007 / s00439-008-0606-5 . PMID 19089453 . S2CID 6678626 .

[5] Chanda, P; Yuhki, N; Li, M; Bader, JS; Hartz, A; Boerwinkle, E; Kao, WH; Arking, DE (2012). "Evaluación integral del desempeño de imputación en afroamericanos" . Revista de Genética Humana . 57 (7): 411–21. doi : 10.1038 / jhg.2012.43 . PMC 3477509 . PMID 22648186 .

[6] Hickey, John M .; Crossa, José; Babu, Raman; De Los Campos, Gustavo (2012). "Factores que afectan la precisión de la imputación de genotipos en poblaciones de varios programas de mejoramiento de maíz". Ciencia de cultivos . 52 (2): 654. doi : 10.2135 / cropci2011.07.0358 .

[7] "Mach" .

[8] "Impute2" .

[9] "Beagle" .

[10] McCarthy, MI; Abecasis, GR; Cardon, LR; Goldstein, DB; Little, J; Ioannidis, JP; Hirschhorn, JN (2008). "Estudios de asociación de genoma completo para rasgos complejos: consenso, incertidumbre y desafíos". Nature Reviews Genética . 9 (5): 356–69. doi : 10.1038 / nrg2344 . PMID 18398418 . S2CID 15032294 .

[11] Chanda, Pritam; Huang, Hailiang; Arking, Dan E .; Bader, Joel S. (2013). Veitia, Reiner Albert (ed.). "Pruebas de asociación rápida de genes con FAST" . PLOS ONE . 8 (7): e68585. Código bibliográfico : 2013PLoSO ... 868585C . doi : 10.1371 / journal.pone.0068585 . PMC 3720833 . PMID 23935874 .

[12] Chanda, P; Zhang, A; Brazeau, D; Sucheston, L; Freudenheim, JL; Ambrosone, C; Ramanathan, M (2007). "Métricas teóricas de la información para visualizar interacciones gen-ambiente" . Revista Estadounidense de Genética Humana . 81 (5): 939–63. doi : 10.1086 / 521878 . PMC 2265645 . PMID 17924337 .

[13] Chanda, Pritam; Sucheston, Lara; Liu, Song; Zhang, Aidong ; Ramanathan, Murali (2009). "Análisis de la interacción gen-gen y gen-ambiente teórico de la información de rasgos cuantitativos" . BMC Genomics . 10 : 509. doi : 10.1186 / 1471-2164-10-509 . PMC 2779196 . PMID 19889230 .

[14] Chanda, P .; Sucheston, L .; Zhang, A .; Brazeau, D .; Freudenheim, JL; Ambrosone, C .; Ramanathan, M. (2008). "AMBIENCE: Un enfoque novedoso y un algoritmo eficiente para identificar asociaciones genéticas y ambientales informativas con fenotipos complejos" . Genética . 180 (2): 1191–210. doi : 10.1534 / genetics.108.088542 . PMC 2567367 . PMID 18780753 .

[15] "MDR" .

[16] Shang, Junliang; Zhang, Junying; Sun, Yan; Zhang, Yuanke (2013). "EpiMiner: un método basado en co-información de tres etapas para detectar y visualizar interacciones epistáticas". Procesamiento de señales digitales . 24 : 1-13. doi : 10.1016 / j.dsp.2013.08.007 .

[17] "IMPULSAR" .

[1]