Imputación (genética)

La imputación en genética se refiere a la inferencia estadística de genotipos no observados . ^[1] Se logra mediante el uso de haplotipos conocidos en una población, por ejemplo, del HapMap o el Proyecto 1000 Genomas en humanos, lo que permite probar la asociación entre un rasgo de interés (por ejemplo, una enfermedad) y variantes genéticas no tipificadas experimentalmente, pero cuyos genotipos han sido inferidos estadísticamente ("imputados"). ^{[2] La} imputación del genotipo generalmente se realiza en SNP , el tipo más común de variación genética.

Por lo tanto, la imputación del genotipo ayuda enormemente a reducir la ubicación de las variantes probablemente causales en los estudios de asociación de todo el genoma , ya que aumenta la densidad de SNP (el tamaño del genoma permanece constante, pero aumenta el número de variantes genéticas) y, por lo tanto, reduce la distancia entre dos adyacentes. SNP.

Contexto

En epidemiología genética y genética cuantitativa , los investigadores tienen como objetivo identificar ubicaciones genómicas donde la variación entre individuos se asocia con la variación en los rasgos de interés entre individuos. Por lo tanto, tales estudios requieren acceso a la estructura genética de un conjunto de individuos. La secuenciación del genoma completo de cada individuo en el estudio a menudo es demasiado costosa, por lo que solo se puede medir un subconjunto del genoma. Esto a menudo significa, primero, considerar solo los polimorfismos de un solo nucleótido (SNP) y descuidar las variantes del número de copias , y segundo, medir solo los SNP que se sabe que son lo suficientemente variables en la población de modo que es probable que también sean variables en el conjunto de individuos bajo consideración. El subconjunto más informativo de SNP se elige en función de la distribución de la variación genética común a lo largo del genoma, por ejemplo, según lo producido por HapMap o el Proyecto 1000 Genomas en humanos. Estos SNP se utilizan luego para construir una micromatriz , lo que permite que cada individuo en el estudio sea genotipado en todos estos SNP simultáneamente.

Motivación

Las matrices de genotipificación utilizadas para los estudios de asociación de todo el genoma (GWAS) se basan en el etiquetado de SNP y, por lo tanto, no genotipifican directamente todas las variaciones del genoma. La imputación de los genotipos a un panel de referencia que ha sido genotipado para un mayor número de variantes aumenta la cobertura de la variación genómica más allá de los genotipos originales. Como consecuencia, se puede evaluar el efecto de más SNP que los del microarreglo original. Es importante destacar que la imputación ha facilitado el metanálisis de conjuntos de datos que se han genotipado en diferentes matrices, al aumentar la superposición de variantes disponibles para el análisis entre matrices.

Herramientas

Hay varios paquetes de software disponibles para imputar genotipos de una matriz de genotipado a paneles de referencia, como los haplotipos del Proyecto 1000 Genomas. Estas herramientas incluyen MaCH ^[3] Minimac, IMPUTE2 ^[4] y Beagle. ^[5] Cada herramienta proporciona ventajas y desventajas específicas, en términos de velocidad y precisión. ^[6] Las herramientas de fases adicionales como SHAPEIT2 ^[7] permiten la prefase de los haplotipos de entrada, para mejorar la precisión de imputación y el rendimiento computacional.

En el uso temprano de la imputación, los haplotipos de las poblaciones de HapMap se utilizaron como panel de referencia, sin embargo, esto ha sido reemplazado por la disponibilidad de haplotipos del Proyecto 1000 Genomas ^[8] como paneles de referencia, con más muestras, en poblaciones más diversas y con mayor densidad de marcadores genéticos . A mediados de 2014, los datos de la secuencia del genoma completo están disponibles públicamente en el sitio web del Proyecto 1000 Genomas ^[9] para 2535 individuos de 26 poblaciones diferentes en todo el mundo.

Modelos estadísticos

El diseño de modelos estadísticos precisos para la imputación de genotipos está muy relacionado con el problema de la estimación de haplotipos ("fases") y es un área activa de investigación. ^[10]

Ver también

Referencias

^ Scheet, Paul; Stephens, Matthew (2006). "Un modelo estadístico rápido y flexible para datos de genotipos de poblaciones a gran escala: aplicaciones para inferir genotipos faltantes y fase haplotípica" . La Revista Estadounidense de Genética Humana . 78 (4): 629–644. doi : 10.1086 / 502802 . PMC 1424677 . PMID 16532393 .
^ Marchini, J .; Howie, B. (2010). "Imputación de genotipo para estudios de asociación de todo el genoma". Nature Reviews Genética . 11 (7): 499–511. doi : 10.1038 / nrg2796 . PMID 20517342 .
^ Li, Y; Willer, CJ; Ding, J; Scheet, P; Abecasis, GR (diciembre de 2010). "MaCH: utilizando datos de secuencia y genotipo para estimar haplotipos y genotipos no observados" . Epidemiología genética . 34 (8): 816–34. doi : 10.1002 / gepi.20533 . PMC 3175618 . PMID 21058334 .
^ Howie, B; Fuchsberger, C; Stephens, M; Marchini, J; Abecasis, GR (22 de julio de 2012). "Imputación rápida y precisa del genotipo en estudios de asociación de todo el genoma mediante pre-fase" . Genética de la naturaleza . 44 (8): 955–9. doi : 10.1038 / ng.2354 . PMC 3696580 . PMID 22820512 .
^ Browning, Brian L .; Browning, Sharon R. (2009). "Un enfoque unificado para la imputación de genotipo y la inferencia de fase de haplotipo para grandes conjuntos de datos de tríos e individuos no relacionados" . La Revista Estadounidense de Genética Humana . 84 (2): 210-223. doi : 10.1016 / j.ajhg.2009.01.005 . PMC 2668004 . PMID 19200528 .
^ Howie, Bryan; Fuchsberger, Christian; Stephens, Matthew; Marchini, Jonathan; Abecasis, Gonçalo R (22 de julio de 2012). "Imputación rápida y precisa del genotipo en estudios de asociación de todo el genoma mediante pre-fase" . Genética de la naturaleza . 44 (8): 955–959. doi : 10.1038 / ng.2354 . PMC 3696580 . PMID 22820512 .
^ Delaneau, Olivier; Marchini, Jonathan; Zagury, Jean-François (4 de diciembre de 2011). "Un método de fases de complejidad lineal para miles de genomas". Métodos de la naturaleza . 9 (2): 179–181. doi : 10.1038 / nmeth.1785 . PMID 22138821 .
^ Durbin, Richard M .; Altshuler, David L .; Durbin, Richard M .; Abecasis, Gonçalo R .; Bentley, David R .; Chakravarti, Aravinda; Clark, Andrew G .; Collins, Francis S. (28 de octubre de 2010). "Un mapa de la variación del genoma humano de la secuenciación a escala de población" . Naturaleza . 467 (7319): 1061–1073. doi : 10.1038 / nature09534 . PMC 3042601 . PMID 20981092 .
^ "1000 genomas - un catálogo profundo de variación genética humana" . Consultado el 17 de julio de 2014 .
^ Howie, Bryan; Donnelly, Peter; Marchini, Jonathan (2009). "Un método de imputación de genotipo flexible y preciso para la próxima generación de estudios de asociación de todo el genoma" . PLoS Genetics . 5 (6): e1000529. doi : 10.1371 / journal.pgen.1000529 . PMC 2689936 . PMID 19543373 .

[1] Scheet, Paul; Stephens, Matthew (2006). "Un modelo estadístico rápido y flexible para datos de genotipos de poblaciones a gran escala: aplicaciones para inferir genotipos faltantes y fase haplotípica" . La Revista Estadounidense de Genética Humana . 78 (4): 629–644. doi : 10.1086 / 502802 . PMC 1424677 . PMID 16532393 .

[2] Marchini, J .; Howie, B. (2010). "Imputación de genotipo para estudios de asociación de todo el genoma". Nature Reviews Genética . 11 (7): 499–511. doi : 10.1038 / nrg2796 . PMID 20517342 .

[3] Li, Y; Willer, CJ; Ding, J; Scheet, P; Abecasis, GR (diciembre de 2010). "MaCH: utilizando datos de secuencia y genotipo para estimar haplotipos y genotipos no observados" . Epidemiología genética . 34 (8): 816–34. doi : 10.1002 / gepi.20533 . PMC 3175618 . PMID 21058334 .

[4] Howie, B; Fuchsberger, C; Stephens, M; Marchini, J; Abecasis, GR (22 de julio de 2012). "Imputación rápida y precisa del genotipo en estudios de asociación de todo el genoma mediante pre-fase" . Genética de la naturaleza . 44 (8): 955–9. doi : 10.1038 / ng.2354 . PMC 3696580 . PMID 22820512 .

[5] Browning, Brian L .; Browning, Sharon R. (2009). "Un enfoque unificado para la imputación de genotipo y la inferencia de fase de haplotipo para grandes conjuntos de datos de tríos e individuos no relacionados" . La Revista Estadounidense de Genética Humana . 84 (2): 210-223. doi : 10.1016 / j.ajhg.2009.01.005 . PMC 2668004 . PMID 19200528 .

[6] Howie, Bryan; Fuchsberger, Christian; Stephens, Matthew; Marchini, Jonathan; Abecasis, Gonçalo R (22 de julio de 2012). "Imputación rápida y precisa del genotipo en estudios de asociación de todo el genoma mediante pre-fase" . Genética de la naturaleza . 44 (8): 955–959. doi : 10.1038 / ng.2354 . PMC 3696580 . PMID 22820512 .

[7] Delaneau, Olivier; Marchini, Jonathan; Zagury, Jean-François (4 de diciembre de 2011). "Un método de fases de complejidad lineal para miles de genomas". Métodos de la naturaleza . 9 (2): 179–181. doi : 10.1038 / nmeth.1785 . PMID 22138821 .

[8] Durbin, Richard M .; Altshuler, David L .; Durbin, Richard M .; Abecasis, Gonçalo R .; Bentley, David R .; Chakravarti, Aravinda; Clark, Andrew G .; Collins, Francis S. (28 de octubre de 2010). "Un mapa de la variación del genoma humano de la secuenciación a escala de población" . Naturaleza . 467 (7319): 1061–1073. doi : 10.1038 / nature09534 . PMC 3042601 . PMID 20981092 .

[9] "1000 genomas - un catálogo profundo de variación genética humana" . Consultado el 17 de julio de 2014 .

[10] Howie, Bryan; Donnelly, Peter; Marchini, Jonathan (2009). "Un método de imputación de genotipo flexible y preciso para la próxima generación de estudios de asociación de todo el genoma" . PLoS Genetics . 5 (6): e1000529. doi : 10.1371 / journal.pgen.1000529 . PMC 2689936 . PMID 19543373 .

[1]