La estructura de la población (también llamada estructura genética y estratificación de la población ) es la presencia de una diferencia sistemática en las frecuencias de los alelos entre subpoblaciones de una población como resultado del apareamiento no aleatorio entre individuos. Puede ser informativo de la ascendencia genética y, en el contexto de la genética médica, es una variable de confusión importante en los estudios de asociación de todo el genoma (GWAS).
Descripción
La causa básica de la estructura de la población en las especies que se reproducen sexualmente es el apareamiento no aleatorio entre grupos: si todos los individuos dentro de una población se aparean al azar, entonces las frecuencias alélicas deben ser similares entre los grupos. La estructura de la población surge comúnmente de la separación física por distancia o barreras, como montañas y ríos, seguida de una deriva genética . Otras causas incluyen el flujo de genes de las migraciones, los cuellos de botella y las expansiones de la población , los efectos del fundador , la presión evolutiva , el azar aleatorio y (en los seres humanos) factores culturales. Incluso en lugar de estos factores, los individuos tienden a permanecer cerca de donde nacieron, lo que significa que los alelos no se distribuirán al azar con respecto a la gama completa de especies. [1] [2]
Medidas
La estructura de la población es un fenómeno complejo y ninguna medida única lo captura por completo. Comprender la estructura de una población requiere una combinación de métodos y medidas. [3] [4] Muchos métodos estadísticos se basan en modelos de población simples para inferir cambios demográficos históricos, como la presencia de cuellos de botella en la población, eventos de mezcla o tiempos de divergencia de la población. A menudo, estos métodos se basan en el supuesto de panmictia u homogeneidad en una población ancestral. La especificación incorrecta de tales modelos, por ejemplo, al no tener en cuenta la existencia de estructura en una población ancestral, puede dar lugar a estimaciones de parámetros muy sesgadas. [5] Los estudios de simulación muestran que la estructura histórica de la población puede incluso tener efectos genéticos que pueden malinterpretarse fácilmente como cambios históricos en el tamaño de la población o la existencia de eventos de mezcla, incluso cuando no ocurrieron tales eventos. [6]
Heterocigosidad
Uno de los resultados de la estructura de la población es una reducción de la heterocigosidad . Cuando las poblaciones se dividen, los alelos tienen una mayor probabilidad de alcanzar la fijación dentro de las subpoblaciones, especialmente si las subpoblaciones son pequeñas o han estado aisladas durante períodos prolongados. Esta reducción de la heterocigosidad se puede considerar como una extensión de la endogamia , y es más probable que los individuos de las subpoblaciones compartan un ancestro común reciente . [7] La escala es importante: un individuo con ambos padres nacidos en el Reino Unido no es endogámico en relación con la población de ese país, pero es más endogámico que dos humanos seleccionados de todo el mundo. Esto motiva la derivación de las estadísticas F de Wright (también llamadas "índices de fijación"), que miden la endogamia a través de la heterocigosidad observada frente a la esperada. [8] Por ejemplo, mide el coeficiente de consanguinidad en un solo locus para un individuo relativo a alguna subpoblación : [9]
Aquí, es la fracción de individuos en la subpoblación que son heterocigotos. Suponiendo que hay dos alelos, que ocurren en las respectivas frecuencias , se espera que bajo apareamiento aleatorio la subpoblación tendrá una tasa de heterocigosidad de . Luego:
Del mismo modo, para la población total , podemos definir permitiéndonos calcular la heterocigosidad esperada de la subpoblación y el valor como: [9]
Si F es 0, entonces las frecuencias alélicas entre poblaciones son idénticas, lo que sugiere que no hay estructura. El valor máximo teórico de 1 se alcanza cuando un alelo alcanza la fijación total, pero la mayoría de los valores máximos observados son mucho más bajos. [7] F ST es una de las medidas más comunes de la estructura de la población y hay varias formulaciones diferentes según el número de poblaciones y los alelos de interés. Aunque a veces se usa como una distancia genética entre poblaciones, no siempre satisface la desigualdad del triángulo y, por lo tanto, no es una métrica . [10] También depende de la diversidad dentro de la población, lo que dificulta la interpretación y la comparación. [4]
Inferencia de la mezcla
El genotipo de un individuo puede modelarse como una mezcla entre K grupos discretos de poblaciones. [9] Cada grupo se define por las frecuencias de sus genotipos, y la contribución de un grupo a los genotipos de un individuo se mide mediante un estimador . En 2000, Jonathan K. Pritchard introdujo el algoritmo STRUCTURE para estimar estas proporciones a través de la cadena de Markov Monte Carlo . [11] Desde entonces, se han desarrollado algoritmos (como ADMIXTURE) utilizando otras técnicas de estimación. [12] [13] Las proporciones estimadas se pueden visualizar usando gráficos de barras: cada barra representa a un individuo y se subdivide para representar la proporción de la ascendencia genética de un individuo de una de las K poblaciones. [9]
Variando K puede ilustrar diferentes escalas de estructura de población; el uso de un K pequeño para toda la población humana subdividirá a las personas aproximadamente por continente, mientras que el uso de un K grande dividirá las poblaciones en subgrupos más finos. [9] Aunque los métodos de agrupamiento son populares, están abiertos a malas interpretaciones: para datos no simulados, nunca hay un valor "verdadero" de K , sino más bien una aproximación considerada útil para una pregunta determinada. [3] Son sensibles a las estrategias de muestreo, el tamaño de la muestra y los parientes cercanos en los conjuntos de datos; puede que no haya poblaciones diferenciadas en absoluto; y puede haber una estructura jerárquica donde se anidan las subpoblaciones. [3] Los conglomerados pueden mezclarse ellos mismos, [9] y pueden no tener una interpretación útil como poblaciones de origen. [14]
Reducción de dimensionalidad
Los datos genéticos son de alta dimensión y las técnicas de reducción de dimensionalidad pueden capturar la estructura de la población. El análisis de componentes principales (PCA) se aplicó por primera vez en genética de poblaciones en 1978 por Cavalli-Sforza y sus colegas y resurgió con la secuenciación de alto rendimiento . [9] [17] Inicialmente, el PCA se usó en frecuencias alélicas en marcadores genéticos conocidos para las poblaciones, aunque más tarde se descubrió que al codificar los SNP como números enteros (por ejemplo, como el número de alelos que no son de referencia ) y normalizar los valores, el PCA podría aplicarse a nivel de individuos. [13] [18] Una formulación considera individuos y SNP bialélicos. Para cada individuo, el valor en el locus es es el número de alelos que no son de referencia (uno de ). Si la frecuencia alélica en es , entonces el resultado La matriz de genotipos normalizados tiene entradas: [9]
PCA transforma los datos para maximizar la varianza; dados suficientes datos, cuando cada individuo se visualiza como un punto en una parcela, se pueden formar grupos discretos. [13] Los individuos con ascendencia mixta tenderán a caer entre grupos, y cuando hay un aislamiento homogéneo por distancia en los datos, los principales vectores de PC reflejarán la variación geográfica. [19] [13] Los autovectores generados por PCA se pueden escribir explícitamente en términos de tiempos de coalescencia medios para pares de individuos, lo que hace que el PCA sea útil para inferencias sobre las historias de población de grupos en una muestra determinada. Sin embargo, PCA no puede distinguir entre diferentes procesos que conducen a los mismos tiempos medios de coalescencia. [20]
La escala multidimensional y el análisis discriminante se han utilizado para estudiar la diferenciación, la asignación de poblaciones y para analizar las distancias genéticas. [21] Los enfoques de gráficos de vecindad como la incrustación de vecinos estocásticos distribuidos en t (t-SNE) y la aproximación y proyección de múltiples uniformes (UMAP) pueden visualizar la estructura continental y subcontinental en datos humanos. [22] [23] Con conjuntos de datos más grandes, UMAP captura mejor múltiples escalas de estructura de población; Los patrones de escala fina se pueden ocultar o dividir con otros métodos, y estos son de interés cuando el rango de poblaciones es diverso, cuando hay poblaciones mezcladas o cuando se examinan las relaciones entre genotipos, fenotipos y / o geografía. [23] [24] Los autocodificadores variacionales pueden generar genotipos artificiales con una estructura representativa de los datos de entrada, aunque no recrean patrones de desequilibrio de ligamiento. [25]
Inferencia demográfica
La estructura de la población es un aspecto importante de la genética evolutiva y de la población . Eventos como las migraciones y las interacciones entre grupos dejan una huella genética en las poblaciones. Las poblaciones mezcladas tendrán fragmentos de haplotipos de sus grupos ancestrales, que se encogen gradualmente con el tiempo debido a la recombinación . Al explotar este hecho y emparejar fragmentos de haplotipos compartidos de individuos dentro de un conjunto de datos genéticos, los investigadores pueden rastrear y fechar los orígenes de la mezcla de poblaciones y reconstruir eventos históricos como el ascenso y caída de imperios, el comercio de esclavos, el colonialismo y las expansiones de población. [26]
Papel en la epidemiología genética
La estructura de la población puede ser un problema para los estudios de asociación , como los estudios de casos y controles , donde la asociación entre el rasgo de interés y el locus podría ser incorrecta. Como ejemplo, en una población de estudio de europeos y asiáticos orientales, un estudio de asociación del uso de palillos puede "descubrir" un gen en los individuos asiáticos que conduce al uso de palillos. Sin embargo, esta es una relación espuria ya que la variante genética es simplemente más común en asiáticos que en europeos. [27] Además, los hallazgos genéticos reales pueden pasarse por alto si el locus es menos frecuente en la población donde se eligen los sujetos del caso. Por esta razón, en la década de 1990 era común utilizar datos basados en familias donde el efecto de la estructura de la población se puede controlar fácilmente mediante métodos como la prueba de desequilibrio de transmisión (TDT). [28]
Los fenotipos (rasgos medibles), como la altura o el riesgo de enfermedad cardíaca, son el producto de alguna combinación de genes y medio ambiente . Estos rasgos se pueden predecir utilizando puntuaciones poligénicas , que buscan aislar y estimar la contribución de la genética a un rasgo sumando los efectos de muchas variantes genéticas individuales. Para construir una puntuación, los investigadores primero inscriben a los participantes en un estudio de asociación para estimar la contribución de cada variante genética. Luego, pueden usar las contribuciones estimadas de cada variante genética para calcular una puntuación para el rasgo de un individuo que no estaba en el estudio de asociación original. Si la estructura en la población de estudio se correlaciona con la variación ambiental, entonces la puntuación poligénica ya no mide el componente genético solo. [29]
Varios métodos pueden controlar, al menos parcialmente, este efecto de confusión. El método de control genómico se introdujo en 1999 y es un método relativamente no paramétrico para controlar la inflación de las estadísticas de prueba . [30] También es posible utilizar marcadores genéticos no vinculados para estimar las proporciones de ascendencia de cada individuo de algunas subpoblaciones K , que se supone que no están estructuradas. [31] Los enfoques más recientes hacen uso del análisis de componentes principales (PCA), como lo demostraron Alkes Price y sus colegas, [32] o al derivar una matriz de relación genética (también llamada matriz de parentesco) e incluirla en un modelo lineal mixto ( LMM). [33] [34]
PCA y LMM se han convertido en los métodos más comunes para controlar los factores de confusión de la estructura de la población. Aunque probablemente sean suficientes para evitar falsos positivos en los estudios de asociación, aún son vulnerables a sobreestimar los tamaños del efecto de las variantes marginalmente asociadas y pueden sesgar sustancialmente las estimaciones de las puntuaciones poligénicas y la heredabilidad de los rasgos . [35] [36] Si los efectos ambientales están relacionados con una variante que existe en una sola región específica (por ejemplo, un contaminante se encuentra en una sola ciudad), es posible que no sea posible corregir este efecto de estructura de la población en absoluto. [29] Para muchos rasgos, el papel de la estructura es complejo y no se comprende completamente, e incorporarlo a los estudios genéticos sigue siendo un desafío y es un área activa de investigación. [37]
Referencias
- ^ Cardon LR, Palmer LJ (febrero de 2003). "Estratificación de la población y asociación alélica espuria". Lancet . 361 (9357): 598–604. doi : 10.1016 / S0140-6736 (03) 12520-2 . PMID 12598158 . S2CID 14255234 .
- ^ McVean G (2001). "Estructura de la población" (PDF) . Archivado desde el original (PDF) el 23 de noviembre de 2018 . Consultado el 14 de noviembre de 2020 .
- ^ a b c Lawson, Daniel J .; van Dorp, Lucy; Falush, Daniel (2018). "Un tutorial sobre cómo no sobreinterpretar los diagramas de barras de ESTRUCTURA y ADMIXTURA" . Comunicaciones de la naturaleza . 9 (1): 3258. Bibcode : 2018NatCo ... 9.3258L . doi : 10.1038 / s41467-018-05257-7 . ISSN 2041-1723 . PMC 6092366 . PMID 30108219 .
- ^ a b Meirmans, Patrick G .; Hedrick, Philip W. (2010). "Evaluación de la estructura de la población: FST y medidas relacionadas". Recursos de ecología molecular . 11 (1): 5–18. doi : 10.1111 / j.1755-0998.2010.02927.x . ISSN 1755-098X . PMID 21429096 . S2CID 24403040 .
- ^ Scerri EM, Thomas MG, Manica A, Gunz P, Stock JT, Stringer C, et al. (Agosto de 2018). "¿Evolucionaron nuestras especies en poblaciones subdivididas de África y por qué es importante?" . Tendencias en Ecología y Evolución . 33 (8): 582–594. doi : 10.1016 / j.tree.2018.05.005 . PMC 6092560 . PMID 30007846 .
- ^ Rodríguez W, Mazet O, Grusea S, Arredondo A, Corujo JM, Boitard S, Chikhi L (diciembre de 2018). "El IICR y la coalescente estructurada no estacionaria: hacia la inferencia demográfica con cambios arbitrarios en la estructura poblacional" . Herencia . 121 (6): 663–678. doi : 10.1038 / s41437-018-0148-0 . PMC 6221895 . PMID 30293985 .
- ^ a b Hartl, Daniel L .; Clark, Andrew G. (1997). Principios de genética de poblaciones (3ª ed.). Sunderland, MA: Sinauer Associates. págs. 111-163. ISBN 0-87893-306-9. OCLC 37481398 .
- ^ Wright, Sewall (1949). "La estructura genética de las poblaciones". Anales de la eugenesia . 15 (1): 323–354. doi : 10.1111 / j.1469-1809.1949.tb02451.x . ISSN 2050-1420 . PMID 24540312 .
- ^ a b c d e f g h Coop, Graham (2019). Genética poblacional y cuantitativa . págs. 22–44.
- ^ Arbisser, Ilana M .; Rosenberg, Noah A. (2020). "FST y la desigualdad del triángulo para marcadores bialélicos". Biología teórica de poblaciones . 133 : 117-129. doi : 10.1016 / j.tpb.2019.05.003 . ISSN 0040-5809 . PMID 31132375 .
- ^ Pritchard, Jonathan K; Stephens, Matthew; Donnelly, Peter (2000). "Inferencia de la estructura de la población utilizando datos de genotipo multilocus" . Genética . 155 (2): 945–959. doi : 10.1093 / genetics / 155.2.945 . ISSN 1943-2631 . PMID 10835412 .
- ^ Alexander, DH; Novembre, J .; Lange, K. (2009). "Estimación de ascendencia basada en modelos rápidos en individuos no relacionados" . Investigación del genoma . 19 (9): 1655-1664. doi : 10.1101 / gr.094052.109 . ISSN 1088-9051 . PMC 2752134 . PMID 19648217 .
- ^ a b c d Novembre J, Ramachandran S (2011). "Perspectivas sobre la estructura de la población humana en la cúspide de la era de la secuenciación". Annu Rev Genomics Hum Genet . 12 : 245–74. doi : 10.1146 / annurev-genom-090810-183123 . PMID 21801023 .
- ^ Novembre, John (2016). "Pritchard, Stephens y Donnelly sobre la estructura de la población" . Genética . 204 (2): 391–393. doi : 10.1534 / genetics.116.195164 . ISSN 1943-2631 . PMC 5068833 . PMID 27729489 .
- ^ Henn BM, Botigué LR, Gravel S, Wang W, Brisbin A, Byrnes JK, Fadhlaoui-Zid K, Zalloua PA, Moreno-Estrada A, Bertranpetit J, Bustamante CD, Comas D (enero de 2012). "La ascendencia genómica de los norteafricanos apoya las migraciones de regreso a África" . PLOS Genet . 8 (1): e1002397. doi : 10.1371 / journal.pgen.1002397 . PMC 3257290 . PMID 22253600 .
- ^ Wang C, Zöllner S, Rosenberg NA (agosto de 2012). "Una comparación cuantitativa de la similitud entre genes y geografía en poblaciones humanas en todo el mundo" . PLOS Genet . 8 (8): e1002886. doi : 10.1371 / journal.pgen.1002886 . PMC 3426559 . PMID 22927824 .
- ^ Menozzi, P; Piazza, A; Cavalli-Sforza, L (1978). "Mapas sintéticos de frecuencias de genes humanos en europeos". Ciencia . 201 (4358): 786–792. Código Bibliográfico : 1978Sci ... 201..786M . doi : 10.1126 / science.356262 . ISSN 0036-8075 . PMID 356262 .
- ^ Patterson N, Price AL, Reich D (diciembre de 2006). "Estructura poblacional y autoanálisis" . PLOS Genetics . 2 (12): e190. doi : 10.1371 / journal.pgen.0020190 . PMC 1713260 . PMID 17194218 .
- ^ Novembre, John; Johnson, Toby; Bryc, Katarzyna; Kutalik, Zoltán; Boyko, Adam R .; Auton, Adam; Indap, Amit; King, Karen S .; Bergmann, Sven; Nelson, Matthew R .; Stephens, Matthew; Bustamante, Carlos D. (2008). "Los genes reflejan la geografía dentro de Europa" . Naturaleza . 456 (7218): 98–101. Código Bibliográfico : 2008Natur.456 ... 98N . doi : 10.1038 / nature07331 . ISSN 0028-0836 . PMC 2735096 . PMID 18758442 .
- ^ McVean, Gil (2009). "Una interpretación genealógica del análisis de componentes principales" . PLOS Genetics . 5 (10): e1000686. doi : 10.1371 / journal.pgen.1000686 . ISSN 1553-7404 . PMC 2757795 . PMID 19834557 .
- ^ Jombart T, Pontier D, Dufour AB (abril de 2009). "Marcadores genéticos en el campo de juego del análisis multivariado" . Herencia (Edinb) . 102 (4): 330–41. doi : 10.1038 / hdy.2008.130 . PMID 19156164 . S2CID 10739417 .
- ^ Li W, Cerise JE, Yang Y, Han H (agosto de 2017). "Aplicación de t-SNE a datos genéticos humanos". J Bioinform Comput Biol . 15 (4): 1750017. doi : 10.1142 / S0219720017500172 . PMID 28718343 .
- ^ a b Diaz-Papkovich A, Anderson-Trocmé L, Ben-Eghan C, Gravel S (noviembre de 2019). "UMAP revela la estructura de la población críptica y la heterogeneidad del fenotipo en grandes cohortes genómicas" . PLOS Genet . 15 (11): e1008432. doi : 10.1371 / journal.pgen.1008432 . PMC 6853336 . PMID 31675358 .
- ^ Sakaue S, Hirata J, Kanai M, Suzuki K, Akiyama M, Lai Too C, Arayssi T, Hammoudeh M, Al Emadi S, Masri BK, Halabi H, Badsha H, Uthman IW, Saxena R, Padyukov L, Hirata M, Matsuda K, Murakami Y, Kamatani Y, Okada Y (marzo de 2020). "La reducción de la dimensionalidad revela una estructura a escala fina en la población japonesa con consecuencias para la predicción del riesgo poligénico" . Nat Commun . 11 (1): 1569. Código Bibliográfico : 2020NatCo..11.1569S . doi : 10.1038 / s41467-020-15194-z . PMC 7099015 . PMID 32218440 .
- ^ Battey CJ, Coffing GC, Kern AD (enero de 2021). "Visualización de la estructura de la población con autocodificadores variacionales" . G3 (Bethesda) . 11 (1). doi : 10.1093 / g3journal / jkaa036 . PMC 8022710 . PMID 33561250 .
- ^ Hellenthal G, Busby GB, Band G, Wilson JF, Capelli C, Falush D, Myers S (febrero de 2014). "Un atlas genético de la historia de la mezcla humana" . Ciencia . 343 (6172): 747–751. Código Bibliográfico : 2014Sci ... 343..747H . doi : 10.1126 / science.1243518 . PMC 4209567 . PMID 24531965 .
- ^ Hamer D, Sirota L (enero de 2000). "Cuidado con el gen de los palillos". Psiquiatría molecular . 5 (1): 11–3. doi : 10.1038 / sj.mp.4000662 . PMID 10673763 . S2CID 9760182 .
- ^ Pritchard JK, Rosenberg NA (julio de 1999). "Uso de marcadores genéticos no vinculados para detectar la estratificación de la población en estudios de asociación" . Revista Estadounidense de Genética Humana . 65 (1): 220–8. doi : 10.1086 / 302449 . PMC 1378093 . PMID 10364535 .
- ^ a b Blanc J, Berg JJ (diciembre de 2020). "¿Qué tan bien podemos separar la genética del medio ambiente?" . eLife . 9 : e64948. doi : 10.7554 / eLife.64948 . PMC 7758058 . PMID 33355092 .
- ^ Devlin B, Roeder K (diciembre de 1999). "Control genómico para estudios de asociación". Biometría . 55 (4): 997–1004. doi : 10.1111 / j.0006-341X.1999.00997.x . PMID 11315092 .
- ^ Pritchard JK, Stephens M, Rosenberg NA, Donnelly P (julio de 2000). "Mapeo de asociaciones en poblaciones estructuradas" . Revista Estadounidense de Genética Humana . 67 (1): 170–81. doi : 10.1086 / 302959 . PMC 1287075 . PMID 10827107 .
- ^ Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D (agosto de 2006). "El análisis de componentes principales corrige la estratificación en estudios de asociación de todo el genoma". Genética de la naturaleza . 38 (8): 904–9. doi : 10.1038 / ng1847 . PMID 16862161 . S2CID 8127858 .
- ^ Yu J, Pressoir G, Briggs WH, Vroh Bi I, Yamasaki M, Doebley JF y col. (Febrero de 2006). "Un método de modelo mixto unificado para el mapeo de asociaciones que da cuenta de múltiples niveles de relación". Genética de la naturaleza . 38 (2): 203–8. doi : 10.1038 / ng1702 . PMID 16380716 . S2CID 8507433 .
- ^ Loh PR, Tucker G, Bulik-Sullivan BK, Vilhjálmsson BJ, Finucane HK , Salem RM, et al. (Marzo de 2015). "El análisis de modelo mixto bayesiano eficiente aumenta el poder de asociación en grandes cohortes" . Genética de la naturaleza . 47 (3): 284–90. doi : 10.1038 / ng.3190 . PMC 4342297 . PMID 25642633 .
- ^ Zaidi AA, Mathieson I (noviembre de 2020). Perry GH, Turchin MC, Martin P (eds.). "La historia demográfica media el efecto de la estratificación en las puntuaciones poligénicas" . eLife . 9 : e61548. doi : 10.7554 / eLife.61548 . PMC 7758063 . PMID 33200985 .
- ^ Sohail M, Maier RM, Ganna A, Bloemendal A, Martin AR, Turchin MC, et al. (Marzo de 2019). Nordborg M, McCarthy MI, Barton NH, Hermisson J (eds.). "La adaptación poligénica en altura se sobreestima debido a la estratificación no corregida en estudios de asociación de todo el genoma" . eLife . 8 : e39702. doi : 10.7554 / eLife.39702 . PMC 6428571 . PMID 30895926 .
- ^ Lawson DJ, Davies NM, Haworth S, Ashraf B, Howe L, Crawford A, et al. (Enero de 2020). "¿Es la estructura de la población en la era del biobanco genético irrelevante, un desafío o una oportunidad?" . Genética humana . 139 (1): 23–41. doi : 10.1007 / s00439-019-02014-8 . PMC 6942007 . PMID 31030318 .