Índice de fijación

El índice de fijación ( F _ST ) es una medida de diferenciación poblacional debido a la estructura genética . Con frecuencia se estima a partir de datos de polimorfismos genéticos , como polimorfismos de un solo nucleótido (SNP) o microsatélites . Desarrollado como un caso especial de las estadísticas F de Wright , es una de las estadísticas más utilizadas en genética de poblaciones .

Definición

Dos de las definiciones más comúnmente utilizadas para F _ST en un locus dado se basan en la varianza de las frecuencias alélicas entre poblaciones y en la probabilidad de Identidad por descendencia .

Si ${\ displaystyle {\ bar {p}}}$ es la frecuencia media de un alelo en la población total, ${\ Displaystyle \ sigma _ {S} ^ {2}}$ es la varianza en la frecuencia del alelo entre diferentes subpoblaciones, ponderada por el tamaño de las subpoblaciones, y ${\ Displaystyle \ sigma _ {T} ^ {2}}$ es la varianza del estado alélico en la población total, F _ST se define como ^[1]

{\ Displaystyle F_ {ST} = {\ frac {\ sigma _ {S} ^ {2}} {\ sigma _ {T} ^ {2}}} = {\ frac {\ sigma _ {S} ^ {2 }} {{\ bar {p}} (1 - {\ bar {p}})}}}

La definición de Wright ilustra que F _ST mide la cantidad de variación genética que puede explicarse por la estructura de la población. Esto también se puede considerar como la fracción de la diversidad total que no es consecuencia de la diversidad promedio dentro de las subpoblaciones, donde la diversidad se mide por la probabilidad de que dos alelos seleccionados al azar sean diferentes, a saber ${\ Displaystyle 2p (1-p)}$ . Si la frecuencia alélica en el ${\ Displaystyle i}$ la población es ${\ Displaystyle p_ {i}}$ y el tamaño relativo de la ${\ Displaystyle i}$ la población es ${\ Displaystyle c_ {i}}$ , luego

{\ Displaystyle F_ {ST} = {\ frac {{\ bar {p}} (1 - {\ bar {p}}) - \ sum c_ {i} p_ {i} (1-p_ {i})} {{\ bar {p}} (1 - {\ bar {p}})}} = {\ frac {{\ bar {p}} (1 - {\ bar {p}}) - {\ overline {p (1-p)}}} {{\ bar {p}} (1 - {\ bar {p}})}}}

Alternativamente, ^[2]

{\ displaystyle F_ {ST} = {\ frac {f_ {0} - {\ bar {f}}} {1 - {\ bar {f}}}}}

dónde ${\ Displaystyle f_ {0}}$ es la probabilidad de identidad por descendencia de dos individuos dado que los dos individuos están en la misma subpoblación, y ${\ displaystyle {\ bar {f}}}$ es la probabilidad de que dos individuos de la población total sean idénticos por descendencia. Usando esta definición, F _ST puede interpretarse como una medida de cuánto más cerca están dos individuos de la misma subpoblación, en comparación con la población total. Si la tasa de mutación es pequeña, esta interpretación se puede hacer más explícita al vincular la probabilidad de identidad por descendencia a los tiempos de coalescencia : Sean T ₀ y T el tiempo medio de coalescencia para los individuos de la misma subpoblación y la población total, respectivamente. Luego,

{\ Displaystyle F_ {ST} \ approx 1 - {\ frac {T_ {0}} {T}}}

Esta formulación tiene la ventaja de que el tiempo esperado para la coalescencia se puede estimar fácilmente a partir de datos genéticos, lo que condujo al desarrollo de varios estimadores para F _ST .

Estimacion

En la práctica, ninguna de las cantidades utilizadas para las definiciones se puede medir fácilmente. Como consecuencia, se han propuesto varios estimadores. Un estimador particularmente simple aplicable a los datos de la secuencia de ADN es: ^[3]

{\ displaystyle F_ {ST} = {\ frac {\ pi _ {\ text {Entre}} - \ pi _ {\ text {Dentro}}} {\ pi _ {\ text {Entre}}}}}

dónde ${\ Displaystyle \ pi _ {\ text {Entre}}}$ y ${\ Displaystyle \ pi _ {\ text {Dentro}}}$ representan el número promedio de diferencias por pares entre dos individuos muestreados de diferentes subpoblaciones ( ${\ Displaystyle \ pi _ {\ text {Entre}}}$ ) o de la misma subpoblación ( ${\ Displaystyle \ pi _ {\ text {Dentro}}}$ ). La diferencia promedio por pares dentro de una población se puede calcular como la suma de las diferencias por pares dividida por el número de pares. Sin embargo, este estimador está sesgado cuando los tamaños de muestra son pequeños o si varían entre poblaciones. Por lo tanto, se utilizan métodos más elaborados para calcular F _ST en la práctica. Dos de los procedimientos más utilizados son el estimador de Weir & Cockerham (1984), ^[4] o la realización de un Análisis de varianza molecular . Una lista de implementaciones está disponible al final de este artículo.

Interpretación

Esta comparación de la variabilidad genética dentro y entre poblaciones se utiliza con frecuencia en la genética de poblaciones aplicada . Los valores oscilan entre 0 y 1. Un valor cero implica panmixis completa ; es decir, que las dos poblaciones se cruzan libremente. Un valor de uno implica que toda la variación genética se explica por la estructura de la población y que las dos poblaciones no comparten ninguna diversidad genética.

Para modelos idealizados como el modelo de islas finitas de Wright , F _ST se puede utilizar para estimar las tasas de migración. Bajo ese modelo, la tasa de migración es

{\ Displaystyle M = {\ frac {m} {\ mu}} \ approx {\ frac {1} {4}} \ left ({\ frac {1} {F_ {ST}}} - 1 \ right)}

,

donde $m$ es la tasa de migración por generación, y ${\ Displaystyle \ mu}$ es la tasa de mutación por generación. ^[5]

La interpretación de F _ST puede resultar difícil cuando los datos analizados son muy polimórficos. En este caso, la probabilidad de identidad por descendencia es muy baja y F _ST puede tener un límite superior arbitrariamente bajo, lo que podría dar lugar a una mala interpretación de los datos. Además, estrictamente hablando, F _ST no es una distancia en el sentido matemático, ya que no satisface la desigualdad del triángulo .

Para poblaciones de plantas que claramente pertenecen a la misma especie , los valores de F _ST superiores al 15% se consideran diferenciación "grande" o "significativa", mientras que los valores inferiores al 5% se consideran diferenciación "pequeña" o "insignificante". ^{[6] Los} valores de las poblaciones de mamíferos entre subespecies o especies estrechamente relacionadas, los valores típicos son del orden del 5% al 20%. F _ST entre las poblaciones euroasiática y norteamericana del lobo gris se informó en un 9,9%, entre las poblaciones de lobo rojo y lobo gris entre el 17% y el 18%. El lobo oriental , una "especie parecida a un lobo" altamente mezclada recientemente reconocida, tiene valores de F _ST por debajo del 10% en comparación con los lobos grises euroasiáticos (7,6%) y norteamericanos (5,7%), con el lobo rojo (8,5%) , e incluso un valor aún más bajo cuando se combina con el Coyote (4.5%). ^[7]

F _ST en humanos

Los valores de F _ST dependen en gran medida de la elección de las poblaciones. Los grupos étnicos estrechamente relacionados, como los daneses frente a los holandeses , o los franceses frente a los españoles, muestran valores significativamente por debajo del 1%, indistinguibles de la panmixia. Dentro de Europa, se ha encontrado que los grupos étnicos más divergentes tienen valores del orden del 7% ( lapones frente a sardos ).

Se encuentran valores mayores si se comparan grupos homogéneos altamente divergentes: el valor más alto encontrado fue cercano al 46%, entre Mbuti y Papúes . ^[8]

Distancias genéticas autosómicas basadas en marcadores clásicos

En su estudio The History and Geography of Human Genes (1994) , Cavalli-Sforza, Menozzi y Piazza proporcionan algunas de las estimaciones más detalladas y completas de las distancias genéticas entre las poblaciones humanas, dentro y entre continentes. Su base de datos inicial contiene 76,676 frecuencias de genes (utilizando 120 polimorfismos sanguíneos), correspondientes a 6,633 muestras en diferentes ubicaciones. Al seleccionar y agrupar dichas muestras, restringen su análisis a 491 poblaciones. Se centran en las poblaciones aborígenes que se encontraban en su ubicación actual a finales del siglo XV cuando comenzaron las grandes migraciones europeas. ^[9] Al estudiar la diferencia genética a nivel mundial, el número se reduce a 42 poblaciones representativas, agregando subpoblaciones caracterizadas por un alto nivel de similitud genética. Para estas 42 poblaciones, Cavalli-Sforza y sus coautores informan distancias bilaterales calculadas a partir de 120 alelos. Entre este conjunto de 42 poblaciones mundiales, la mayor distancia genética observada se encuentra entre los pigmeos Mbuti y los habitantes de Papúa Nueva Guinea, donde la distancia Fst es 0,4573, mientras que la distancia genética más pequeña (0,0021) está entre los daneses y los ingleses. Al considerar datos más desglosados para 26 poblaciones europeas, la distancia genética más pequeña (0,0009) está entre los holandeses y los daneses, y la mayor (0,0667) está entre los lapones y los sardos. Se encontró que la distancia genética media entre los 861 emparejamientos disponibles de las 42 poblaciones seleccionadas era de 0,1338. ^{[ página necesaria ]} . Una distancia genética de 0,1338 implica que el parentesco entre individuos no emparentados de la misma ascendencia en relación con la población mundial es equivalente al parentesco entre medios hermanos en una población de apareamiento aleatorio. Esto también implica que si un humano de una población ancestral determinada tiene un medio hermano mixto, ese humano está más cerca genéticamente de un individuo no relacionado de su población ancestral que de su medio hermano mixto. ^[10]

Distancias genéticas autosómicas basadas en SNP

Un estudio de 2012 basado en datos del Proyecto Internacional HapMap estimó F _ST entre las tres principales poblaciones "continentales" de europeos (combinados de residentes de Utah de ascendencia europea del norte y occidental de la colección CEPH e italianos de Toscana), asiáticos del este (combinando chinos Han de Beijing, chinos del área metropolitana de Denver y japoneses de Tokio, Japón) y africanos subsaharianos (combinando Luhya de Webuye, Kenia, Maasai de Kinyawa, Kenia y Yoruba de Ibadan, Nigeria). Reportó un valor cercano al 12% entre poblaciones continentales y valores cercanos a panmixia (menores al 1%) dentro de poblaciones continentales. ^[11]

Distancias genéticas autosómicas intercontinentales basadas en SNP ^[12]
	Europa (CEU)	África subsahariana (yoruba)	Asia oriental (japonés)
África subsahariana (yoruba)	0,153
Asia oriental (japonés)	0,111	0,190
Este de Asia (chino)	0,110	0,192	0,007

Distancias genéticas autosómicas intraeuropeas / mediterráneas basadas en SNP ^[12]^[13]
	Italianos	Palestinos	sueco	Finlandeses	Español	Alemanes	Rusos
Palestinos	0,0064
sueco	0,0064-0,0090	0.0191
Finlandeses	0.0130-0.0230		0,0050-0,0110
Español	0,0010-0,0050	0.0101	0,0040-0055	0.0110-0.0170
Alemanes	0,0029-0,0080	0.0136	0,0007-0,0010	0,0060-0,0130	0,0015-0,0030
Rusos	0,0088-0,0120	0.0202	0,0030-0,0036	0,0060-0,0120	0,0070-0,0079	0,0030-0,0037
francés	0,0030-0,0050		0,0020	0,0080-0,0150	0,0010	0,0010	0,0050
Griegos	0,0000	0,0057	0,0084		0,0035	0,0039	0.0108

Programas para calcular F _ST

Arlequín
Fstat
SMOGD ^[14]
diveRsity (paquete R)
hierfstat (paquete R)
FinePop ^[15] (paquete R)
Analizador de microsatélites (MSA)
VCFtools
DnaSP

Módulos para calcular F _ST

BioPerl
BioPython

Referencias

^ Holsinger, Kent E .; Bruce S. Weir (2009). "Genética en poblaciones estructuradas geográficamente: definición, estimación e interpretación de FST" . Nat Rev Genet . 10 (9): 639–650. doi : 10.1038 / nrg2611 . ISSN 1471-0056 . PMC 4687486 . PMID 19687804 .
^ Richard Durrett (12 de agosto de 2008). Modelos de probabilidad para la evolución de la secuencia de ADN . Saltador. ISBN 978-0-387-78168-6. Consultado el 25 de octubre de 2012 .
^ Hudson, RR .; Slatkin, M .; Maddison, WP. (Octubre de 1992). "Estimación de niveles de flujo de genes a partir de datos de secuencia de ADN" . Genética . 132 (2): 583–9. PMC 1205159 . PMID 1427045 .
^ Weir, BS; Cockerham, C. Clark (1984). "Estimación de estadísticas F para el análisis de la estructura de la población". Evolución . 38 (6): 1358-1370. doi : 10.2307 / 2408641 . ISSN 0014-3820 . JSTOR 2408641 . PMID 28563791 .
^ Peter Beerli, Estimación de tasas de migración y tamaños de población en poblaciones estructuradas geográficamente (1998), Avances en ecología molecular (ed. G. Carvalho). Serie científica A de la OTAN: Ciencias de la vida, IOS Press, Amsterdam, 39-53.
^ Frankham, R., Ballou, JD, Briscoe, DA, 2002. Introducción a la genética de la conservación. Prensa de la Universidad de Cambridge, Cambridge. Hartl DL, Clark AG (1997) Principios de genética de poblaciones, 3ª ed. Sinauer Associates, Inc, Sunderland, MA.
^ BM von Holdt et al., "El análisis de la secuencia del genoma completo muestra que dos especies endémicas de lobo norteamericano son mezclas del coyote y el lobo gris", Science Advances 27 de julio de 2016: vol. 2, no. 7, e1501714, doi: 10.1126 / sciadv.1501714.
^ Cavalli-Sforza y col. (1994), citado después de V. Ginsburgh, S. Weber, The Palgrave Handbook of Economics and Language , Springer (2016), p. 182 .
^ Cavalli-Sforza et al., 1994, p. 24
^ Harpending, Henry (2002). "Subdivisión de parentesco y población". Población y Medio Ambiente . 24 (2): 141-147. doi : 10.1023 / A: 1020815420693 . S2CID 15208802 .
^ Elhaik, Eran (2012). "Distribuciones empíricas de FST a partir de datos de polimorfismo humano a gran escala" . PLOS ONE . 7 (11): e49837. Código bibliográfico : 2012PLoSO ... 749837E . doi : 10.1371 / journal.pone.0049837 . PMC 3504095 . PMID 23185452 .
^ a b Nelis, Mari; et al. (8 de mayo de 2009). Fleischer, Robert C. (ed.). "Estructura genética de los europeos: una vista desde el noreste" . PLOS ONE . 4 (5): e5472. Código bibliográfico : 2009PLoSO ... 4.5472N . doi : 10.1371 / journal.pone.0005472 . PMC 2675054 . PMID 19424496 ., ver tabla
^ Tian, Chao; et al. (Noviembre de 2009). "Subestructura genética de la población europea: mayor definición de marcadores informativos de ascendencia para distinguir entre diversos grupos étnicos europeos" . Medicina molecular . 15 (11-12): 371-383. doi : 10.2119 / molmed.2009.00094 . ISSN 1076-1551 . PMC 2730349 . PMID 19707526 ., ver tabla
^ Crawford, Nicholas G. (2010). " smogd : software para la medición de la diversidad genética". Recursos de ecología molecular . 10 (3): 556–557. doi : 10.1111 / j.1755-0998.2009.02801.x . PMID 21565057 .
^ Kitada S, Kitakado T, Kishino H (2007). "Inferencia empírica de Bayes de pares F (ST) y su distribución en el genoma" . Genética . 177 (2): 861–73. doi : 10.1534 / genetics.107.077263 . PMC 2034649 . PMID 17660541 .

Otras lecturas

Evolución y genética de las poblaciones Volumen 2: la teoría de las frecuencias genéticas, pág. 294–295, S. Wright, Univ. de Chicago Press, Chicago, 1969
Un mapa de haplotipos del genoma humano, The International HapMap Consortium, Nature 2005

Ver también

Distancia genética

enlaces externos

BioPerl - Bio :: PopGen :: PopStats

[1] Holsinger, Kent E .; Bruce S. Weir (2009). "Genética en poblaciones estructuradas geográficamente: definición, estimación e interpretación de FST" . Nat Rev Genet . 10 (9): 639–650. doi : 10.1038 / nrg2611 . ISSN 1471-0056 . PMC 4687486 . PMID 19687804 .

[Durrett2008-2] Richard Durrett (12 de agosto de 2008). Modelos de probabilidad para la evolución de la secuencia de ADN . Saltador. ISBN 978-0-387-78168-6. Consultado el 25 de octubre de 2012 .

[Hudson1992-3] Hudson, RR .; Slatkin, M .; Maddison, WP. (Octubre de 1992). "Estimación de niveles de flujo de genes a partir de datos de secuencia de ADN" . Genética . 132 (2): 583–9. PMC 1205159 . PMID 1427045 .

[WeirCockerham1984-4] Weir, BS; Cockerham, C. Clark (1984). "Estimación de estadísticas F para el análisis de la estructura de la población". Evolución . 38 (6): 1358-1370. doi : 10.2307 / 2408641 . ISSN 0014-3820 . JSTOR 2408641 . PMID 28563791 .

[5] Peter Beerli, Estimación de tasas de migración y tamaños de población en poblaciones estructuradas geográficamente (1998), Avances en ecología molecular (ed. G. Carvalho). Serie científica A de la OTAN: Ciencias de la vida, IOS Press, Amsterdam, 39-53.

[6] Frankham, R., Ballou, JD, Briscoe, DA, 2002. Introducción a la genética de la conservación. Prensa de la Universidad de Cambridge, Cambridge. Hartl DL, Clark AG (1997) Principios de genética de poblaciones, 3ª ed. Sinauer Associates, Inc, Sunderland, MA.

[7] BM von Holdt et al., "El análisis de la secuencia del genoma completo muestra que dos especies endémicas de lobo norteamericano son mezclas del coyote y el lobo gris", Science Advances 27 de julio de 2016: vol. 2, no. 7, e1501714, doi: 10.1126 / sciadv.1501714.

[8] Cavalli-Sforza y col. (1994), citado después de V. Ginsburgh, S. Weber, The Palgrave Handbook of Economics and Language , Springer (2016), p. 182 .

[9] Cavalli-Sforza et al., 1994, p. 24

[10] Harpending, Henry (2002). "Subdivisión de parentesco y población". Población y Medio Ambiente . 24 (2): 141-147. doi : 10.1023 / A: 1020815420693 . S2CID 15208802 .

[11] Elhaik, Eran (2012). "Distribuciones empíricas de FST a partir de datos de polimorfismo humano a gran escala" . PLOS ONE . 7 (11): e49837. Código bibliográfico : 2012PLoSO ... 749837E . doi : 10.1371 / journal.pone.0049837 . PMC 3504095 . PMID 23185452 .

[nelis-12] Nelis, Mari; et al. (8 de mayo de 2009). Fleischer, Robert C. (ed.). "Estructura genética de los europeos: una vista desde el noreste" . PLOS ONE . 4 (5): e5472. Código bibliográfico : 2009PLoSO ... 4.5472N . doi : 10.1371 / journal.pone.0005472 . PMC 2675054 . PMID 19424496 ., ver tabla

[13] Tian, Chao; et al. (Noviembre de 2009). "Subestructura genética de la población europea: mayor definición de marcadores informativos de ascendencia para distinguir entre diversos grupos étnicos europeos" . Medicina molecular . 15 (11-12): 371-383. doi : 10.2119 / molmed.2009.00094 . ISSN 1076-1551 . PMC 2730349 . PMID 19707526 ., ver tabla

[14] Crawford, Nicholas G. (2010). " smogd : software para la medición de la diversidad genética". Recursos de ecología molecular . 10 (3): 556–557. doi : 10.1111 / j.1755-0998.2009.02801.x . PMID 21565057 .

[15] Kitada S, Kitakado T, Kishino H (2007). "Inferencia empírica de Bayes de pares F (ST) y su distribución en el genoma" . Genética . 177 (2): 861–73. doi : 10.1534 / genetics.107.077263 . PMC 2034649 . PMID 17660541 .

[1]