Invariantes filogenéticos


Los invariantes filogenéticos [1] son relaciones polinomiales entre las frecuencias de varios patrones de sitios en una alineación idealizada de múltiples secuencias de ADN . Han recibido estudios sustanciales en el campo de las biomatemáticas y se pueden utilizar para elegir entre topologías de árboles filogenéticos en un entorno empírico. La principal ventaja de los invariantes filogenéticos en relación con otros métodos de estimación filogenética como máxima verosimilitud o MCMC bayesianoEl análisis es que las invariantes pueden producir información sobre el árbol sin requerir la estimación de las longitudes de las ramas de los parámetros del modelo. La idea de utilizar invariantes filogenéticos fue introducida de forma independiente por James Cavender y Joseph Felsenstein [2] y por James A. Lake [3] en 1987.

En este punto, el número de programas que permiten analizar conjuntos de datos empíricos utilizando invariantes es limitado. Sin embargo, las invariantes filogenéticas pueden proporcionar soluciones a otros problemas de la filogenia y, por ello, representan un área de investigación activa. Felsenstein [4] lo expresó mejor cuando dijo, "las invariantes merecen atención, no por lo que hacen por nosotros ahora, sino por lo que podrían llevarnos en el futuro". (pág.390)

Si consideramos una alineación de secuencia múltiple con taxones t y sin espacios o datos faltantes (es decir, una alineación de secuencia múltiple idealizada ), hay 4 t posibles patrones de sitio. Por ejemplo, hay 256 patrones de sitio posibles para cuatro taxones ( f AAAA , f AAAC , f AAAG ,… f TTTT), que se puede escribir como un vector. Este vector de frecuencia de patrón de sitio tiene 255 grados de libertad porque las frecuencias deben sumar uno. Sin embargo, cualquier conjunto de frecuencias de patrón de sitio que resulte de algún proceso específico de evolución de secuencia en un árbol específico debe obedecer a muchas restricciones. y por lo tanto tienen muchos menos grados de libertad. Por lo tanto, debería haber polinomios que involucren esas frecuencias que toman un valor de cero si las secuencias de ADN se generaron en un árbol específico dado un modelo de sustitución particular .

Las invariantes son fórmulas en las frecuencias de patrón esperadas, no las frecuencias de patrón observadas. Cuando se calculan utilizando las frecuencias de patrón observadas, normalmente encontraremos que no son exactamente cero incluso cuando el modelo y la topología del árbol son correctos. Al probar si tales polinomios para varios árboles son 'casi cero' cuando se evalúan en las frecuencias observadas de patrones en secuencias de datos reales, uno debería poder inferir qué árbol explica mejor los datos.

Algunas invariantes son consecuencias directas de simetrías en el modelo de sustitución de nucleótidos y tomarán un valor de cero independientemente de la topología del árbol subyacente. Por ejemplo, si asumimos el modelo Jukes-Cantor de evolución de secuencia y un árbol de cuatro taxones, esperamos: