La inferencia de mínimos cuadrados en filogenia genera un árbol filogenético basado en una matriz observada de distancias genéticas por pares y, opcionalmente, una matriz de peso. El objetivo es encontrar un árbol que satisfaga las restricciones de distancia lo mejor posible.
Mínimos cuadrados ordinarios y ponderados
La discrepancia entre las distancias por pares observadas y las distancias sobre un árbol filogenético (es decir, la suma de las longitudes de las ramas en el camino desde la hoja hojear ) se mide por
donde los pesos dependen del método de mínimos cuadrados utilizado. La construcción de árboles de distancia de mínimos cuadrados tiene como objetivo encontrar el árbol (topología y longitudes de rama) con un mínimo de S. Este es un problema no trivial. Implica buscar en el espacio discreto de topologías de árboles binarios sin raíces cuyo tamaño es exponencial en el número de hojas. Para n hojas hay 1 • 3 • 5 • ... • (2n-3) topologías diferentes. Enumerarlos ya no es factible para un número reducido de hojas. Los métodos de búsqueda heurística se utilizan para encontrar una topología razonablemente buena. La evaluación de S para una topología dada (que incluye el cálculo de las longitudes de las ramas) es un problema de mínimos cuadrados lineales . Hay varias formas de ponderar los errores al cuadrado., dependiendo del conocimiento y supuestos sobre las variaciones de las distancias observadas. Cuando no se sabe nada acerca de los errores, o si se supone que están distribuidos independientemente y son iguales para todas las distancias observadas, entonces todos los pesosestán configurados en uno. Esto conduce a una estimación de mínimos cuadrados ordinaria. En el caso de los mínimos cuadrados ponderados, se supone que los errores son independientes (o se desconocen sus correlaciones). Dados los errores independientes, idealmente se debería establecer un peso particular a la inversa de la varianza de la estimación de distancia correspondiente. A veces, es posible que no se conozcan las variaciones, pero se pueden modelar en función de las estimaciones de distancia. En el método de Fitch y Margoliash [1], por ejemplo, se supone que las varianzas son proporcionales a las distancias al cuadrado.
Mínimos cuadrados generalizados
Los métodos de mínimos cuadrados ordinarios y ponderados descritos anteriormente suponen estimaciones de distancia independientes. Si las distancias se derivan de datos genómicos, sus estimaciones covarían, porque los eventos evolutivos en las ramas internas (del árbol verdadero) pueden empujar varias distancias hacia arriba o hacia abajo al mismo tiempo. Las covarianzas resultantes se pueden tener en cuenta utilizando el método de mínimos cuadrados generalizados, es decir, minimizando la siguiente cantidad
dónde son las entradas de la inversa de la matriz de covarianza de las estimaciones de distancia.
Complejidad computacional
Encontrar las longitudes de los árboles y las ramas minimizando el residuo de mínimos cuadrados es un problema NP-completo . [2] Sin embargo, para un árbol dado, las longitudes óptimas de las ramas se pueden determinar en tiempo para mínimos cuadrados ordinarios, tiempo para mínimos cuadrados ponderados, y tiempo para mínimos cuadrados generalizados (dado el inverso de la matriz de covarianza ). [3]
enlaces externos
- PHYLIP , un paquete de análisis filogenético distribuido libremente que contiene una implementación del método de mínimos cuadrados ponderados
- PAUP , un paquete similar disponible para su compra
- Darwin , un entorno de programación con una biblioteca de funciones para análisis estadístico, numérico, secuencial y filogenético
Referencias
- ^ Fitch WM, Margoliash E. (1967). Construcción de árboles filogenéticos. Science 155: 279-84.
- ^ William HE Day, Complejidad computacional de inferir filogenias a partir de matrices de disimilitud , Bulletin of Mathematical Biology, Volumen 49, Número 4, 1987, Páginas 461-467, ISSN 0092-8240, doi : 10.1016 / S0092-8240 (87) 80007-1 .
- ^ David Bryant, Peter Waddell, Evaluación rápida de mínimos cuadrados y criterios de evolución mínima en árboles filogenéticos [ enlace muerto ] , Mol Biol Evol (1998) 15 (10): 1346