Matrices de distancia en filogenia

Las matrices de distancia se utilizan en filogenia como métodos de distancia no paramétricos y se aplicaron originalmente a los datos fenéticos utilizando una matriz de distancias por pares. Estas distancias luego se concilian para producir un árbol (un filograma , con longitudes de rama informativas). La matriz de distancia puede provenir de varias fuentes diferentes, incluida la distancia medida (por ejemplo, de estudios inmunológicos ) o el análisis morfométrico , varias fórmulas de distancia por pares (como la distancia euclidiana ) aplicadas a caracteres morfológicos discretos, o la distancia genética de la secuencia, fragmento de restricción , odatos de aloenzimas . Para los datos de caracteres filogenéticos, los valores de distancia sin procesar se pueden calcular simplemente contando el número de diferencias por pares en los estados de los caracteres ( distancia de Hamming ).

Métodos de matriz de distancias

Los métodos de matriz de distancia de análisis filogenético se basan explícitamente en una medida de "distancia genética" entre las secuencias que se clasifican y, por lo tanto, requieren una MSA (alineación de secuencia múltiple) como entrada. La distancia a menudo se define como la fracción de desajustes en posiciones alineadas, con los espacios ignorados o contados como desajustes. ^{[1] Los} métodos de distancia intentan construir una matriz de todos a todos a partir del conjunto de consultas de secuencia que describe la distancia entre cada par de secuencias. A partir de esto se construye un árbol filogenético que coloca secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de rama reproducen fielmente las distancias observadas entre secuencias. Los métodos de matriz de distancia pueden producir árboles enraizados o sin enraizar, según el algoritmo utilizado para calcularlos. Se utilizan con frecuencia como base para tipos progresivos e iterativos de alineación de secuencia múltiple . La principal desventaja de los métodos de matriz de distancia es su incapacidad para usar de manera eficiente la información sobre las regiones locales de alta variación que aparecen en múltiples subárboles. ^[2]

Unión de vecinos

Los métodos de unión de vecinos aplican técnicas generales de agrupación de datos al análisis de secuencias utilizando la distancia genética como métrica de agrupación. El método simple de unión de vecinos produce árboles sin raíces, pero no supone una tasa constante de evolución (es decir, un reloj molecular ) entre los linajes.

UPGMA y WPGMA

Los métodos UPGMA ( método de grupos de pares no ponderados con media aritmética ) y WPGMA ( método de grupos de pares ponderados con media aritmética ) producen árboles enraizados y requieren una suposición de tasa constante, es decir, asume un árbol ultramétrico en el que las distancias desde la raíz hasta la todas las puntas de las ramas son iguales.

Método de Fitch-Margoliash

El método de Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para la agrupación en función de la distancia genética. ^[3] Las secuencias estrechamente relacionadas reciben más peso en el proceso de construcción del árbol para corregir el aumento de la inexactitud en la medición de distancias entre secuencias relacionadas lejanamente. En la práctica, la corrección de la distancia solo es necesaria cuando las tasas de evolución difieren entre las ramas. ^[2] Las distancias utilizadas como entrada al algoritmo deben normalizarse para evitar grandes artefactos en las relaciones informáticas entre grupos estrechamente relacionados y distantes. Las distancias calculadas por este método deben ser lineales ; El criterio de linealidad para distancias requiere que los valores esperados de las longitudes de las ramas para dos ramas individuales deben ser iguales al valor esperado de la suma de las dos distancias de las ramas, una propiedad que se aplica a las secuencias biológicas solo cuando han sido corregidas por la posibilidad de retroceso. mutaciones en sitios individuales. Esta corrección se realiza mediante el uso de una matriz de sustitución como la derivada del modelo Jukes-Cantor de evolución del ADN.

El criterio de mínimos cuadrados aplicado a estas distancias es más preciso pero menos eficiente que los métodos de unión de vecinos. También se puede aplicar una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos a un mayor costo computacional. Encontrar el árbol de mínimos cuadrados óptimo con cualquier factor de corrección es NP-completo , ^[4] por lo que los métodos de búsqueda heurísticos como los utilizados en el análisis de máxima parsimonia se aplican a la búsqueda a través del espacio del árbol.

Usar grupos externos

Se puede utilizar información independiente sobre la relación entre secuencias o grupos para ayudar a reducir el espacio de búsqueda de árboles y la raíz de árboles sin raíz. El uso estándar de métodos de matriz de distancia implica la inclusión de al menos una secuencia exógena que se sabe que está relacionada sólo de forma distante con las secuencias de interés en el conjunto de consultas. ^[1] Este uso puede verse como un tipo de control experimental . Si el grupo externo ha sido elegido apropiadamente, tendrá una distancia genética mucho mayor y, por lo tanto, una longitud de rama más larga que cualquier otra secuencia, y aparecerá cerca de la raíz de un árbol enraizado. La elección de un grupo externo apropiado requiere la selección de una secuencia que esté moderadamente relacionada con las secuencias de interés; una relación demasiado cercana anula el propósito del exogrupo y demasiado distante agrega ruido al análisis. ^[1] También se debe tener cuidado para evitar situaciones en las que las especies de las que se tomaron las secuencias estén relacionadas lejanamente, pero el gen codificado por las secuencias está altamente conservado en todos los linajes. La transferencia horizontal de genes , especialmente entre bacterias divergentes , también puede confundir el uso de grupos externos.

Debilidades de diferentes métodos.

En general, los datos de distancia por pares son una subestimación de la distancia de trayectoria entre taxones en un filograma . Las distancias por pares efectivamente "cortan las esquinas" de una manera análoga a la distancia geográfica: la distancia entre dos ciudades puede ser de 100 millas "en línea recta", pero un viajero puede estar obligado a viajar 120 millas debido al trazado de las carreteras, el terreno, paradas en el camino, etc. Entre pares de taxones, algunos cambios de carácter que tuvieron lugar en linajes ancestrales serán indetectables, porque los cambios posteriores han borrado la evidencia (a menudo llamados múltiples aciertos y mutaciones inversas en datos de secuencia ). Este problema es común a todas las estimaciones filogenéticas, pero es particularmente grave para los métodos de distancia, porque solo se utilizan dos muestras para cada cálculo de distancia; otros métodos se benefician de la evidencia de estos cambios ocultos que se encuentran en otros taxones no considerados en las comparaciones por pares. Para los datos de secuencia de nucleótidos y aminoácidos , se pueden emplear los mismos modelos estocásticos de cambio de nucleótidos usados en el análisis de máxima verosimilitud para "corregir" distancias, haciendo que el análisis sea "semiparamétrico".

Existen varios algoritmos simples para construir un árbol directamente a partir de distancias por pares, incluidos UPGMA y la unión de vecinos (NJ), pero estos no necesariamente producirán el mejor árbol para los datos. Para contrarrestar las posibles complicaciones señaladas anteriormente, y para encontrar el mejor árbol para los datos, el análisis de distancia también puede incorporar un protocolo de búsqueda de árbol que busca satisfacer un criterio de optimalidad explícito. Se aplican comúnmente dos criterios de optimización a los datos de distancia, la evolución mínima (ME) y la inferencia de mínimos cuadrados . Los mínimos cuadrados son parte de una clase más amplia de métodos basados en regresión agrupados aquí para simplificar. Estas fórmulas de regresión minimizan las diferencias residuales entre las distancias de trayectoria a lo largo del árbol y las distancias por pares en la matriz de datos, "ajustando" efectivamente el árbol a las distancias empíricas. Por el contrario, ME acepta el árbol con la suma más corta de longitudes de rama y, por lo tanto, minimiza la cantidad total de evolución asumida. ME es muy similar a la parsimonia, y bajo ciertas condiciones, el análisis ME de distancias basado en un conjunto de datos de caracteres discretos favorecerá el mismo árbol que el análisis de parsimonia convencional de los mismos datos.

La estimación de la filogenia utilizando métodos de distancia ha generado una serie de controversias. UPGMA asume un árbol ultramétrico (un árbol donde todas las longitudes del camino desde la raíz hasta las puntas son iguales). Si la tasa de evolución fuera igual en todos los linajes muestreados (un reloj molecular ), y si el árbol estuviera completamente equilibrado (igual número de taxones en ambos lados de cualquier división, para contrarrestar el efecto de densidad de nodos ), UPGMA no debería producir un sesgo resultado. La mayoría de los conjuntos de datos no cumplen estas expectativas y, aunque UPGMA es algo robusto a su violación, no se usa comúnmente para la estimación de filogenia. La ventaja de UPGMA es que es rápido y puede manejar muchas secuencias.

La unión de vecinos es una forma de descomposición de estrellas y, como método heurístico , generalmente es el menos computacionalmente intensivo de estos métodos. Se usa muy a menudo solo y, de hecho, con bastante frecuencia produce árboles razonables. Sin embargo, carece de cualquier tipo de criterio de optimización y búsqueda de árboles, por lo que no hay garantía de que el árbol recuperado sea el que mejor se ajuste a los datos. Un procedimiento analítico más apropiado sería usar NJ para producir un árbol inicial, luego emplear una búsqueda de árbol usando un criterio de optimalidad, para asegurar que se recupere el mejor árbol.

Muchos científicos evitan los métodos a distancia, por varias razones. Una razón comúnmente citada es que las distancias son inherentemente fenéticas en lugar de filogenéticas , ya que no distinguen entre similitud ancestral ( simmplesiomorfia ) y similitud derivada ( sinapomorfia ). Esta crítica no es del todo justa: la mayoría de las implementaciones actuales de parsimonia, verosimilitud e inferencia filogenética bayesiana utilizan modelos de caracteres reversibles en el tiempo y, por lo tanto, no otorgan un estatus especial a los estados de carácter derivados o ancestrales. Según estos modelos, se estima que el árbol no tiene raíces; el enraizamiento y, en consecuencia, la determinación de la polaridad se realiza después del análisis. La principal diferencia entre estos métodos y distancias es que la parsimonia, la verosimilitud y los métodos bayesianos ajustan caracteres individuales al árbol, mientras que los métodos de distancia ajustan todos los caracteres a la vez. No hay nada inherentemente menos filogenético en este enfoque. ^{[ cita requerida ]}

De manera más práctica, se evitan los métodos de distancia porque la relación entre los caracteres individuales y el árbol se pierde en el proceso de reducir los caracteres a distancias. Estos métodos no utilizan datos de caracteres directamente, y la información bloqueada en la distribución de los estados de los caracteres se puede perder en las comparaciones por pares. Además, algunas relaciones filogenéticas complejas pueden producir distancias sesgadas. En cualquier filograma, las longitudes de las ramas se subestimarán porque algunos cambios no se pueden descubrir en absoluto debido a que no se tomaron muestras de algunas especies debido al diseño experimental o la extinción (un fenómeno llamado efecto de densidad de nodos). Sin embargo, incluso si las distancias por pares de los datos genéticos se "corrigen" utilizando modelos estocásticos de evolución como se mencionó anteriormente, pueden sumar más fácilmente a un árbol diferente que uno producido a partir del análisis de los mismos datos y modelo utilizando la máxima verosimilitud . Esto se debe a que las distancias por pares no son independientes; cada rama de un árbol está representada en las medidas de distancia de todos los taxones que separa. El error resultante de cualquier característica de esa rama que pueda confundir la filogenia (variabilidad estocástica, cambio en los parámetros evolutivos, una longitud de rama anormalmente larga o corta) se propagará a través de todas las mediciones de distancia relevantes. La matriz de distancias resultante puede entonces ajustarse mejor a un árbol alternativo (presumiblemente menos óptimo).

A pesar de estos problemas potenciales, los métodos a distancia son extremadamente rápidos y, a menudo, producen una estimación razonable de la filogenia. También tienen ciertos beneficios sobre los métodos que usan personajes directamente. En particular, los métodos a distancia permiten el uso de datos que pueden no convertirse fácilmente en datos de caracteres, como los ensayos de hibridación ADN-ADN . También permiten análisis que tienen en cuenta la posibilidad de que la velocidad a la que se incorporan nucleótidos particulares en las secuencias puede variar a lo largo del árbol, utilizando distancias LogDet . Para algunos métodos de estimación de red (en particular, NeighbourNet ), la abstracción de información sobre caracteres individuales en los datos de distancia es una ventaja. Cuando se considera personaje por personaje, el conflicto entre el personaje y un árbol debido a la reticulación no se puede distinguir del conflicto debido a homoplastia o error. Sin embargo, un conflicto pronunciado en los datos de distancia, que representa una amalgama de muchos caracteres, es menos probable debido a un error o una homoplastia, a menos que los datos estén fuertemente sesgados y, por lo tanto, es más probable que sea el resultado de una reticulación.

Los métodos a distancia son populares entre los sistemáticos moleculares, un número sustancial de los cuales usa NJ sin una etapa de optimización casi exclusivamente. Con la velocidad cada vez mayor de los análisis basados en caracteres, es probable que algunas de las ventajas de los métodos a distancia disminuyan. Sin embargo, las implementaciones de NJ casi instantáneas, la capacidad de incorporar un modelo evolutivo en un análisis rápido, las distancias LogDet, los métodos de estimación de red y la necesidad ocasional de resumir las relaciones con un solo número significan que los métodos de distancia probablemente permanecerán en la corriente principal para mucho tiempo por venir.

Ver también

Lista de software filogenético

Referencias

^ a b c Monte DM. (2004). Bioinformática: análisis de secuencia y genoma 2ª ed. Prensa de laboratorio de Cold Spring Harbor: Cold Spring Harbor, NY.
↑ a b Felsenstein J. (2004). Inferir filogenias Sinauer Associates: Sunderland, MA.
^ Fitch WM; Margoliash E (1967). "Construcción de árboles filogenéticos". Ciencia . 155 (3760): 279–284. Código bibliográfico : 1967Sci ... 155..279F . doi : 10.1126 / science.155.3760.279 . PMID 5334057 .
^ Día, WHE (1986). "Complejidad computacional de inferir filogenias a partir de matrices de disimilitud". Boletín de Biología Matemática . 49 (4): 461–7. doi : 10.1016 / s0092-8240 (87) 80007-1 . PMID 3664032 .

[mount-1] Monte DM. (2004). Bioinformática: análisis de secuencia y genoma 2ª ed. Prensa de laboratorio de Cold Spring Harbor: Cold Spring Harbor, NY.

[felsenstein-2] Felsenstein J. (2004). Inferir filogenias Sinauer Associates: Sunderland, MA.

[3] Fitch WM; Margoliash E (1967). "Construcción de árboles filogenéticos". Ciencia . 155 (3760): 279–284. Código bibliográfico : 1967Sci ... 155..279F . doi : 10.1126 / science.155.3760.279 . PMID 5334057 .

[day-4] Día, WHE (1986). "Complejidad computacional de inferir filogenias a partir de matrices de disimilitud". Boletín de Biología Matemática . 49 (4): 461–7. doi : 10.1016 / s0092-8240 (87) 80007-1 . PMID 3664032 .

[1] Los