Filogenética computacional


La filogenética computacional es la aplicación de algoritmos , métodos y programas computacionales a los análisis filogenéticos . El objetivo es ensamblar un árbol filogenético que represente una hipótesis sobre la ascendencia evolutiva de un conjunto de genes , especies u otros taxones . Por ejemplo, estas técnicas se han utilizado para explorar el árbol genealógico de las especies de homínidos [1] y las relaciones entre genes específicos compartidos por muchos tipos de organismos. [2]

La filogenética tradicional se basa en datos morfológicos obtenidos midiendo y cuantificando las propiedades fenotípicas de organismos representativos, mientras que el campo más reciente de la filogenética molecular utiliza secuencias de nucleótidos que codifican genes o secuencias de aminoácidos que codifican proteínas como base para la clasificación.

Muchas formas de filogenética molecular están estrechamente relacionadas y hacen un amplio uso de la alineación de secuencias para construir y refinar árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. Es poco probable que los árboles filogenéticos construidos por métodos computacionales reproduzcan perfectamente el árbol evolutivo que representa las relaciones históricas entre las especies que se analizan. El árbol histórico de especies también puede diferir del árbol histórico de un gen homólogo individual compartido por esas especies.

Los árboles filogenéticos generados por la filogenética computacional se pueden enraizar o desarraigar según los datos de entrada y el algoritmo utilizado. Un árbol enraizado es un gráfico dirigido que identifica explícitamente un ancestro común más reciente (MRCA), [ cita requerida ] generalmente una secuencia ingresada que no está representada en la entrada. Las medidas de distancia genética se pueden usar para trazar un árbol con las secuencias de entrada como nodos de hojas y sus distancias desde la raíz proporcionales a su distancia genética .del supuesto MRCA. La identificación de una raíz generalmente requiere la inclusión en los datos de entrada de al menos un "grupo externo" que se sabe que está relacionado solo lejanamente con las secuencias de interés.

Por el contrario, los árboles sin raíces trazan las distancias y las relaciones entre las secuencias de entrada sin hacer suposiciones sobre su descenso. Siempre se puede producir un árbol sin raíces a partir de un árbol con raíces, pero normalmente no se puede colocar una raíz en un árbol sin raíces sin datos adicionales sobre las tasas de divergencia, como la suposición de la hipótesis del reloj molecular . [3]

El conjunto de todos los árboles filogenéticos posibles para un grupo dado de secuencias de entrada se puede conceptualizar como un "espacio de árbol" multidimensional definido discretamente a través del cual los algoritmos de optimización pueden rastrear las rutas de búsqueda. Aunque contar el número total de árboles para un número no trivial de secuencias de entrada puede ser complicado por las variaciones en la definición de una topología de árbol, siempre es cierto que hay más árboles enraizados que no enraizados para un número determinado de entradas y una selección de parámetros. [4]