WPGMA ( W eighted P aire G rupo M étodo con A rithmetic Mean) es un simple aglomeración (de abajo arriba) la agrupación jerárquica método, generalmente atribuido a Sokal y Michener . [1]
El método WPGMA es similar a su variante no ponderada , el método UPGMA .
Algoritmo
El algoritmo WPGMA construye un árbol enraizado ( dendrograma ) que refleja la estructura presente en una matriz de distancias por pares (o una matriz de similitud ). En cada paso, los dos grupos más cercanos, dicen y , se combinan en un clúster de nivel superior . Entonces, su distancia a otro grupo es simplemente la media aritmética de las distancias medias entre miembros de y y y :
El algoritmo WPGMA produce dendrogramas enraizados y requiere una suposición de tasa constante: produce un árbol ultramétrico en el que las distancias desde la raíz hasta la punta de cada rama son iguales. Esta suposición de ultrametricidad se denomina reloj molecular cuando las puntas involucran datos de ADN , ARN y proteínas .
Ejemplo de trabajo
Este ejemplo de trabajo se basa en una matriz de distancia genética JC69 calculada a partir de la alineación de la secuencia de ARN ribosómico 5S de cinco bacterias: Bacillus subtilis (), Bacillus stearothermophilus (), Lactobacillus viridescens (), Acholeplasma modicum () y Micrococcus luteus (). [2] [3]
Primer paso
- Primera agrupación
Supongamos que tenemos cinco elementos y la siguiente matriz de distancias por pares entre ellos:
a | B | C | D | mi | |
---|---|---|---|---|---|
a | 0 | 17 | 21 | 31 | 23 |
B | 17 | 0 | 30 | 34 | 21 |
C | 21 | 30 | 0 | 28 | 39 |
D | 31 | 34 | 28 | 0 | 43 |
mi | 23 | 21 | 39 | 43 | 0 |
En este ejemplo, es el valor más pequeño de , entonces unimos elementos y .
- Estimación de la longitud de la primera rama
Dejar denotar el nodo al que y ahora están conectados. Configuración asegura que los elementos y son equidistantes de . Esto corresponde a la expectativa de la hipótesis de ultrametricidad . Las ramas que se unen y a luego tener longitudes ( ver el dendrograma final )
- Actualización de la primera matriz de distancias
Luego procedemos a actualizar la matriz de distancias inicial en una nueva matriz de distancia (ver más abajo), reducido en tamaño en una fila y una columna debido a la agrupación de con . Valores audaces encorresponden a las nuevas distancias, calculadas promediando las distancias entre cada elemento del primer grupo y cada uno de los elementos restantes:
Valores en cursiva en no se ven afectados por la actualización de la matriz, ya que corresponden a distancias entre elementos no involucrados en el primer grupo.
Segundo paso
- Segundo agrupamiento
Ahora reiteramos los tres pasos anteriores, comenzando desde la nueva matriz de distancias :
(a, b) | C | D | mi | |
---|---|---|---|---|
(a, b) | 0 | 25,5 | 32,5 | 22 |
C | 25,5 | 0 | 28 | 39 |
D | 32,5 | 28 | 0 | 43 |
mi | 22 | 39 | 43 | 0 |
Aquí, es el valor más pequeño de , entonces nos unimos al clúster y elemento .
- Estimación de la longitud de la segunda rama
Dejar denotar el nodo al que y ahora están conectados. Debido a la restricción de ultrametricidad, las ramas que se unen o a , y a son iguales y tienen la siguiente longitud:
Deducimos la longitud de la rama que falta: ( ver el dendrograma final )
- Actualización de la segunda matriz de distancia
Luego procedemos a actualizar el matriz en una nueva matriz de distancia (ver más abajo), reducido en tamaño en una fila y una columna debido a la agrupación de con :
Es de destacar que este cálculo promedio de la nueva distancia no tiene en cuenta el tamaño más grande de la cluster (dos elementos) con respecto a (un elemento). Similar:
Por tanto, el procedimiento de promediado da un peso diferencial a las distancias iniciales de la matriz . Esta es la razón por la que se pondera el método , no con respecto al procedimiento matemático sino con respecto a las distancias iniciales.
Tercer paso
- Tercer agrupamiento
Reiteramos de nuevo los tres pasos anteriores, partiendo de la matriz de distancias actualizada .
((a, b), e) | C | D | |
---|---|---|---|
((a, b), e) | 0 | 32.25 | 37,75 |
C | 32.25 | 0 | 28 |
D | 37,75 | 28 | 0 |
Aquí, es el valor más pequeño de , entonces unimos elementos y .
- Estimación de la longitud de la tercera rama
Dejar denotar el nodo al que y ahora están conectados. Las ramas que se unen y a luego tener longitudes ( ver el dendrograma final )
- Actualización de la matriz de la tercera distancia
Hay una sola entrada para actualizar:
Último paso
El final matriz es:
((a, b), e) | (CD) | |
---|---|---|
((a, b), e) | 0 | 35 |
(CD) | 35 | 0 |
Entonces nos unimos a los clusters y .
Dejar denotar el nodo (raíz) al que y ahora están conectados. Las ramas que se unen y a luego tener longitudes:
Deducimos las dos longitudes de rama restantes:
El dendrograma WPGMA
El dendrograma ahora está completo. Es ultramétrico porque todas las puntas ( a ) son equidistantes de :
Por tanto, el dendrograma tiene sus raíces en , su nodo más profundo.
Comparación con otros vínculos
Los esquemas de vinculación alternativos incluyen agrupación de vinculación única , agrupación de vinculación completa y agrupación de vinculación promedio UPGMA . Implementar un enlace diferente es simplemente una cuestión de usar una fórmula diferente para calcular las distancias entre grupos durante los pasos de actualización de la matriz de distancia del algoritmo anterior. La agrupación de enlaces completa evita un inconveniente del método alternativo de agrupación de enlaces únicos: el llamado fenómeno de encadenamiento , en el que los grupos formados a través de la agrupación de enlaces únicos pueden forzarse juntos debido a que los elementos individuales están cerca unos de otros, aunque muchos de los elementos de cada uno de ellos. Los grupos pueden estar muy distantes entre sí. El enlace completo tiende a encontrar grupos compactos de diámetros aproximadamente iguales. [4]
Agrupación de un solo enlace. | Agrupación de enlaces completos. | Agrupación de enlaces promedio: WPGMA . | Agrupación de enlaces promedio: UPGMA. |
Ver también
Referencias
- ^ Sokal , Michener (1958). "Un método estadístico para evaluar relaciones sistemáticas" . Boletín de Ciencias de la Universidad de Kansas . 38 : 1409-1438.
- ^ Erdmann VA, Wolters J (1986). "Colección de secuencias de ARN ribosómico 5S, 5.8S y 4.5S publicadas" . Investigación de ácidos nucleicos . 14 Supl (Supl): r1–59. doi : 10.1093 / nar / 14.suppl.r1 . PMC 341310 . PMID 2422630 .
- ^ Olsen GJ (1988). "Análisis filogenético mediante ARN ribosómico". Métodos en enzimología . 164 : 793–812. doi : 10.1016 / s0076-6879 (88) 64084-5 . PMID 3241556 .
- ^ Everitt, BS; Landau, S .; Leese, M. (2001). Análisis de conglomerados. 4ª Edición . Londres: Arnold. pag. 62–64.