UPGMA

UPGMA ( método de grupos de pares no ponderados con media aritmética ) es un método simple de agrupamiento jerárquico aglomerativo (ascendente) . El método generalmente se atribuye a Sokal y Michener . ^[1]

El método UPGMA es similar a su variante ponderada , el método WPGMA .

Tenga en cuenta que el término no ponderado indica que todas las distancias contribuyen por igual a cada promedio que se calcula y no se refiere a las matemáticas mediante las cuales se logra. Por lo tanto, el promedio simple en WPGMA produce un resultado ponderado y el promedio proporcional en UPGMA produce un resultado no ponderado ( ver el ejemplo de trabajo ). ^[2]

Algoritmo

El algoritmo UPGMA construye un árbol enraizado ( dendrograma ) que refleja la estructura presente en una matriz de semejanza por pares (o una matriz de disimilitud ). En cada paso, los dos grupos más cercanos se combinan en un grupo de nivel superior. La distancia entre dos grupos cualesquiera ${\ Displaystyle {\ mathcal {A}}}$ y ${\ Displaystyle {\ mathcal {B}}}$ , cada uno de tamaño ( es decir , cardinalidad ) ${\ Displaystyle {| {\ mathcal {A}} |}}$ y ${\ Displaystyle {| {\ mathcal {B}} |}}$ , se toma como el promedio de todas las distancias ${\ Displaystyle d (x, y)}$ entre pares de objetos ${\ Displaystyle x}$ en ${\ Displaystyle {\ mathcal {A}}}$ y ${\ Displaystyle y}$ en ${\ Displaystyle {\ mathcal {B}}}$ , es decir, la distancia media entre elementos de cada grupo:

{\ Displaystyle {1 \ over {| {\ mathcal {A}} | \ cdot | {\ mathcal {B}} |}} \ sum _ {x \ in {\ mathcal {A}}} \ sum _ {y \ in {\ mathcal {B}}} d (x, y)}

En otras palabras, en cada paso de agrupamiento, la distancia actualizada entre los grupos unidos ${\ Displaystyle {\ mathcal {A}} \ cup {\ mathcal {B}}}$ y un nuevo clúster ${\ Displaystyle X}$ viene dada por el promedio proporcional de la ${\ Displaystyle d _ {{\ mathcal {A}}, X}}$ y ${\ Displaystyle d _ {{\ mathcal {B}}, X}}$ distancias:

${\ Displaystyle d _ {({\ mathcal {A}} \ cup {\ mathcal {B}}), X} = {\ frac {| {\ mathcal {A}} | \ cdot d _ {{\ mathcal {A} }, X} + | {\ mathcal {B}} | \ cdot d _ {{\ mathcal {B}}, X}} {| {\ mathcal {A}} | + | {\ mathcal {B}} |} }}$

El algoritmo UPGMA produce dendrogramas enraizados y requiere una suposición de tasa constante, es decir, asume un árbol ultramétrico en el que las distancias desde la raíz hasta la punta de cada rama son iguales. Cuando las puntas son datos moleculares ( es decir , ADN , ARN y proteínas ) muestreados al mismo tiempo, el supuesto de ultrametricidad se vuelve equivalente a suponer un reloj molecular .

Ejemplo de trabajo

Este ejemplo de trabajo se basa en una matriz de distancia genética JC69 calculada a partir de la alineación de la secuencia de ARN ribosómico 5S de cinco bacterias: Bacillus subtilis ( ${\ Displaystyle a}$ ), Bacillus stearothermophilus ( ${\ Displaystyle b}$ ), Lactobacillus viridescens ( ${\ Displaystyle c}$ ), Acholeplasma modicum ( ${\ Displaystyle d}$ ) y Micrococcus luteus ( ${\ Displaystyle e}$ ). ^[3]^[4]

Primer paso

Primera agrupación

Supongamos que tenemos cinco elementos ${\ Displaystyle (a, b, c, d, e)}$ y la siguiente matriz ${\ Displaystyle D_ {1}}$ de distancias por pares entre ellos:

	a	B	C	D	mi
a	0	17	21	31	23
B	17	0	30	34	21
C	21	30	0	28	39
D	31	34	28	0	43
mi	23	21	39	43	0

En este ejemplo, ${\ Displaystyle D_ {1} (a, b) = 17}$ es el valor más pequeño de ${\ Displaystyle D_ {1}}$ , entonces unimos elementos ${\ Displaystyle a}$ y ${\ Displaystyle b}$ .

Estimación de la longitud de la primera rama

Dejar ${\ Displaystyle u}$ denotar el nodo al que ${\ Displaystyle a}$ y ${\ Displaystyle b}$ ahora están conectados. Configuración ${\ Displaystyle \ delta (a, u) = \ delta (b, u) = D_ {1} (a, b) / 2}$ asegura que los elementos ${\ Displaystyle a}$ y ${\ Displaystyle b}$ son equidistantes de ${\ Displaystyle u}$ . Esto corresponde a la expectativa de la hipótesis de ultrametricidad . Las ramas que se unen ${\ Displaystyle a}$ y ${\ Displaystyle b}$ a ${\ Displaystyle u}$ luego tener longitudes ${\ Displaystyle \ delta (a, u) = \ delta (b, u) = 17/2 = 8.5}$ ( ver el dendrograma final )

Actualización de la primera matriz de distancias

Luego procedemos a actualizar la matriz de distancias inicial ${\ Displaystyle D_ {1}}$ en una nueva matriz de distancia ${\ Displaystyle D_ {2}}$ (ver más abajo), reducido en tamaño en una fila y una columna debido a la agrupación de ${\ Displaystyle a}$ con ${\ Displaystyle b}$ . Valores audaces en ${\ Displaystyle D_ {2}}$ corresponden a las nuevas distancias, calculadas promediando las distancias entre cada elemento del primer grupo ${\ Displaystyle (a, b)}$ y cada uno de los elementos restantes:

${\ Displaystyle D_ {2} ((a, b), c) = (D_ {1} (a, c) \ times 1 + D_ {1} (b, c) \ times 1) / (1 + 1) = (21 + 30) /2=25.5}$

${\ Displaystyle D_ {2} ((a, b), d) = (D_ {1} (a, d) + D_ {1} (b, d)) / 2 = (31 + 34) /2=32.5 }$

${\ Displaystyle D_ {2} ((a, b), e) = (D_ {1} (a, e) + D_ {1} (b, e)) / 2 = (23 + 21) / 2 = 22 }$

Valores en cursiva en ${\ Displaystyle D_ {2}}$ no se ven afectados por la actualización de la matriz, ya que corresponden a distancias entre elementos no involucrados en el primer grupo.

Segundo paso

Segundo agrupamiento

Ahora reiteramos los tres pasos anteriores, comenzando desde la nueva matriz de distancias ${\ Displaystyle D_ {2}}$

	(a, b)	C	D	mi
(a, b)	0	25,5	32,5	22
C	25,5	0	28	39
D	32,5	28	0	43
mi	22	39	43	0

Aquí, ${\ Displaystyle D_ {2} ((a, b), e) = 22}$ es el valor más pequeño de ${\ Displaystyle D_ {2}}$ , entonces nos unimos al clúster ${\ Displaystyle (a, b)}$ y elemento ${\ Displaystyle e}$ .

Estimación de la longitud de la segunda rama

Dejar ${\ Displaystyle v}$ denotar el nodo al que ${\ Displaystyle (a, b)}$ y ${\ Displaystyle e}$ ahora están conectados. Debido a la restricción de ultrametricidad, las ramas que se unen ${\ Displaystyle a}$ o ${\ Displaystyle b}$ a ${\ Displaystyle v}$ , y ${\ Displaystyle e}$ a ${\ Displaystyle v}$ son iguales y tienen la siguiente longitud: ${\ Displaystyle \ delta (a, v) = \ delta (b, v) = \ delta (e, v) = 22/2 = 11}$

Deducimos la longitud de la rama que falta: ${\ Displaystyle \ delta (u, v) = \ delta (e, v) - \ delta (a, u) = \ delta (e, v) - \ delta (b, u) = 11-8.5 = 2.5}$ ( ver el dendrograma final )

Actualización de la segunda matriz de distancia

Luego procedemos a actualizar ${\ Displaystyle D_ {2}}$ en una nueva matriz de distancia ${\ Displaystyle D_ {3}}$ (ver más abajo), reducido en tamaño en una fila y una columna debido a la agrupación de ${\ Displaystyle (a, b)}$ con ${\ Displaystyle e}$ . Valores audaces en ${\ Displaystyle D_ {3}}$ corresponden a las nuevas distancias, calculadas por promediado proporcional :

${\ Displaystyle D_ {3} (((a, b), e), c) = (D_ {2} ((a, b), c) \ times 2 + D_ {2} (e, c) \ times 1) / (2 + 1) = (25.5 \ times 2 + 39 \ times 1) / 3 = 30}$

Gracias a este promedio proporcional, el cálculo de esta nueva distancia da cuenta del mayor tamaño de la ${\ Displaystyle (a, b)}$ cluster (dos elementos) con respecto a ${\ Displaystyle e}$ (un elemento). Similar:

${\ Displaystyle D_ {3} (((a, b), e), re) = (D_ {2} ((a, b), d) \ times 2 + D_ {2} (e, d) \ times 1) / (2 + 1) = (32.5 \ times 2 + 43 \ times 1) / 3 = 36}$

Por lo tanto, el promedio proporcional da el mismo peso a las distancias iniciales de la matriz. ${\ Displaystyle D_ {1}}$ . Esta es la razón por la que el método no está ponderado , no con respecto al procedimiento matemático sino con respecto a las distancias iniciales.

Tercer paso

Tercer agrupamiento

Reiteramos de nuevo los tres pasos anteriores, partiendo de la matriz de distancias actualizada ${\ Displaystyle D_ {3}}$ .

	((a, b), e)	C	D
((a, b), e)	0	30	36
C	30	0	28
D	36	28	0

Aquí, ${\ Displaystyle D_ {3} (do, d) = 28}$ es el valor más pequeño de ${\ Displaystyle D_ {3}}$ , entonces unimos elementos ${\ Displaystyle c}$ y ${\ Displaystyle d}$ .

Estimación de la longitud de la tercera rama

Dejar ${\ Displaystyle w}$ denotar el nodo al que ${\ Displaystyle c}$ y ${\ Displaystyle d}$ ahora están conectados. Las ramas que se unen ${\ Displaystyle c}$ y ${\ Displaystyle d}$ a ${\ Displaystyle w}$ luego tener longitudes ${\ Displaystyle \ delta (do, w) = \ delta (d, w) = 28/2 = 14}$ ( ver el dendrograma final )

Actualización de la matriz de la tercera distancia

Hay una única entrada para actualizar, teniendo en cuenta que los dos elementos ${\ Displaystyle c}$ y ${\ Displaystyle d}$ cada uno tiene una contribución de ${\ Displaystyle 1}$ en el cálculo promedio :

${\ Displaystyle D_ {4} ((c, d), ((a, b), e)) = (D_ {3} (c, ((a, b), e)) \ times 1 + D_ {3 } (d, ((a, b), e)) \ times 1) / (1 + 1) = (30 \ times 1 + 36 \ times 1) / 2 = 33}$

Último paso

El final ${\ Displaystyle D_ {4}}$ matriz es:

	((a, b), e)	(CD)
((a, b), e)	0	33
(CD)	33	0

Entonces nos unimos a grupos ${\ Displaystyle ((a, b), e)}$ y ${\ Displaystyle (c, d)}$ .

Dejar ${\ Displaystyle r}$ denotar el nodo (raíz) al que ${\ Displaystyle ((a, b), e)}$ y ${\ Displaystyle (c, d)}$ ahora están conectados. Las ramas que se unen ${\ Displaystyle ((a, b), e)}$ y ${\ Displaystyle (c, d)}$ a ${\ Displaystyle r}$ luego tener longitudes:

${\ Displaystyle \ delta (((a, b), e), r) = \ delta ((c, d), r) = 33/2 = 16.5}$

Deducimos las dos longitudes de rama restantes:

${\ Displaystyle \ delta (v, r) = \ delta (((a, b), e), r) - \ delta (e, v) = 16,5-11 = 5,5}$

${\ Displaystyle \ delta (w, r) = \ delta ((c, d), r) - \ delta (c, w) = 16,5-14 = 2,5}$

El dendrograma UPGMA

El dendrograma ahora está completo. ^[5] Es ultramétrico porque todas las puntas ( ${\ Displaystyle a}$ a ${\ Displaystyle e}$ ) son equidistantes de ${\ Displaystyle r}$ :

${\ Displaystyle \ delta (a, r) = \ delta (b, r) = \ delta (e, r) = \ delta (c, r) = \ delta (d, r) = 16.5}$

Por tanto, el dendrograma tiene sus raíces en ${\ Displaystyle r}$ , su nodo más profundo.

Comparación con otros vínculos

Los esquemas de vinculación alternativos incluyen agrupación de vinculación única , agrupación de vinculación completa y agrupación de vinculación promedio WPGMA . Implementar un enlace diferente es simplemente una cuestión de usar una fórmula diferente para calcular las distancias entre grupos durante los pasos de actualización de la matriz de distancia del algoritmo anterior. La agrupación de enlaces completa evita un inconveniente del método alternativo de agrupación de enlaces únicos: el llamado fenómeno de encadenamiento , en el que los grupos formados a través de la agrupación de enlaces únicos pueden forzarse juntos debido a que los elementos individuales están cerca unos de otros, aunque muchos de los elementos de cada uno de ellos. Los grupos pueden estar muy distantes entre sí. El enlace completo tiende a encontrar grupos compactos de diámetros aproximadamente iguales. ^[6]

Comparación de dendrogramas obtenidos bajo diferentes métodos de agrupamiento de la misma matriz de distancias .

Agrupación de un solo enlace.	Agrupación de enlaces completos.	Agrupación de enlaces promedio: WPGMA.	Agrupación de enlaces promedio: UPGMA .

Usos

En ecología , es uno de los métodos más populares para la clasificación de unidades de muestreo (como parcelas de vegetación) sobre la base de sus similitudes por pares en las variables descriptivas relevantes (como la composición de especies). ^[7] Por ejemplo, se ha utilizado para comprender la interacción trófica entre las bacterias marinas y los protistas. ^[8]
En bioinformática , UPGMA se utiliza para la creación de árboles fenéticos (fenogramas). UPGMA se diseñó inicialmente para su uso en estudios de electroforesis de proteínas , pero actualmente se utiliza con mayor frecuencia para producir árboles guía para algoritmos más sofisticados. Este algoritmo se utiliza, por ejemplo, en procedimientos de alineación de secuencias , ya que propone un orden en el que se alinearán las secuencias. De hecho, el árbol guía tiene como objetivo agrupar las secuencias más similares, independientemente de su tasa evolutiva o afinidades filogenéticas, y ese es exactamente el objetivo de UPGMA ^[9].
En filogenética , UPGMA asume una tasa constante de evolución ( hipótesis del reloj molecular ) y que todas las secuencias fueron muestreadas al mismo tiempo, y no es un método bien considerado para inferir relaciones a menos que esta suposición haya sido probada y justificada para que el conjunto de datos sea usó. Tenga en cuenta que incluso bajo un 'reloj estricto', las secuencias muestreadas en diferentes momentos no deberían conducir a un árbol ultramétrico.

Complejidad del tiempo

Una implementación trivial del algoritmo para construir el árbol UPGMA ha ${\ Displaystyle O (n ^ {3})}$ complejidad del tiempo, y el uso de un montón para cada clúster para mantener sus distancias de otro clúster reduce su tiempo para ${\ Displaystyle O (n ^ {2} \ log n)}$ . Fionn Murtagh presentó algunos otros enfoques para casos especiales, un ${\ Displaystyle O (k3 ^ {k} n ^ {2})}$ algoritmo de tiempo de Day y Edelsbrunner ^[10] para datos k-dimensionales que son óptimos ${\ Displaystyle O (n ^ {2})}$ para k constante, y otro ${\ Displaystyle O (n ^ {2})}$ algoritmo para entradas restringidas, cuando "la estrategia aglomerativa satisface la propiedad de reducibilidad". ^[11]

Ver también

Unión de vecinos
Análisis de conglomerados
Agrupación de un solo enlace
Agrupación de enlaces completos
Agrupación jerárquica
Modelos de evolución del ADN
Reloj molecular

Referencias

^ Sokal , Michener (1958). "Un método estadístico para evaluar relaciones sistemáticas" . Boletín de Ciencias de la Universidad de Kansas . 38 : 1409-1438.
^ Garcia S, Puigbò P. "DendroUPGMA: Una utilidad de construcción de dendrogramas" (PDF) . pag. 4.
^ Erdmann VA, Wolters J (1986). "Colección de secuencias de ARN ribosómico 5S, 5.8S y 4.5S publicadas" . Investigación de ácidos nucleicos . 14 Supl (Supl): r1–59. doi : 10.1093 / nar / 14.suppl.r1 . PMC 341310 . PMID 2422630 .
^ Olsen GJ (1988). "Análisis filogenético mediante ARN ribosómico". Métodos en enzimología . 164 : 793–812. doi : 10.1016 / s0076-6879 (88) 64084-5 . PMID 3241556 .
^ Swofford DL, Olsen GJ, Waddell PJ, Hillis DM (1996). "Inferencia filogenética". En Hillis DM, Moritz C, Mable BK (eds.). Sistemática Molecular, 2ª edición . Sunderland, MA: Sinauer. págs. 407–514. ISBN 9780878932825.
^ Everitt, BS; Landau, S .; Leese, M. (2001). Análisis de conglomerados. 4ª Edición . Londres: Arnold. pag. 62–64.
^ Legendre P, Legendre L (1998). Ecología numérica . Desarrollos en Modelización Ambiental. 20 (Segunda edición en inglés). Amsterdam: Elsevier.
^ Vázquez-Domínguez E, Casamayor EO, Català P, Lebaron P (abril de 2005). "Diferentes nanoflagelados heterótrofos marinos afectan diferencialmente la composición de las comunidades bacterianas enriquecidas". Ecología microbiana . 49 (3): 474–85. doi : 10.1007 / s00248-004-0035-5 . JSTOR 25153200 . PMID 16003474 . S2CID 22300174 .
^ Wheeler TJ, Kececioglu JD (julio de 2007). "Alineación múltiple alineando alineaciones" . Bioinformática . 23 (13): i559–68. doi : 10.1093 / bioinformatics / btm226 . PMID 17646343 .
^ Día WH, Edelsbrunner H (1 de diciembre de 1984). "Algoritmos eficientes para métodos de agrupamiento jerárquico aglomerativo". Revista de clasificación . 1 (1): 7–24. doi : 10.1007 / BF01890115 . ISSN 0176-4268 . S2CID 121201396 .
^ Murtagh F (1984). "Complejidades de algoritmos de agrupamiento jerárquico: el estado del arte". Estadística Computacional Trimestral . 1 : 101-113.

enlaces externos

Implementación del algoritmo de agrupación en clústeres UPGMA en Ruby (AI4R)
Ejemplo de cálculo de UPGMA usando una matriz de similitud
Ejemplo de cálculo de UPGMA usando una matriz de distancia

[1] Sokal , Michener (1958). "Un método estadístico para evaluar relaciones sistemáticas" . Boletín de Ciencias de la Universidad de Kansas . 38 : 1409-1438.

[2] Garcia S, Puigbò P. "DendroUPGMA: Una utilidad de construcción de dendrogramas" (PDF) . pag. 4.

[Erdmann1986-3] Erdmann VA, Wolters J (1986). "Colección de secuencias de ARN ribosómico 5S, 5.8S y 4.5S publicadas" . Investigación de ácidos nucleicos . 14 Supl (Supl): r1–59. doi : 10.1093 / nar / 14.suppl.r1 . PMC 341310 . PMID 2422630 .

[Olsen1988-4] Olsen GJ (1988). "Análisis filogenético mediante ARN ribosómico". Métodos en enzimología . 164 : 793–812. doi : 10.1016 / s0076-6879 (88) 64084-5 . PMID 3241556 .

[Swofford1996-5] Swofford DL, Olsen GJ, Waddell PJ, Hillis DM (1996). "Inferencia filogenética". En Hillis DM, Moritz C, Mable BK (eds.). Sistemática Molecular, 2ª edición . Sunderland, MA: Sinauer. págs. 407–514. ISBN 9780878932825.

[6] Everitt, BS; Landau, S .; Leese, M. (2001). Análisis de conglomerados. 4ª Edición . Londres: Arnold. pag. 62–64.

[7] Legendre P, Legendre L (1998). Ecología numérica . Desarrollos en Modelización Ambiental. 20 (Segunda edición en inglés). Amsterdam: Elsevier.

[8] Vázquez-Domínguez E, Casamayor EO, Català P, Lebaron P (abril de 2005). "Diferentes nanoflagelados heterótrofos marinos afectan diferencialmente la composición de las comunidades bacterianas enriquecidas". Ecología microbiana . 49 (3): 474–85. doi : 10.1007 / s00248-004-0035-5 . JSTOR 25153200 . PMID 16003474 . S2CID 22300174 .

[pmid17646343-9] Wheeler TJ, Kececioglu JD (julio de 2007). "Alineación múltiple alineando alineaciones" . Bioinformática . 23 (13): i559–68. doi : 10.1093 / bioinformatics / btm226 . PMID 17646343 .

[10] Día WH, Edelsbrunner H (1 de diciembre de 1984). "Algoritmos eficientes para métodos de agrupamiento jerárquico aglomerativo". Revista de clasificación . 1 (1): 7–24. doi : 10.1007 / BF01890115 . ISSN 0176-4268 . S2CID 121201396 .

[11] Murtagh F (1984). "Complejidades de algoritmos de agrupamiento jerárquico: el estado del arte". Estadística Computacional Trimestral . 1 : 101-113.

[1]