Agrupación de enlaces completos

El agrupamiento de enlaces completos es uno de varios métodos de agrupamiento jerárquico aglomerativo . Al comienzo del proceso, cada elemento está en un grupo propio. Luego, los grupos se combinan secuencialmente en grupos más grandes hasta que todos los elementos terminan en el mismo grupo. El método también se conoce como agrupación de vecinos más lejanos . El resultado de la agrupación se puede visualizar como un dendrograma , que muestra la secuencia de fusión de la agrupación y la distancia a la que tuvo lugar cada fusión. ^[1]^[2]^[3]

Procedimiento de agrupación

En cada paso, se combinan los dos grupos separados por la distancia más corta. La definición de "distancia más corta" es lo que diferencia entre los diferentes métodos de agrupamiento aglomerativo. En la agrupación de enlaces completos, el vínculo entre dos agrupaciones contiene todos los pares de elementos, y la distancia entre las agrupaciones es igual a la distancia entre los dos elementos (uno en cada agrupación) que están más alejados entre sí. El más corto de estos enlaces que permanece en cualquier paso provoca la fusión de los dos clústeres cuyos elementos están involucrados.

Matemáticamente, la función de vinculación completa - la distancia ${\ Displaystyle D (X, Y)}$ entre racimos ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ - se describe mediante la siguiente expresión: ${\ Displaystyle D (X, Y) = \ max _ {x \ in X, y \ in Y} d (x, y)}$

dónde

${\ Displaystyle d (x, y)}$ es la distancia entre elementos ${\ Displaystyle x \ in X}$ y ${\ Displaystyle y \ in Y}$ ;
${\ Displaystyle X}$ y ${\ Displaystyle Y}$ son dos conjuntos de elementos (clústeres).

Algoritmos

Esquema ingenuo

El siguiente algoritmo es un esquema de aglomeración que borra filas y columnas en una matriz de proximidad a medida que los grupos antiguos se fusionan con otros nuevos. La ${\ Displaystyle N \ times N}$ la matriz de proximidad D contiene todas las distancias d ( i , j ). A las agrupaciones se les asignan los números de secuencia 0,1, ......, ( n - 1) y L ( k ) es el nivel de la k-ésima agrupación. Un grupo con el número de secuencia m se denota ( m ) y la proximidad entre los grupos ( r ) y ( s ) se denota d [( r ), ( s )].

El algoritmo completo de agrupación en clústeres de vinculación consta de los siguientes pasos:

Comience con la agrupación disjunta que tiene nivel ${\ Displaystyle L (0) = 0}$ y número de secuencia ${\ Displaystyle m = 0}$ .
Encuentre el par de clústeres más similar en el clúster actual, digamos par ${\ Displaystyle (r), (s)}$ , de acuerdo a ${\ Displaystyle d [(r), (s)] = \ min d [(i), (j)]}$ donde el mínimo es sobre todos los pares de clústeres en el clúster actual.
Incrementar el número de secuencia: ${\ Displaystyle m = m + 1}$ . Fusionar clústeres ${\ Displaystyle (r)}$ y ${\ Displaystyle (s)}$ en un solo clúster para formar el siguiente clúster ${\ Displaystyle m}$ . Establezca el nivel de este agrupamiento en ${\ Displaystyle L (m) = re [(r), (s)]}$
Actualizar la matriz de proximidad, ${\ Displaystyle D}$ , eliminando las filas y columnas correspondientes a los clústeres ${\ Displaystyle (r)}$ y ${\ Displaystyle (s)}$ y agregar una fila y una columna correspondientes al grupo recién formado. La proximidad entre el nuevo clúster, denotado ${\ Displaystyle (r, s)}$ y viejo racimo ${\ Displaystyle (k)}$ Se define como ${\ Displaystyle d [(r), (s)] = \ max \ {d [(k), (r)], re [(k), (s)] \}}$ .
Si todos los objetos están en un grupo, deténgase. De lo contrario, vaya al paso 2.

Esquema óptimamente eficiente

El algoritmo explicado anteriormente es fácil de entender pero complejo. ${\ Displaystyle O (n ^ {3})}$ . En mayo de 1976, D. Defays propuso un algoritmo óptimamente eficiente de solo complejidad ${\ Displaystyle O (n ^ {2})}$ conocido como CLINK (publicado en 1977) ^[4] inspirado en el algoritmo similar SLINK para la agrupación de un solo enlace .

Ejemplo de trabajo

El ejemplo de trabajo se basa en una matriz de distancia genética JC69 calculada a partir de la alineación de la secuencia de ARN ribosómico 5S de cinco bacterias: Bacillus subtilis ( ${\ Displaystyle a}$ ), Bacillus stearothermophilus ( ${\ Displaystyle b}$ ), Lactobacillus viridescens ( ${\ Displaystyle c}$ ), Acholeplasma modicum ( ${\ Displaystyle d}$ ) y Micrococcus luteus ( ${\ Displaystyle e}$ ). ^[5]^[6]

Primer paso

Primera agrupación

Supongamos que tenemos cinco elementos ${\ Displaystyle (a, b, c, d, e)}$ y la siguiente matriz ${\ Displaystyle D_ {1}}$ de distancias por pares entre ellos:

	a	B	C	D	mi
a	0	17	21	31	23
B	17	0	30	34	21
C	21	30	0	28	39
D	31	34	28	0	43
mi	23	21	39	43	0

En este ejemplo, ${\ Displaystyle D_ {1} (a, b) = 17}$ es el valor más pequeño de ${\ Displaystyle D_ {1}}$ , entonces unimos elementos ${\ Displaystyle a}$ y ${\ Displaystyle b}$ .

Estimación de la longitud de la primera rama

Dejar ${\ Displaystyle u}$ denotar el nodo al que ${\ Displaystyle a}$ y ${\ Displaystyle b}$ ahora están conectados. Configuración ${\ Displaystyle \ delta (a, u) = \ delta (b, u) = D_ {1} (a, b) / 2}$ asegura que los elementos ${\ Displaystyle a}$ y ${\ Displaystyle b}$ son equidistantes de ${\ Displaystyle u}$ . Esto corresponde a la expectativa de la hipótesis de ultrametricidad . Las ramas que se unen ${\ Displaystyle a}$ y ${\ Displaystyle b}$ a ${\ Displaystyle u}$ luego tener longitudes ${\ Displaystyle \ delta (a, u) = \ delta (b, u) = 17/2 = 8.5}$ ( ver el dendrograma final )

Actualización de la primera matriz de distancias

Luego procedemos a actualizar la matriz de proximidad inicial ${\ Displaystyle D_ {1}}$ en una nueva matriz de proximidad ${\ Displaystyle D_ {2}}$ (ver más abajo), reducido en tamaño en una fila y una columna debido a la agrupación de ${\ Displaystyle a}$ con ${\ Displaystyle b}$ . Valores audaces en ${\ Displaystyle D_ {2}}$ corresponden a las nuevas distancias, calculadas reteniendo la distancia máxima entre cada elemento del primer grupo ${\ Displaystyle (a, b)}$ y cada uno de los elementos restantes:

${\ Displaystyle D_ {2} ((a, b), c) = max (D_ {1} (a, c), D_ {1} (b, c)) = max (21,30) = 30}$

${\ Displaystyle D_ {2} ((a, b), d) = max (D_ {1} (a, d), D_ {1} (b, d)) = max (31,34) = 34}$

${\ Displaystyle D_ {2} ((a, b), e) = max (D_ {1} (a, e), D_ {1} (b, e)) = max (23,21) = 23}$

Valores en cursiva en ${\ Displaystyle D_ {2}}$ no se ven afectados por la actualización de la matriz, ya que corresponden a distancias entre elementos no involucrados en el primer grupo.

Segundo paso

Segundo agrupamiento

Ahora reiteramos los tres pasos anteriores, comenzando desde la nueva matriz de distancias ${\ Displaystyle D_ {2}}$ :

	(a, b)	C	D	mi
(a, b)	0	30	34	23
C	30	0	28	39
D	34	28	0	43
mi	23	39	43	0

Aquí, ${\ Displaystyle D_ {2} ((a, b), e) = 23}$ es el valor más bajo de ${\ Displaystyle D_ {2}}$ , entonces nos unimos al clúster ${\ Displaystyle (a, b)}$ con elemento ${\ Displaystyle e}$ .

Estimación de la longitud de la segunda rama

Dejar ${\ Displaystyle v}$ denotar el nodo al que ${\ Displaystyle (a, b)}$ y ${\ Displaystyle e}$ ahora están conectados. Debido a la restricción de ultrametricidad, las ramas que se unen ${\ Displaystyle a}$ o ${\ Displaystyle b}$ a ${\ Displaystyle v}$ , y ${\ Displaystyle e}$ a ${\ Displaystyle v}$ , son iguales y tienen la siguiente longitud total: ${\ Displaystyle \ delta (a, v) = \ delta (b, v) = \ delta (e, v) = 23/2 = 11.5}$

Deducimos la longitud de la rama que falta: ${\ Displaystyle \ delta (u, v) = \ delta (e, v) - \ delta (a, u) = \ delta (e, v) - \ delta (b, u) = 11,5-8,5 = 3}$ ( ver el dendrograma final )

Actualización de la segunda matriz de distancia

Luego procedemos a actualizar el ${\ Displaystyle D_ {2}}$ matriz en una nueva matriz de distancia ${\ Displaystyle D_ {3}}$ (ver más abajo), reducido en tamaño en una fila y una columna debido a la agrupación de ${\ Displaystyle (a, b)}$ con ${\ Displaystyle e}$ :

${\ Displaystyle D_ {3} (((a, b), e), c) = max (D_ {2} ((a, b), c), D_ {2} (e, c)) = max ( 30,39) = 39}$

${\ Displaystyle D_ {3} (((a, b), mi), re) = máximo (D_ {2} ((a, b), re), D_ {2} (mi, re)) = máximo ( 34,43) = 43}$

Tercer paso

Tercer agrupamiento

Reiteramos de nuevo los tres pasos anteriores, partiendo de la matriz de distancias actualizada ${\ Displaystyle D_ {3}}$ .

	((a, b), e)	C	D
((a, b), e)	0	39	43
C	39	0	28
D	43	28	0

Aquí, ${\ Displaystyle D_ {3} (do, d) = 28}$ es el valor más pequeño de ${\ Displaystyle D_ {3}}$ , entonces unimos elementos ${\ Displaystyle c}$ y ${\ Displaystyle d}$ .

Estimación de la longitud de la tercera rama

Dejar ${\ Displaystyle w}$ denotar el nodo al que ${\ Displaystyle c}$ y ${\ Displaystyle d}$ ahora están conectados. Las ramas que se unen ${\ Displaystyle c}$ y ${\ Displaystyle d}$ a ${\ Displaystyle w}$ luego tener longitudes ${\ Displaystyle \ delta (do, w) = \ delta (d, w) = 28/2 = 14}$ ( ver el dendrograma final )

Actualización de la matriz de la tercera distancia

Hay una sola entrada para actualizar: ${\ Displaystyle D_ {4} ((do, d), ((a, b), e)) = max (D_ {3} (do, ((a, b), e)), D_ {3} ( d, ((a, b), e))) = máx. (39,43) = 43}$

Último paso

El final ${\ Displaystyle D_ {4}}$ matriz es:

	((a, b), e)	(CD)
((a, b), e)	0	43
(CD)	43	0

Entonces nos unimos a grupos ${\ Displaystyle ((a, b), e)}$ y ${\ Displaystyle (c, d)}$ .

Dejar ${\ Displaystyle r}$ denotar el nodo (raíz) al que ${\ Displaystyle ((a, b), e)}$ y ${\ Displaystyle (c, d)}$ ahora están conectados. Las ramas que se unen ${\ Displaystyle ((a, b), e)}$ y ${\ Displaystyle (c, d)}$ a ${\ Displaystyle r}$ luego tener longitudes:

${\ Displaystyle \ delta (((a, b), e), r) = \ delta ((c, d), r) = 43/2 = 21.5}$

Deducimos las dos longitudes de rama restantes:

${\ Displaystyle \ delta (v, r) = \ delta (((a, b), e), r) - \ delta (e, v) = 21,5-11,5 = 10}$

${\ Displaystyle \ delta (w, r) = \ delta ((c, d), r) - \ delta (c, w) = 21,5-14 = 7,5}$

El dendrograma de ligamiento completo

El dendrograma ahora está completo. Es ultramétrico porque todas las puntas ( ${\ Displaystyle a}$ a ${\ Displaystyle e}$ ) son equidistantes de ${\ Displaystyle r}$ :

${\ Displaystyle \ delta (a, r) = \ delta (b, r) = \ delta (e, r) = \ delta (c, r) = \ delta (d, r) = 21.5}$

Por tanto, el dendrograma tiene sus raíces en ${\ Displaystyle r}$ , su nodo más profundo.

Comparación con otros vínculos

Los esquemas de vinculación alternativos incluyen la agrupación de vínculos únicos y la agrupación de vínculos promedio : implementar un vínculo diferente en el algoritmo ingenuo es simplemente una cuestión de usar una fórmula diferente para calcular las distancias entre grupos en el cálculo inicial de la matriz de proximidad y en el paso 4 de lo anterior algoritmo. Sin embargo, no se dispone de un algoritmo de eficacia óptima para enlaces arbitrarios. La fórmula que debe ajustarse se ha resaltado con texto en negrita.

La agrupación de enlaces completa evita un inconveniente del método de enlace único alternativo : el llamado fenómeno de encadenamiento , donde los grupos formados a través de la agrupación de enlaces únicos pueden forzarse juntos debido a que los elementos individuales están cerca unos de otros, aunque muchos de los elementos de cada grupo pueden estar muy distantes entre sí. El enlace completo tiende a encontrar grupos compactos de diámetros aproximadamente iguales. ^[7]

Comparación de dendrogramas obtenidos bajo diferentes métodos de agrupamiento de la misma matriz de distancias .

Agrupación de un solo enlace .	Agrupación de enlaces completos.	Agrupación de enlaces promedio: WPGMA .	Agrupación de enlaces promedio: UPGMA .

Ver también

Referencias

^ Sorensen T (1948). "Un método para establecer grupos de igual amplitud en sociología vegetal basado en la similitud de especies y su aplicación a los análisis de la vegetación en los comunes daneses". Biologiske Skrifter . 5 : 1–34.
^ Legendre P, Legendre L (1998). Ecología numérica (Segunda edición inglesa). pag. 853.
^ Everitt BS, Landau S , Leese M (2001). Análisis de conglomerados (Cuarta ed.). Londres: Arnold. ISBN 0-340-76119-9.
^ Defays D (1977). "Un algoritmo eficiente para un método de enlace completo" . The Computer Journal . Sociedad Británica de Computación. 20 (4): 364–366. doi : 10.1093 / comjnl / 20.4.364 .
^ Erdmann VA, Wolters J (1986). "Colección de secuencias de ARN ribosómico 5S, 5.8S y 4.5S publicadas" . Investigación de ácidos nucleicos . 14 Supl (Supl): r1-59. doi : 10.1093 / nar / 14.suppl.r1 . PMC 341310 . PMID 2422630 .
^ Olsen GJ (1988). "Análisis filogenético mediante ARN ribosómico". Métodos en enzimología . 164 : 793–812. doi : 10.1016 / s0076-6879 (88) 64084-5 . PMID 3241556 .
^ Everitt, Landau y Leese (2001), págs. 62-64.

Otras lecturas

Späth H (1980). Algoritmos de análisis de conglomerados . Chichester: Ellis Horwood.

[1] Sorensen T (1948). "Un método para establecer grupos de igual amplitud en sociología vegetal basado en la similitud de especies y su aplicación a los análisis de la vegetación en los comunes daneses". Biologiske Skrifter . 5 : 1–34.

[2] Legendre P, Legendre L (1998). Ecología numérica (Segunda edición inglesa). pag. 853.

[3] Everitt BS, Landau S , Leese M (2001). Análisis de conglomerados (Cuarta ed.). Londres: Arnold. ISBN 0-340-76119-9.

[4] Defays D (1977). "Un algoritmo eficiente para un método de enlace completo" . The Computer Journal . Sociedad Británica de Computación. 20 (4): 364–366. doi : 10.1093 / comjnl / 20.4.364 .

[Erdmann1986-5] Erdmann VA, Wolters J (1986). "Colección de secuencias de ARN ribosómico 5S, 5.8S y 4.5S publicadas" . Investigación de ácidos nucleicos . 14 Supl (Supl): r1-59. doi : 10.1093 / nar / 14.suppl.r1 . PMC 341310 . PMID 2422630 .

[Olsen1988-6] Olsen GJ (1988). "Análisis filogenético mediante ARN ribosómico". Métodos en enzimología . 164 : 793–812. doi : 10.1016 / s0076-6879 (88) 64084-5 . PMID 3241556 .

[7] Everitt, Landau y Leese (2001), págs. 62-64.

[1]