Silueta (agrupación)

Silueta se refiere a un método de interpretación y validación de la coherencia dentro de grupos de datos . La técnica proporciona una representación gráfica sucinta de qué tan bien se ha clasificado cada objeto. ^[1]

El valor de silueta es una medida de cuán similar es un objeto a su propio grupo (cohesión) en comparación con otros grupos (separación). La silueta varía de -1 a +1, donde un valor alto indica que el objeto se corresponde bien con su propio grupo y no con los grupos vecinos. Si la mayoría de los objetos tienen un valor alto, entonces la configuración de agrupamiento es apropiada. Si muchos puntos tienen un valor bajo o negativo, entonces la configuración de la agrupación en clústeres puede tener demasiados o muy pocos clústeres.

La silueta se puede calcular con cualquier métrica de distancia , como la distancia euclidiana o la distancia de Manhattan .

Definición

Un gráfico que muestra las puntuaciones de silueta de tres tipos de animales del conjunto de datos del zoológico según lo representa la suite de minería de datos de Orange . En la parte inferior de la trama, la silueta identifica a los delfines y las marsopas como valores atípicos en el grupo de mamíferos.

Suponga que los datos se han agrupado mediante cualquier técnica, como k-medias , en ${\ Displaystyle k}$ racimos.

Para punto de datos ${\ Displaystyle i \ en C_ {i}}$ (punto de datos ${\ Displaystyle i}$ en el cluster ${\ Displaystyle C_ {i}}$ ), dejar

{\ Displaystyle a (i) = {\ frac {1} {| C_ {i} | -1}} \ sum _ {j \ in C_ {i}, i \ neq j} d (i, j)}

ser la distancia media entre ${\ Displaystyle i}$ y todos los demás puntos de datos en el mismo grupo, donde ${\ Displaystyle d (i, j)}$ es la distancia entre puntos de datos ${\ Displaystyle i}$ y ${\ Displaystyle j}$ en el cluster ${\ Displaystyle C_ {i}}$ (dividimos por ${\ Displaystyle | C_ {i} | -1}$ porque no incluimos la distancia ${\ Displaystyle d (i, i)}$ en la suma). Podemos interpretar ${\ Displaystyle a (i)}$ como una medida de lo bien ${\ Displaystyle i}$ se asigna a su grupo (cuanto menor sea el valor, mejor será la asignación).

Luego definimos la disimilitud media del punto ${\ Displaystyle i}$ a algún racimo ${\ Displaystyle C_ {k}}$ como la media de la distancia desde ${\ Displaystyle i}$ a todos los puntos en ${\ Displaystyle C_ {k}}$ (dónde ${\ Displaystyle C_ {k} \ neq C_ {i}}$ ).

Para cada punto de datos ${\ Displaystyle i \ en C_ {i}}$ , ahora definimos

{\ Displaystyle b (i) = \ min _ {k \ neq i} {\ frac {1} {| C_ {k} |}} \ sum _ {j \ in C_ {k}} d (i, j) }

ser el más pequeño (de ahí el ${\ Displaystyle \ min}$ operador en la fórmula) distancia media de ${\ Displaystyle i}$ a todos los puntos de cualquier otro grupo, de los cuales ${\ Displaystyle i}$ no es miembro. Se dice que el grupo con esta menor disimilitud media es el "grupo vecino" de ${\ Displaystyle i}$ porque es el siguiente grupo de mejor ajuste para el punto ${\ Displaystyle i}$ .

Ahora definimos una silueta (valor) de un punto de datos ${\ Displaystyle i}$

{\ Displaystyle s (i) = {\ frac {b (i) -a (i)} {\ max \ {a (i), b (i) \}}}}

, Si

{\ Displaystyle | C_ {i} |> 1}

y

{\ Displaystyle s (i) = 0}

, Si

{\ Displaystyle | C_ {i} | = 1}

Que también se puede escribir como:

{\ Displaystyle s (i) = {\ begin {cases} 1-a (i) / b (i), & {\ mbox {if}} a (i)

De la definición anterior queda claro que

{\ Displaystyle -1 \ leq s (i) \ leq 1}

Tenga en cuenta que ${\ Displaystyle a (i)}$ no está claramente definido para clústeres con tamaño = 1, en cuyo caso establecemos ${\ Displaystyle s (i) = 0}$ . Esta elección es arbitraria, pero neutral en el sentido de que está en el punto medio de los límites, -1 y 1. ^[1]

Para ${\ Displaystyle s (i)}$ para estar cerca de 1 requerimos ${\ Displaystyle a (i) \ ll b (i)}$ . Como ${\ Displaystyle a (i)}$ es una medida de lo diferente ${\ Displaystyle i}$ es para su propio clúster, un valor pequeño significa que está bien adaptado. Además, una gran ${\ Displaystyle b (i)}$ implica que ${\ Displaystyle i}$ está mal emparejado con su grupo vecino. Por lo tanto, un ${\ Displaystyle s (i)}$ cerca de 1 significa que los datos están agrupados de forma adecuada. Si ${\ Displaystyle s (i)}$ está cerca de -1, entonces por la misma lógica vemos que ${\ Displaystyle i}$ sería más apropiado si estuviera agrupado en su grupo vecino. Un ${\ Displaystyle s (i)}$ cerca de cero significa que el datum está en el límite de dos conglomerados naturales.

El significado ${\ Displaystyle s (i)}$ sobre todos los puntos de un grupo es una medida de cuán estrechamente agrupados están todos los puntos del grupo. Por lo tanto, la media ${\ Displaystyle s (i)}$ sobre todos los datos del conjunto de datos completo es una medida de cuán apropiadamente se han agrupado los datos. Si hay demasiados o muy pocos clústeres, como puede ocurrir cuando una mala elección de ${\ Displaystyle k}$ se utiliza en el algoritmo de agrupamiento (por ejemplo: k-means ), algunos de los grupos normalmente mostrarán siluetas mucho más estrechas que el resto. Por lo tanto, se pueden usar gráficos de silueta y medios para determinar el número natural de conglomerados dentro de un conjunto de datos. También se puede aumentar la probabilidad de que la silueta se maximice en el número correcto de conglomerados al volver a escalar los datos utilizando ponderaciones de características que son específicas del conglomerado. ^[2]

Kaufman y col. introdujo el término coeficiente de silueta para el valor máximo de la media ${\ Displaystyle s (i)}$ sobre todos los datos del conjunto de datos completo. ^[3]

{\ Displaystyle SC = \ max _ {k} {\ tilde {s}} \ left (k \ right)}

Dónde ${\ Displaystyle {\ tilde {s}} \ left (k \ right)}$ representa la media ${\ Displaystyle s (i)}$ sobre todos los datos del conjunto de datos completo para un número específico de clústeres ${\ Displaystyle k}$ .

Ver también

Referencias

↑ ^a ^b Peter J. Rousseeuw (1987). "Siluetas: una ayuda gráfica para la interpretación y validación del análisis de conglomerados" . Matemática Computacional y Aplicada . 20 : 53–65. doi : 10.1016 / 0377-0427 (87) 90125-7 .
^ RC de Amorim, C. Hennig (2015). "Recuperación del número de clústeres en conjuntos de datos con características de ruido utilizando factores de cambio de escala de características". Ciencias de la información . 324 : 126-145. arXiv : 1602.06989 . doi : 10.1016 / j.ins.2015.06.039 .
^ Leonard Kaufman; Peter J. Rousseeuw (1990). Encontrar grupos en los datos: una introducción al análisis de conglomerados . Hoboken, Nueva Jersey: Wiley-Interscience. pag. 87 . doi : 10.1002 / 9780470316801 . ISBN 9780471878766.

[Rousseeuw_1987-1] Peter J. Rousseeuw (1987). "Siluetas: una ayuda gráfica para la interpretación y validación del análisis de conglomerados" . Matemática Computacional y Aplicada . 20 : 53–65. doi : 10.1016 / 0377-0427 (87) 90125-7 .

[2] RC de Amorim, C. Hennig (2015). "Recuperación del número de clústeres en conjuntos de datos con características de ruido utilizando factores de cambio de escala de características". Ciencias de la información . 324 : 126-145. arXiv : 1602.06989 . doi : 10.1016 / j.ins.2015.06.039 .

[3] Leonard Kaufman; Peter J. Rousseeuw (1990). Encontrar grupos en los datos: una introducción al análisis de conglomerados . Hoboken, Nueva Jersey: Wiley-Interscience. pag. 87 . doi : 10.1002 / 9780470316801 . ISBN 9780471878766.

[1]