Silueta se refiere a un método de interpretación y validación de la coherencia dentro de grupos de datos . La técnica proporciona una representación gráfica sucinta de qué tan bien se ha clasificado cada objeto. [1]
El valor de silueta es una medida de cuán similar es un objeto a su propio grupo (cohesión) en comparación con otros grupos (separación). La silueta varía de -1 a +1, donde un valor alto indica que el objeto se corresponde bien con su propio grupo y no con los grupos vecinos. Si la mayoría de los objetos tienen un valor alto, entonces la configuración de agrupamiento es apropiada. Si muchos puntos tienen un valor bajo o negativo, entonces la configuración de la agrupación en clústeres puede tener demasiados o muy pocos clústeres.
La silueta se puede calcular con cualquier métrica de distancia , como la distancia euclidiana o la distancia de Manhattan .
Definición
Suponga que los datos se han agrupado mediante cualquier técnica, como k-medias , en racimos.
Para punto de datos (punto de datos en el cluster ), dejar
ser la distancia media entre y todos los demás puntos de datos en el mismo grupo, donde es la distancia entre puntos de datos y en el cluster (dividimos por porque no incluimos la distancia en la suma). Podemos interpretar como una medida de lo bien se asigna a su grupo (cuanto menor sea el valor, mejor será la asignación).
Luego definimos la disimilitud media del punto a algún racimo como la media de la distancia desde a todos los puntos en (dónde ).
Para cada punto de datos , ahora definimos
ser el más pequeño (de ahí el operador en la fórmula) distancia media de a todos los puntos de cualquier otro grupo, de los cuales no es miembro. Se dice que el grupo con esta menor disimilitud media es el "grupo vecino" de porque es el siguiente grupo de mejor ajuste para el punto .
Ahora definimos una silueta (valor) de un punto de datos
- , Si
y
- , Si
Que también se puede escribir como:
De la definición anterior queda claro que
Tenga en cuenta que no está claramente definido para clústeres con tamaño = 1, en cuyo caso establecemos . Esta elección es arbitraria, pero neutral en el sentido de que está en el punto medio de los límites, -1 y 1. [1]
Para para estar cerca de 1 requerimos . Como es una medida de lo diferente es para su propio clúster, un valor pequeño significa que está bien adaptado. Además, una gran implica que está mal emparejado con su grupo vecino. Por lo tanto, uncerca de 1 significa que los datos están agrupados de forma adecuada. Si está cerca de -1, entonces por la misma lógica vemos que sería más apropiado si estuviera agrupado en su grupo vecino. Un cerca de cero significa que el datum está en el límite de dos conglomerados naturales.
El significado sobre todos los puntos de un grupo es una medida de cuán estrechamente agrupados están todos los puntos del grupo. Por lo tanto, la mediasobre todos los datos del conjunto de datos completo es una medida de cuán apropiadamente se han agrupado los datos. Si hay demasiados o muy pocos clústeres, como puede ocurrir cuando una mala elección dese utiliza en el algoritmo de agrupamiento (por ejemplo: k-means ), algunos de los grupos normalmente mostrarán siluetas mucho más estrechas que el resto. Por lo tanto, se pueden usar gráficos de silueta y medios para determinar el número natural de conglomerados dentro de un conjunto de datos. También se puede aumentar la probabilidad de que la silueta se maximice en el número correcto de conglomerados al volver a escalar los datos utilizando ponderaciones de características que son específicas del conglomerado. [2]
Kaufman y col. introdujo el término coeficiente de silueta para el valor máximo de la mediasobre todos los datos del conjunto de datos completo. [3]
Dónde representa la media sobre todos los datos del conjunto de datos completo para un número específico de clústeres .
Ver también
Referencias
- ↑ a b Peter J. Rousseeuw (1987). "Siluetas: una ayuda gráfica para la interpretación y validación del análisis de conglomerados" . Matemática Computacional y Aplicada . 20 : 53–65. doi : 10.1016 / 0377-0427 (87) 90125-7 .
- ^ RC de Amorim, C. Hennig (2015). "Recuperación del número de clústeres en conjuntos de datos con características de ruido utilizando factores de cambio de escala de características". Ciencias de la información . 324 : 126-145. arXiv : 1602.06989 . doi : 10.1016 / j.ins.2015.06.039 .
- ^ Leonard Kaufman; Peter J. Rousseeuw (1990). Encontrar grupos en los datos: una introducción al análisis de conglomerados . Hoboken, Nueva Jersey: Wiley-Interscience. pag. 87 . doi : 10.1002 / 9780470316801 . ISBN 9780471878766.