Algoritmo CURE

CURE (Clustering Using REpresentatives) es un algoritmo de agrupamiento de datos eficiente para grandes bases de datos ^{[ cita requerida ]} . En comparación con la agrupación de K-medias , es más resistente a valores atípicos y puede identificar agrupaciones que tienen formas no esféricas y variaciones de tamaño.

Dadas las grandes diferencias en tamaños o geometrías de diferentes grupos, el método del error cuadrado podría dividir los grupos grandes para minimizar el error cuadrado, que no siempre es correcto. Además, con los algoritmos de agrupamiento jerárquico, estos problemas existen ya que ninguna de las medidas de distancia entre grupos ( ) tiende a funcionar con diferentes formas de grupos. Además, el tiempo de ejecución es alto cuando n es grande. ${\ Displaystyle d_ {min}, d_ {mean}}$

El problema con el algoritmo BIRCH es que una vez que se generan los grupos después del paso 3, utiliza centroides de los grupos y asigna cada punto de datos al grupo con el centroide más cercano. ^{[ cita requerida ]} Usar solo el centroide para redistribuir los datos tiene problemas cuando los grupos carecen de tamaños y formas uniformes.

Para evitar los problemas con grupos de tamaño o forma no uniformes, CURE emplea un algoritmo de agrupamiento jerárquico que adopta un término medio entre el centroide basado y todos los extremos de puntos. En CURE, se elige un número constante c de puntos bien dispersos de un grupo y se reducen hacia el centroide del grupo en una fracción α. Los puntos dispersos después de la reducción se utilizan como representantes del grupo. Los grupos con el par de representantes más cercano son los grupos que se fusionan en cada paso del algoritmo de agrupamiento jerárquico de CURE. Esto permite que CURE identifique correctamente los clústeres y lo hace menos sensible a los valores atípicos.

El algoritmo no se puede aplicar directamente a grandes bases de datos debido a la alta complejidad del tiempo de ejecución. Las mejoras abordan este requisito.