Agrupación jerárquica


En minería de datos y estadísticas , el agrupamiento jerárquico (también llamado análisis de conglomerados jerárquicos o HCA ) es un método de análisis de conglomerados que busca construir una jerarquía de conglomerados. Las estrategias para la agrupación jerárquica generalmente se dividen en dos tipos: [1]

En general, las fusiones y divisiones se determinan de manera codiciosa . Los resultados del agrupamiento jerárquico [2] generalmente se presentan en un dendrograma .

El algoritmo estándar para el agrupamiento aglomerativo jerárquico (HAC) tiene una complejidad de tiempo y requiere memoria, lo que lo hace demasiado lento incluso para conjuntos de datos medianos. Sin embargo, para algunos casos especiales, se conocen métodos de aglomeración eficientes óptimos (de complejidad ): SLINK [3] para enlace simple y CLINK [4] para agrupamiento de enlace completo . Con un montón , el tiempo de ejecución del caso general se puede reducir a , una mejora en el límite mencionado anteriormente de, a costa de aumentar aún más los requisitos de memoria. En muchos casos, los gastos generales de memoria de este enfoque son demasiado grandes para que sea prácticamente utilizable.

Excepto en el caso especial de enlace único, ninguno de los algoritmos (excepto la búsqueda exhaustiva en ) puede garantizar que encuentre la solución óptima.

El agrupamiento divisivo con una búsqueda exhaustiva es , pero es común usar heurísticas más rápidas para elegir divisiones, como k -means .

Para decidir qué conglomerados deben combinarse (para aglomeración), o dónde debe dividirse un conglomerado (para división), se requiere una medida de disimilitud entre conjuntos de observaciones. En la mayoría de los métodos de agrupamiento jerárquico, esto se logra mediante el uso de una métrica adecuada (una medida de distancia entre pares de observaciones) y un criterio de vinculación que especifica la disimilitud de conjuntos en función de las distancias de pares de observaciones en los conjuntos.


Datos sin procesar
Representación tradicional
Dendrograma de agrupamiento jerárquico del conjunto de datos Iris (usando R ). Fuente
Agrupación jerárquica y visualización interactiva de dendrogramas en la suite de minería de datos de Orange .