En el análisis de conglomerados , el método del codo es una heurística que se utiliza para determinar el número de conglomerados en un conjunto de datos . El método consiste en graficar la variación explicada en función del número de conglomerados y elegir el codo de la curva como el número de conglomerados a utilizar. El mismo método se puede utilizar para elegir el número de parámetros en otros modelos basados en datos, como el número de componentes principales para describir un conjunto de datos.
El método se remonta a la especulación de Robert L. Thorndike en 1953. [1]
Intuición
Usar el "codo" o la " rodilla de una curva " como punto de corte es una heurística común en la optimización matemática para elegir un punto en el que los rendimientos decrecientes ya no justifiquen el costo adicional. En la agrupación, esto significa que se debe elegir una serie de agrupaciones para que la adición de otra agrupación no proporcione un modelo mucho mejor de los datos.
La intuición es que aumentar el número de grupos mejorará naturalmente el ajuste (explica más la variación), ya que hay más parámetros (más grupos) para usar, pero que en algún momento esto es un ajuste excesivo , y el codo refleja esto. . Por ejemplo, dados datos que en realidad constan de k grupos etiquetados, por ejemplo, k puntos muestreados con ruido, la agrupación con más de k grupos "explicará" más la variación (ya que puede usar grupos más pequeños y ajustados), pero esto es sobreajuste, ya que está subdividiendo los grupos etiquetados en múltiples grupos. La idea es que los primeros conglomerados agregarán mucha información (explican mucha variación), ya que los datos en realidad consisten en esa cantidad de grupos (por lo que estos conglomerados son necesarios), pero una vez que el número de conglomerados excede el número real de grupos en el datos, la información agregada caerá drásticamente, porque solo está subdividiendo los grupos reales. Suponiendo que esto suceda, habrá un codo agudo en el gráfico de variación explicada frente a grupos: aumentando rápidamente hasta k ( región de ajuste insuficiente ) y luego aumentando lentamente después de k (región de ajuste excesivo).
En la práctica, puede que no haya un codo afilado y, como método heurístico, tal "codo" no siempre puede identificarse sin ambigüedades. [2]
Medidas de variación
Hay varias medidas de " variación explicada " que se utilizan en el método del codo. Más comúnmente, varia ción se cuantifica por varia NCE , y la proporción es la proporción de la varianza entre los grupos a la varianza total. Alternativamente, se usa la relación entre la varianza entre grupos y la varianza dentro del grupo, que es el estadístico de prueba F de ANOVA de una vía . [3]
Ver también
Referencias
- ^ Robert L. Thorndike (diciembre de 1953). "¿Quién pertenece a la familia?". Psychometrika . 18 (4): 267–276. doi : 10.1007 / BF02289263 .
- ^ Ver, por ejemplo, Ketchen, Jr, David J .; Shook, Christopher L. (1996). "La aplicación del análisis de conglomerados en la investigación de gestión estratégica: un análisis y una crítica" . Revista de Gestión Estratégica . 17 (6): 441–458. doi : 10.1002 / (SICI) 1097-0266 (199606) 17: 6 <441 :: AID-SMJ819> 3.0.CO; 2-G .[ enlace muerto ]
- ^ Ver, por ejemplo, Figura 6 en
- Goutte, Cyril; Toft, Peter; Rostrup, Egill; Nielsen, Finn Årup; Hansen, Lars Kai (marzo de 1999). "Sobre la agrupación de series de tiempo de fMRI". NeuroImage . 9 (3): 298–310. CiteSeerX 10.1.1.29.2679 . doi : 10.1006 / nimg.1998.0391 . PMID 10075900 .