Hipótesis del racimo


En el aprendizaje automático y la recuperación de información , la hipótesis del clúster es una suposición sobre la naturaleza de los datos que se manejan en esos campos, que adopta varias formas. En la recuperación de información, establece que los documentos que están agrupados "se comportan de manera similar con respecto a la relevancia para las necesidades de información". [1] En términos de clasificación , establece que si los puntos están en el mismo grupo, es probable que sean de la misma clase. [2] Puede haber varios grupos que formen una sola clase.

Los motores de búsqueda pueden agrupar documentos que se recuperaron para una consulta y luego recuperar los documentos de los grupos, así como los documentos originales. Alternativamente, los motores de búsqueda pueden ser reemplazados por interfaces de navegación que presentan resultados de algoritmos de agrupamiento. Ambos enfoques para la recuperación de información se basan en una variante de la hipótesis del grupo, según la cual los documentos que son similares según un criterio de agrupación (por lo general, la superposición de términos) tendrán una relevancia similar para las necesidades de información de los usuarios. [1]

La suposición de clúster se asume en muchos algoritmos de aprendizaje automático, como el algoritmo de clasificación de k -vecino más cercano y el algoritmo de agrupamiento k -means . Como la palabra "probable" aparece en la definición, no hay un límite claro que diferencie si la suposición se cumple o no. En contraste, la cantidad de adherencia de los datos a esta suposición puede medirse cuantitativamente.

La suposición de conglomerados es equivalente a la suposición de separación de baja densidad que establece que el límite de decisión debe estar en una región de baja densidad. Para probar esto, suponga que el límite de decisión cruza uno de los grupos. Entonces este grupo contendrá puntos de dos clases diferentes, por lo tanto, se viola en este grupo.