En el aprendizaje automático , un clasificador de centroide más cercano o un clasificador de prototipo más cercano es un modelo de clasificación que asigna a las observaciones la etiqueta de la clase de muestras de entrenamiento cuya media ( centroide ) está más cerca de la observación.
Cuando se aplica a la clasificación de texto usando vectores tf * idf para representar documentos, el clasificador de centroide más cercano se conoce como clasificador de Rocchio debido a su similitud con el algoritmo de Rocchio para la retroalimentación de relevancia . [1]
Una versión extendida del clasificador centroide más cercano ha encontrado aplicaciones en el dominio médico, específicamente en la clasificación de tumores . [2]
Algoritmo
- Procedimiento de formación: muestras de formación etiquetadas proporcionadas con etiquetas de clase , calcula los centroides por clase dónde es el conjunto de índices de muestras pertenecientes a la clase .
- Función de predicción: la clase asignada a una observación. es .
Ver también
Referencias
- ^ Manning, Christopher; Raghavan, Prabhakar; Schütze, Hinrich (2008). "Clasificación del espacio vectorial". Introducción a la recuperación de información . Prensa de la Universidad de Cambridge.
- ^ Tibshirani, Robert ; Hastie, Trevor ; Narasimhan, balasubramaniano; Chu, Gilbert (2002). "Diagnóstico de múltiples tipos de cáncer por centroides encogidos de expresión génica" . Actas de la Academia Nacional de Ciencias . 99 (10): 6567–6572. doi : 10.1073 / pnas.082099299 . PMC 124443 . PMID 12011421 .