algoritmo de k vecinos más cercanos

En estadística , el algoritmo de k -vecinos más cercanos ( k -NN ) es un método de clasificación no paramétrico desarrollado por primera vez por Evelyn Fix y Joseph Hodges en 1951, ^[1] y posteriormente ampliado por Thomas Cover . ^[2] Se utiliza para clasificación y regresión . En ambos casos, la entrada consta de los k ejemplos de entrenamiento más cercanos en un conjunto de datos . El resultado depende de si se utiliza k -NN para clasificación o regresión:

k -NN es un tipo de clasificación donde la función solo se aproxima localmente y todos los cálculos se aplazan hasta la evaluación de la función. Dado que este algoritmo se basa en la distancia para la clasificación, si las características representan diferentes unidades físicas o vienen en escalas muy diferentes, la normalización de los datos de entrenamiento puede mejorar su precisión drásticamente. ^[3]^[4]

Tanto para la clasificación como para la regresión, una técnica útil puede ser asignar ponderaciones a las contribuciones de los vecinos, de modo que los vecinos más cercanos contribuyan más al promedio que los más lejanos. Por ejemplo, un esquema de ponderación común consiste en darle a cada vecino una ponderación de 1 / d , donde d es la distancia al vecino. ^[5]

Los vecinos se toman de un conjunto de objetos para los que se conoce la clase (para la clasificación k -NN) o el valor de la propiedad del objeto (para la regresión k -NN). Esto se puede considerar como el conjunto de entrenamiento para el algoritmo, aunque no se requiere ningún paso de entrenamiento explícito.

Ejemplo de clasificación k -NN. La muestra de prueba (punto verde) debe clasificarse en cuadrados azules o triángulos rojos. Si k = 3 (círculo de línea continua) se asigna a los triángulos rojos porque hay 2 triángulos y solo 1 cuadrado dentro del círculo interior. Si k = 5 (círculo de línea discontinua), se asigna a los cuadrados azules (3 cuadrados frente a 2 triángulos dentro del círculo exterior).

Cálculo de la relación de fronteras.

Tres tipos de puntos: prototipos, valores atípicos de clase y puntos absorbidos.