Análisis de componentes de vecindario

El análisis de componentes de vecindad es un método de aprendizaje supervisado para clasificar datos multivariados en clases distintas de acuerdo con una métrica de distancia dada sobre los datos. Funcionalmente, cumple los mismos propósitos que el algoritmo de K vecinos más cercanos y hace uso directo de un concepto relacionado denominado vecinos estocásticos más cercanos .

Definición

El análisis de componentes de vecindad tiene como objetivo "aprender" una métrica de distancia mediante la búsqueda de una transformación lineal de los datos de entrada de manera que el rendimiento promedio de clasificación de dejar uno fuera (LOO) se maximice en el espacio transformado. La idea clave del algoritmo es que una matriz ${\ Displaystyle A}$ correspondiente a la transformación se puede encontrar definiendo una función objetivo diferenciable para ${\ Displaystyle A}$ , seguido del uso de un solucionador iterativo como el descenso de gradiente conjugado . Uno de los beneficios de este algoritmo es que el número de clases ${\ Displaystyle k}$ se puede determinar en función de ${\ Displaystyle A}$ , hasta una constante escalar. Por lo tanto, este uso del algoritmo aborda la cuestión de la selección del modelo .

Explicación

Para definir ${\ Displaystyle A}$ , definimos una función objetivo que describe la precisión de clasificación en el espacio transformado y tratamos de determinar ${\ Displaystyle A ^ {*}}$ de modo que esta función objetivo se maximice.

${\ Displaystyle A ^ {*} = {\ mbox {argmax}} _ {A} f (A)}$

Clasificación de dejar uno fuera (LOO)

Considere la posibilidad de predecir la etiqueta de clase de un solo punto de datos por consenso de su ${\ Displaystyle k}$ -vecinos más cercanos con una métrica de distancia determinada. Esto se conoce como clasificación de dejar uno fuera . Sin embargo, el conjunto de vecinos más cercanos ${\ Displaystyle C_ {i}}$ puede ser bastante diferente después de pasar todos los puntos a través de una transformación lineal. Específicamente, el conjunto de vecinos para un punto puede sufrir cambios discretos en respuesta a cambios suaves en los elementos de ${\ Displaystyle A}$ , lo que implica que cualquier función objetiva ${\ Displaystyle f (\ cdot)}$ basado en los vecinos de un punto será constante a trozos y , por tanto, no diferenciable .

Solución

Podemos resolver esta dificultad utilizando un enfoque inspirado en el descenso de gradiente estocástico . En lugar de considerar el ${\ Displaystyle k}$ -vecinos más cercanos en cada punto transformado en la clasificación LOO, consideraremos todo el conjunto de datos transformados como vecinos estocásticos más cercanos . Los definimos usando una función softmax de la distancia euclidiana al cuadrado entre un punto de clasificación LOO dado y cada otro punto en el espacio transformado:

${\ Displaystyle p_ {ij} = {\ begin {cases} {\ frac {e ^ {- || Ax_ {i} -Ax_ {j} || ^ {2}}} {\ sum _ {k} e ^ {- || Ax_ {i} -Ax_ {k} || ^ {2}}}}, & {\ mbox {if}} j \ neq i \\ 0, & {\ mbox {if}} j = i \ end {cases}}}$

La probabilidad de clasificar correctamente el punto de datos. ${\ Displaystyle i}$ es la probabilidad de clasificar los puntos de cada uno de sus vecinos con la misma clase ${\ Displaystyle C_ {i}}$ :

${\ Displaystyle p_ {i} = \ sum _ {j \ in C_ {i}} p_ {ij} \ quad}$ dónde ${\ Displaystyle p_ {ij}}$ es la probabilidad de clasificar vecino ${\ Displaystyle j}$ de punto ${\ Displaystyle i}$ .

Defina la función objetivo usando la clasificación LOO, esta vez usando todo el conjunto de datos como vecinos estocásticos más cercanos:

${\ Displaystyle f (A) = \ sum _ {i} \ sum _ {j \ in C_ {i}} p_ {ij} = \ sum _ {i} p_ {i}}$

Tenga en cuenta que en los vecinos estocásticos más cercanos, la clase de consenso para un solo punto ${\ Displaystyle i}$ es el valor esperado de la clase de un punto en el límite de un número infinito de muestras extraídas de la distribución sobre sus vecinos ${\ Displaystyle j \ en C_ {i}}$ es decir: ${\ Displaystyle P (Clase (X_ {i}) = Clase (X_ {j})) = p_ {ij}}$ . Por lo tanto, la clase predicha es una combinación afín de las clases de todos los demás puntos, ponderada por la función softmax para cada ${\ Displaystyle j \ en C_ {j}}$ dónde ${\ Displaystyle C_ {j}}$ es ahora todo el conjunto de datos transformados.

Esta elección de función objetivo es preferible ya que es diferenciable con respecto a ${\ Displaystyle A}$ (denotar ${\ Displaystyle x_ {ij} = x_ {i} -x_ {j}}$ ):

${\ Displaystyle {\ frac {\ parcial f} {\ parcial A}} = - 2A \ sum _ {i} \ sum _ {j \ in C_ {i}} p_ {ij} \ left (x_ {ij} x_ {ij} ^ {T} - \ sum _ {k} p_ {ik} x_ {ik} x_ {ik} ^ {T} \ right)}$

${\ Displaystyle = 2A \ sum _ {i} \ left (p_ {i} \ sum _ {k} p_ {ik} x_ {ik} x_ {ik} ^ {T} - \ sum _ {j \ in C_ { i}} p_ {ij} x_ {ij} x_ {ij} ^ {T} \ right)}$

Obteniendo un gradiente para ${\ Displaystyle A}$ significa que se puede encontrar con un solucionador iterativo como el descenso de gradiente conjugado . Tenga en cuenta que, en la práctica, la mayoría de los términos más internos del gradiente evalúan contribuciones insignificantes debido a la contribución rápidamente decreciente de los puntos distantes del punto de interés. Esto significa que la suma interna del gradiente se puede truncar, lo que resulta en tiempos de cálculo razonables incluso para grandes conjuntos de datos.

Formulación alternativa

"Maximizando ${\ Displaystyle f (\ cdot)}$ es equivalente a minimizar el ${\ Displaystyle L_ {1}}$ -distancia entre la distribución de clases predicha y la verdadera distribución de clases (es decir, donde el ${\ Displaystyle p_ {i}}$ Inducido por ${\ Displaystyle A}$ son todos iguales a 1). Una alternativa natural es la divergencia KL, que induce la siguiente función objetivo y gradiente: "(Goldberger 2005)

${\ Displaystyle g (A) = \ sum _ {i} \ log \ left (\ sum _ {j \ in C_ {i}} p_ {ij} \ right) = \ sum _ {i} \ log (p_ { I})}$

${\ Displaystyle {\ frac {\ parcial g} {\ parcial A}} = 2A \ sum _ {i} \ left (\ sum _ {k} p_ {ik} x_ {ik} x_ {ik} ^ {T} - {\ frac {\ sum _ {j \ en C_ {i}} p_ {ij} x_ {ij} x_ {ij} ^ {T}} {\ sum _ {j \ en C_ {i}} p_ {ij }}}\derecho)}$

En la práctica, la optimización de ${\ Displaystyle A}$ el uso de esta función tiende a dar resultados de rendimiento similares a los del original.

Historia y antecedentes

El análisis de componentes del vecindario fue desarrollado por Jacob Goldberger, Sam Roweis, Ruslan Salakhudinov y Geoff Hinton en el departamento de informática de la Universidad de Toronto en 2004.

Ver también

Referencias

J. Goldberger, G. Hinton, S. Roweis, R. Salakhutdinov. (2005) Análisis de componentes de vecindario . Avances en sistemas de procesamiento de información neuronal. 17, 513-520, 2005.

enlaces externos

Software

La biblioteca MLPACK contiene una implementación de C ++
nca ( C ++ )
implementación de sklearn ( Python )