Factor de valor atípico local


En la detección de anomalías , el factor atípico local ( LOF ) es un algoritmo propuesto por Markus M. Breunig, Hans-Peter Kriegel , Raymond T.Ng y Jörg Sander en 2000 para encontrar puntos de datos anómalos midiendo la desviación local de un punto de datos dado. con respecto a sus vecinos. [1]

LOF comparte algunos conceptos con DBSCAN y OPTICS , como los conceptos de "distancia del núcleo" y "distancia de alcance", que se utilizan para la estimación de la densidad local. [2]

El factor de valor atípico local se basa en un concepto de densidad local, donde la localidad viene dada por k vecinos más cercanos, cuya distancia se usa para estimar la densidad. Al comparar la densidad local de un objeto con las densidades locales de sus vecinos, se pueden identificar regiones de densidad similar y puntos que tienen una densidad sustancialmente más baja que sus vecinos. Estos se consideran valores atípicos .

La densidad local se estima mediante la distancia típica a la que se puede "llegar" a un punto de sus vecinos. La definición de "distancia de accesibilidad" utilizada en LOF es una medida adicional para producir resultados más estables dentro de los conglomerados. La "distancia de accesibilidad" utilizada por LOF tiene algunos detalles sutiles que a menudo se encuentran incorrectos en fuentes secundarias, por ejemplo, en el libro de texto de Ethem Alpaydin. [3]

Sea k -distancia ( A ) la distancia del objeto A al k -ésimo vecino más cercano. Tenga en cuenta que el conjunto de los k vecinos más cercanos incluye todos los objetos a esta distancia, que en el caso de un "empate" pueden ser más de k objetos. Denotamos el conjunto de k vecinos más cercanos como N k (A) .

En palabras, la distancia de alcanzabilidad de un objeto A de B es la verdadera distancia de los dos objetos, pero al menos el k -Distancia de B . Los objetos que pertenecen a los k vecinos más cercanos de B (el "núcleo" de B , ver análisis de conglomerados DBSCAN ) se consideran igualmente distantes. La razón de esta distancia es para obtener resultados más estables [ cita requerida ] . Tenga en cuenta que esta no es una distancia en la definición matemática, ya que no es simétrica. (Si bien es un error común [4]para usar siempre la distancia k (A) , esto produce un método ligeramente diferente, denominado LOF simplificado [4] )


Idea básica de LOF: comparar la densidad local de un punto con las densidades de sus vecinos. A tiene una densidad mucho menor que sus vecinos.
Ilustración de la distancia de accesibilidad. Los objetos B y C tienen la misma distancia de accesibilidad ( k = 3 ), mientras que D no es un k vecino más cercano
Puntuaciones de LOF visualizadas por ELKI . Si bien el grupo superior derecho tiene una densidad comparable a los valores atípicos cercanos al grupo inferior izquierdo, se detectan correctamente.