Bosque de aislamiento


Bosque de aislamientoes un algoritmo de detección de anomalías. Detecta anomalías mediante el aislamiento (qué tan lejos está un punto de datos del resto de los datos), en lugar de modelar los puntos normales. En 2007, Fei Tony Liu lo desarrolló inicialmente como una de las ideas originales de su estudio de doctorado. La importancia de esta investigación radica en su desviación de la filosofía principal que sustenta la mayoría de los detectores de anomalías existentes en ese momento, donde se perfilan todas las instancias normales antes de que las anomalías se identifiquen como instancias que no se ajustan a la distribución de las instancias normales. El bosque de aislamiento presenta un método diferente que aísla explícitamente las anomalías utilizando árboles binarios, lo que demuestra una nueva posibilidad de un detector de anomalías más rápido que apunta directamente a las anomalías sin perfilar todas las instancias normales.[1] [2]

En estadística , una anomalía (también conocida como valor atípico ) es una observación o evento que se desvía tanto de otros eventos que despierta sospechas de que fue generado por un medio diferente. Por ejemplo, el gráfico de la Fig. 1 representa el tráfico de entrada a un servidor web, expresado como el número de solicitudes en intervalos de 3 horas, durante un período de un mes. Es bastante evidente con solo mirar la imagen que algunos puntos (marcados con un círculo rojo) son inusualmente altos, hasta el punto de inducir a sospechar que el servidor web podría haber estado bajo ataque en ese momento. Por otro lado, el segmento plano indicado por la flecha roja también parece inusual y posiblemente sea una señal de que el servidor estuvo inactivo durante ese período de tiempo.

Las anomalías en un gran conjunto de datos pueden seguir patrones muy complicados, que son difíciles de detectar visualmente en la gran mayoría de los casos. Esta es la razón por la que el campo de la detección de anomalías es muy adecuado para la aplicación de técnicas de Machine Learning .

Las técnicas más comunes empleadas para la detección de anomalías se basan en la construcción de un perfil de lo que es "normal": las anomalías se informan como aquellas instancias en el conjunto de datos que no se ajustan al perfil normal. [2] Isolation Forest utiliza un enfoque diferente: en lugar de intentar construir un modelo de instancias normales, aísla explícitamente los puntos anómalos en el conjunto de datos. La principal ventaja de este enfoque es la posibilidad de explotar las técnicas de muestreo hasta un punto que no está permitido para los métodos basados ​​en perfiles, creando un algoritmo muy rápido con una demanda de memoria baja. [1] [3] [4]

El algoritmo Isolation Forest (iForest) fue propuesto inicialmente por Fei Tony Liu, Kai Ming Ting y Zhi-Hua Zhou en 2008. [1] Los autores aprovecharon dos propiedades cuantitativas de puntos de datos anómalos en una muestra:

Dado que las anomalías son "pocas y diferentes", son más fáciles de "aislar" en comparación con los puntos normales. Isolation Forest crea un conjunto de "Árboles de aislamiento" (iTrees) para el conjunto de datos, y las anomalías son los puntos que tienen longitudes de ruta promedio más cortas en los iTrees.


Tráfico web anómalo
Fig. 1: ejemplo de tráfico web con puntos potencialmente anómalos.
Fig. 2: un ejemplo de aislamiento de un punto no anómalo en una distribución gaussiana 2D.
Aislamiento de un punto anómalo
Fig. 3: un ejemplo de aislamiento de un punto anómalo en una distribución gaussiana 2D.