En el análisis de datos , la detección de anomalías (también detección de valores atípicos ) [1] es la identificación de elementos, eventos u observaciones raros que generan sospechas al diferir significativamente de la mayoría de los datos. [1] Normalmente, los elementos anómalos se traducirán en algún tipo de problema, como fraude bancario , un defecto estructural, problemas médicos o errores en un texto. Las anomalías también se denominan valores atípicos , novedades, ruido, desviaciones y excepciones. [2]
En particular, en el contexto del abuso y la detección de intrusiones en la red , los objetos interesantes a menudo no son objetos raros , sino explosiones inesperadas de actividad. Este patrón no se adhiere a la definición estadística común de un valor atípico como un objeto raro, y muchos métodos de detección de valores atípicos (en particular, los métodos no supervisados) fallarán en dichos datos, a menos que se hayan agregado adecuadamente. En cambio, un algoritmo de análisis de conglomerados puede detectar los micro conglomerados formados por estos patrones. [3]
Existen tres amplias categorías de técnicas de detección de anomalías. [4] Las técnicas de detección de anomalías no supervisadas detectan anomalías en un conjunto de datos de prueba sin etiquetar bajo el supuesto de que la mayoría de las instancias en el conjunto de datos son normales al buscar las instancias que parecen ajustarse menos al resto del conjunto de datos. Las técnicas de detección de anomalías supervisadas requieren un conjunto de datos que se ha etiquetado como "normal" y "anormal" e implica el entrenamiento de un clasificador (la diferencia clave con muchos otros problemas de clasificación estadística es la naturaleza inherente desequilibrada de la detección de valores atípicos). Las técnicas de detección de anomalías semi-supervisadas construyen un modelo que representa el comportamiento normal a partir de un conjunto de datos de entrenamiento normal dado y luego prueban la probabilidad de que una instancia de prueba sea generada por el modelo utilizado.
Aplicaciones
La detección de anomalías es aplicable en una variedad de dominios, como detección de intrusiones , detección de fraudes , detección de fallas, monitoreo del estado del sistema, detección de eventos en redes de sensores, detección de perturbaciones en el ecosistema y detección de defectos en imágenes mediante visión artificial . [5] A menudo se utiliza en el preprocesamiento para eliminar datos anómalos del conjunto de datos. En el aprendizaje supervisado , eliminar los datos anómalos del conjunto de datos a menudo resulta en un aumento estadísticamente significativo en la precisión. [6] [7]
Técnicas populares
En la literatura se han propuesto varias técnicas de detección de anomalías. [8] Algunas de las técnicas populares son:
- Técnicas basadas en densidad ( k-vecino más cercano , [9] [10] [11] factor atípico local , [12] bosques de aislamiento , [13] [14] y muchas más variaciones de este concepto [15] ).
- Detección de valores atípicos basada en subespacio, [16] correlación [17] y tensorial [18] para datos de alta dimensión. [19]
- Máquinas de vectores de soporte de una clase . [20]
- Redes neuronales replicadoras ., [21] autocodificadores , autocodificadores variacionales, [22] redes neuronales de memoria a corto plazo largas [23]
- Redes bayesianas . [21]
- Modelos ocultos de Markov (HMM). [21]
- Detección de valores atípicos basada en análisis de conglomerados . [24] [25]
- Desviaciones de las reglas de asociación y conjuntos de elementos frecuentes.
- Detección de valores atípicos basada en lógica difusa.
- Técnicas de conjunto , que utilizan el agrupamiento de características , [26] [27] normalización de la puntuación [28] [29] y diferentes fuentes de diversidad. [30] [31]
El rendimiento de los diferentes métodos depende mucho del conjunto de datos y los parámetros, y los métodos tienen pocas ventajas sistemáticas sobre otros cuando se comparan entre muchos conjuntos de datos y parámetros. [32] [33]
Aplicación a la seguridad de los datos
La detección de anomalías fue propuesta para los sistemas de detección de intrusiones (IDS) por Dorothy Denning en 1986. [34] La detección de anomalías para los IDS normalmente se logra con umbrales y estadísticas, pero también se puede hacer con computación suave y aprendizaje inductivo. [35] Los tipos de estadísticas propuestos por 1999 incluían perfiles de usuarios, estaciones de trabajo, redes, hosts remotos, grupos de usuarios y programas basados en frecuencias, medias, variaciones, covarianzas y desviaciones estándar. [36] La contraparte de la detección de anomalías en la detección de intrusos es la detección de uso indebido .
En preprocesamiento de datos
En el aprendizaje supervisado, la detección de anomalías suele ser un paso importante en el preprocesamiento de datos para proporcionar al algoritmo de aprendizaje un conjunto de datos adecuado para aprender. Esto también se conoce como limpieza de datos . Después de detectar muestras anómalas, los clasificadores las eliminan; sin embargo, a veces los datos corruptos pueden proporcionar muestras útiles para el aprendizaje. Un método común para encontrar muestras apropiadas para usar es identificar datos ruidosos . Un método para encontrar valores ruidosos es crear un modelo probabilístico a partir de datos utilizando modelos de datos corruptos y datos corruptos. [37]
A continuación se muestra un ejemplo del conjunto de datos de flores de Iris con una anomalía agregada. Con una anomalía incluida, el algoritmo de clasificación puede tener dificultades para encontrar patrones de manera adecuada o cometer errores.
Orden del conjunto de datos | Longitud del sépalo | Ancho del sépalo | Longitud del pétalo | Ancho del pétalo | Especies |
---|---|---|---|---|---|
1 | 5.1 | 3,5 | 1.4 | 0,2 | I. setosa |
2 | 4.9 | 3,0 | 1.4 | 0,2 | I. setosa |
3 | 4,7 | 3.2 | 1.3 | 0,2 | I. setosa |
4 | 4.6 | 3.1 | 1,5 | 0,2 | I. setosa |
5 | 5,0 | NULO | 1.4 | NULO | I. setosa |
Al eliminar la anomalía, se habilitará el entrenamiento para encontrar patrones en las clasificaciones más fácilmente.
En la minería de datos, los datos de alta dimensión también propondrán grandes desafíos informáticos con conjuntos de datos intensamente grandes. Al eliminar numerosas muestras que pueden resultar irrelevantes para un clasificador o algoritmo de detección, el tiempo de ejecución se puede reducir significativamente incluso en los conjuntos de datos más grandes.
Software
- ELKI es un kit de herramientas de minería de datos Java de código abierto que contiene varios algoritmos de detección de anomalías, así como aceleración de índices para ellos.
- Scikit-Learn es una biblioteca de Python de código abierto que tiene una funcionalidad integrada para proporcionar detección de anomalías sin supervisión.
Conjuntos de datos
- Repositorio de datos de referencia de detección de anomalías de la Ludwig-Maximilians-Universität München ; Espejo de la Universidad de São Paulo .
- PROBABILIDADES - PROBABILIDADES: una gran colección de conjuntos de datos de detección de valores atípicos disponibles públicamente con datos reales en diferentes dominios.
- Benchmark de detección de anomalías no supervisada en Harvard Dataverse: conjuntos de datos para la detección de anomalías no supervisada con verdad del terreno.
Ver también
- Detección de cambios
- Control del Proceso Estadístico
- Detección de novedades
- Memoria temporal jerárquica
Referencias
- ^ a b Zimek, Arthur; Schubert, Erich (2017), "Detección de valores atípicos", Encyclopedia of Database Systems , Springer New York, págs. 1–5, doi : 10.1007 / 978-1-4899-7993-3_80719-1 , ISBN 9781489979933
- ^ Hodge, VJ; Austin, J. (2004). "Una encuesta de metodologías de detección de valores atípicos" (PDF) . Revisión de inteligencia artificial . 22 (2): 85-126. CiteSeerX 10.1.1.318.4023 . doi : 10.1007 / s10462-004-4304-y . S2CID 3330313 .
- ^ Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning (2002). "Minería de datos para la detección de intrusiones en la red" (PDF) . Proceedings NSF Workshop on Next Generation Data Mining .
- ^ Chandola, V .; Banerjee, A .; Kumar, V. (2009). "Detección de anomalías: una encuesta". Encuestas de computación ACM . 41 (3): 1–58. doi : 10.1145 / 1541880.1541882 . S2CID 207172599 .
- ^ Bergmann, Paul; Kilian Batzner; Michael Fauser; David Sattlegger; Carsten Steger (2021). "El conjunto de datos de detección de anomalías de MVTec: un conjunto de datos completo del mundo real para la detección de anomalías sin supervisión" . Revista Internacional de Visión por Computador . 129 (4): 1038–1059. doi : 10.1007 / s11263-020-01400-4 .
- ^ Tomek, Ivan (1976). "Un experimento con la regla editada del vecino más cercano". Transacciones IEEE sobre sistemas, hombre y cibernética . 6 (6): 448–452. doi : 10.1109 / TSMC.1976.4309523 .
- ^ Smith, MR; Martínez, T. (2011). "Mejorar la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse erróneamente" (PDF) . La Conferencia conjunta internacional de 2011 sobre redes neuronales . pag. 2690. CiteSeerX 10.1.1.221.1371 . doi : 10.1109 / IJCNN.2011.6033571 . ISBN 978-1-4244-9635-8. S2CID 5809822 .
- ^ Zimek, Arthur; Filzmoser, Peter (2018). "De ida y vuelta: detección de valores atípicos entre el razonamiento estadístico y los algoritmos de minería de datos" (PDF) . Revisiones interdisciplinarias de Wiley: minería de datos y descubrimiento de conocimientos . 8 (6): e1280. doi : 10.1002 / widm.1280 . ISSN 1942-4787 .
- ^ Knorr, EM; Ng, RT; Tucakov, V. (2000). "Valores atípicos basados en la distancia: algoritmos y aplicaciones". The VLDB Journal, la revista internacional sobre bases de datos muy grandes . 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842 . doi : 10.1007 / s007780050006 . S2CID 11707259 .
- ^ Ramaswamy, S .; Rastogi, R .; Shim, K. (2000). Algoritmos eficientes para extraer valores atípicos de grandes conjuntos de datos . Actas de la conferencia internacional 2000 ACM SIGMOD sobre Gestión de datos - SIGMOD '00. pag. 427. doi : 10.1145 / 342009.335437 . ISBN 1-58113-217-4.
- ^ Angiulli, F .; Pizzuti, C. (2002). Detección rápida de valores atípicos en espacios de gran dimensión . Principios de minería de datos y descubrimiento de conocimientos. Apuntes de conferencias en Ciencias de la Computación. 2431 . pag. 15. doi : 10.1007 / 3-540-45681-3_2 . ISBN 978-3-540-44037-6.
- ^ Breunig, MM; Kriegel, H.-P. ; Ng, RT; Sander, J. (2000). LOF: Identificación de valores atípicos locales basados en la densidad (PDF) . Actas de la Conferencia Internacional 2000 ACM SIGMOD sobre Gestión de Datos . SIGMOD . págs. 93-104. doi : 10.1145 / 335191.335388 . ISBN 1-58113-217-4.
- ^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (diciembre de 2008). Bosque de aislamiento . 2008 Octava Conferencia Internacional IEEE sobre Minería de Datos . págs. 413–422. doi : 10.1109 / ICDM.2008.17 . ISBN 9780769535029. S2CID 6505449 .
- ^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (marzo de 2012). "Detección de anomalías basada en aislamiento" . Transacciones de ACM sobre el descubrimiento de conocimientos a partir de datos . 6 (1): 1–39. doi : 10.1145 / 2133360.2133363 . S2CID 207193045 .
- ^ Schubert, E .; Zimek, A .; Kriegel, H. -P. (2012). "Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones para la detección de valores atípicos espaciales, de video y de red". Minería de datos y descubrimiento de conocimientos . 28 : 190–237. doi : 10.1007 / s10618-012-0300-z . S2CID 19036098 .
- ^ Kriegel, HP ; Kröger, P .; Schubert, E .; Zimek, A. (2009). Detección de valores atípicos en subespacios paralelos de ejes de datos de alta dimensión . Avances en el descubrimiento del conocimiento y la minería de datos. Apuntes de conferencias en Ciencias de la Computación. 5476 . pag. 831. doi : 10.1007 / 978-3-642-01307-2_86 . ISBN 978-3-642-01306-5.
- ^ Kriegel, HP ; Kroger, P .; Schubert, E .; Zimek, A. (2012). Detección de valores atípicos en subespacios orientados arbitrariamente . 2012 IEEE 12th International Conference on Data Mining. pag. 379. doi : 10.1109 / ICDM.2012.21 . ISBN 978-1-4673-4649-8.
- ^ Fanaee-T, H .; Gama, J. (2016). "Detección de anomalías basada en tensor: una encuesta interdisciplinaria" . Sistemas basados en el conocimiento . 98 : 130-147. doi : 10.1016 / j.knosys.2016.01.027 .
- ^ Zimek, A .; Schubert, E .; Kriegel, H.-P. (2012). "Una encuesta sobre la detección de valores atípicos no supervisados en datos numéricos de alta dimensión". Análisis estadístico y minería de datos . 5 (5): 363–387. doi : 10.1002 / sam.11161 .
- ^ Schölkopf, B .; Platt, JC; Shawe-Taylor, J .; Smola, AJ; Williamson, RC (2001). "Estimación del soporte de una distribución de alta dimensión". Computación neuronal . 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106 . doi : 10.1162 / 089976601750264965 . PMID 11440593 . S2CID 2110475 .
- ^ a b c Hawkins, Simon; Él, Hongxing; Williams, Graham; Baxter, Rohan (2002). "Detección de valores atípicos mediante redes neuronales replicadoras". Almacenamiento de datos y descubrimiento de conocimientos . Apuntes de conferencias en Ciencias de la Computación. 2454 . págs. 170–180. CiteSeerX 10.1.1.12.3366 . doi : 10.1007 / 3-540-46145-0_17 . ISBN 978-3-540-44123-6.
- ^ J. An y S. Cho, "Detección de anomalías basada en autocodificador variacional mediante probabilidad de reconstrucción", 2015.
- ^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautman; Agarwal, Puneet (22 a 24 de abril de 2015). Redes de memoria a corto plazo para la detección de anomalías en series temporales . Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático. Brujas (Bélgica).
- ^ Él, Z .; Xu, X .; Deng, S. (2003). "Descubrimiento de valores atípicos locales basados en clústeres". Cartas de reconocimiento de patrones . 24 (9-10): 1641-1650. CiteSeerX 10.1.1.20.4242 . doi : 10.1016 / S0167-8655 (03) 00003-5 .
- ^ Campello, RJGB; Moulavi, D .; Zimek, A .; Sander, J. (2015). "Estimaciones de densidad jerárquica para la agrupación de datos, visualización y detección de valores atípicos". Transacciones de ACM sobre el descubrimiento de conocimientos a partir de datos . 10 (1): 5: 1–51. doi : 10.1145 / 2733381 . S2CID 2887636 .
- ^ Lazarevic, A .; Kumar, V. (2005). Función de embolsado para la detección de valores atípicos . Proc. XI Congreso Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento en Minería de Datos . págs. 157-166. CiteSeerX 10.1.1.399.425 . doi : 10.1145 / 1081870.1081891 . ISBN 978-1-59593-135-1. S2CID 2054204 .
- ^ Nguyen, HV; Ang, HH; Gopalkrishnan, V. (2010). Minería de valores atípicos con conjunto de detectores heterogéneos en subespacios aleatorios . Sistemas de bases de datos para aplicaciones avanzadas. Apuntes de conferencias en Ciencias de la Computación. 5981 . pag. 368. doi : 10.1007 / 978-3-642-12026-8_29 . ISBN 978-3-642-12025-1.
- ^ Kriegel, HP ; Kröger, P .; Schubert, E .; Zimek, A. (2011). Interpretación y unificación de puntuaciones de valores atípicos . Actas de la Conferencia Internacional SIAM 2011 sobre Minería de Datos. págs. 13-24. CiteSeerX 10.1.1.232.2719 . doi : 10.1137 / 1.9781611972818.2 . ISBN 978-0-89871-992-5.
- ^ Schubert, E .; Wojdanowski, R .; Zimek, A .; Kriegel, HP (2012). Sobre la evaluación de las clasificaciones de valores atípicos y las puntuaciones de valores atípicos . Actas de la Conferencia Internacional SIAM 2012 sobre Minería de Datos. págs. 1047–1058. doi : 10.1137 / 1.9781611972825.90 . ISBN 978-1-61197-232-0.
- ^ Zimek, A .; Campello, RJGB; Sander, JR (2014). "Conjuntos para la detección de valores atípicos no supervisados". Boletín de exploración de ACM SIGKDD . 15 : 11-22. doi : 10.1145 / 2594473.2594476 . S2CID 8065347 .
- ^ Zimek, A .; Campello, RJGB; Sander, JR (2014). Perturbación de datos para conjuntos de detección de valores atípicos . Actas de la 26ª Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas - SSDBM '14. pag. 1. doi : 10.1145 / 2618243.2618257 . ISBN 978-1-4503-2722-0.
- ^ Campos, Guilherme O .; Zimek, Arthur ; Sander, Jörg; Campello, Ricardo JGB; Micenková, Barbora; Schubert, Erich; Asentimiento, Ira; Houle, Michael E. (2016). "Sobre la evaluación de la detección de valores atípicos no supervisados: medidas, conjuntos de datos y un estudio empírico". Minería de datos y descubrimiento de conocimientos . 30 (4): 891. doi : 10.1007 / s10618-015-0444-8 . ISSN 1384-5810 . S2CID 1952214 .
- ^ Repositorio de datos de referencia de detección de anomalías de la Ludwig-Maximilians-Universität München ; Espejo de la Universidad de São Paulo .
- ^ Denning, DE (1987). "Un modelo de detección de intrusiones" (PDF) . Transacciones IEEE sobre ingeniería de software . SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127 . doi : 10.1109 / TSE.1987.232894 . S2CID 10028835 .
- ^ Teng, HS; Chen, K .; Lu, SC (1990). Detección adaptativa de anomalías en tiempo real mediante patrones secuenciales generados inductivamente (PDF) . Actas del Simposio de la IEEE Computer Society sobre investigación en seguridad y privacidad . págs. 278-284. doi : 10.1109 / RISP.1990.63857 . ISBN 978-0-8186-2060-7. S2CID 35632142 .
- ^ Jones, Anita K .; Sielken, Robert S. (1999). "Detección de intrusiones en sistemas informáticos: una encuesta". Informe técnico, Departamento de Ciencias de la Computación, Universidad de Virginia, Charlottesville, VA . CiteSeerX 10.1.1.24.7802 .
- ^ Kubica, J .; Moore, A. (2003). "Identificación probabilística de ruido y limpieza de datos" . Tercera Conferencia Internacional IEEE sobre Minería de Datos . Computación IEEE. Soc: 131-138. doi : 10.1109 / icdm.2003.1250912 . ISBN 0-7695-1978-4.