Data Stream Mining (también conocido como aprendizaje de flujo ) es el proceso de extraer estructuras de conocimiento de registros de datos rápidos y continuos. Un flujo de datos es una secuencia ordenada de instancias que en muchas aplicaciones de minería de flujos de datos se puede leer solo una vez o un pequeño número de veces utilizando capacidades de almacenamiento y computación limitadas. [1]
En muchas aplicaciones de minería de flujo de datos, el objetivo es predecir la clase o el valor de nuevas instancias en el flujo de datos, dado algún conocimiento sobre la pertenencia a la clase o los valores de instancias anteriores en el flujo de datos. [2] Se pueden utilizar técnicas de aprendizaje automático para aprender esta tarea de predicción a partir de ejemplos etiquetados de forma automatizada. A menudo, los conceptos del campo del aprendizaje incremental se aplican para hacer frente a los cambios estructurales, el aprendizaje en líneay demandas en tiempo real. En muchas aplicaciones, especialmente en entornos no estacionarios, la distribución subyacente a las instancias o las reglas subyacentes a su etiquetado pueden cambiar con el tiempo, es decir, el objetivo de la predicción, la clase a predecir o el valor objetivo a predecir pueden cambiar. tiempo extraordinario. [3] Este problema se conoce como deriva de conceptos . La detección de la deriva del concepto es un tema central para la minería de flujos de datos. [4] [5] Otros desafíos [6] que surgen cuando se aplica el aprendizaje automático a la transmisión de datos incluyen: datos etiquetados parcialmente y retrasados, [7] recuperación de desviaciones de concepto, [1] y dependencias temporales. [8]
Entre los ejemplos de flujos de datos se incluyen el tráfico de redes informáticas, conversaciones telefónicas, transacciones en cajeros automáticos, búsquedas en la web y datos de sensores. La minería de flujo de datos se puede considerar un subcampo de la minería de datos , el aprendizaje automático y el descubrimiento de conocimientos .
Software para minería de flujo de datos
- MOA (Massive Online Analysis) : software gratuito de código abierto específico para flujos de datos de minería con deriva de conceptos. Tiene varios algoritmos de aprendizaje automático ( clasificación , regresión , agrupamiento , detección de valores atípicos y sistemas de recomendación). Además, contiene un método de evaluación previa, los métodos de deriva del concepto EDDM, un lector de conjuntos de datos reales ARFF y generadores de corrientes artificiales como conceptos SEA, STAGGER, hiperplano giratorio , árbol aleatorio y funciones basadas en radios aleatorios . MOA admite la interacción bidireccional con Weka (aprendizaje automático) .
- scikit-multiflow : un marco de aprendizaje automático para múltiples salidas / etiquetas múltiples y datos de flujo implementado en Python. [9] scikit-multiflow contiene generadores de flujo, métodos de aprendizaje de flujo para un solo objetivo y múltiples objetivos, detectores de deriva de concepto, métodos de evaluación y visualización.
- StreamDM : StreamDM es un marco de código abierto para la minería de flujos de big data que utiliza la extensión Spark Streaming [10] de la API principal de Spark. Una ventaja de StreamDM en comparación con los marcos existentes es que se beneficia directamente de la API Spark Streaming, que maneja muchos de los problemas complejos de las fuentes de datos subyacentes, como los datos fuera de servicio y la recuperación de fallas.
- RapidMiner : software comercial para el descubrimiento de conocimientos, la minería de datos y el aprendizaje automático que también incluye minería de flujo de datos, aprendizaje de conceptos que varían en el tiempo y seguimiento del concepto de deriva (si se usa en combinación con su complemento de minería de flujo de datos (anteriormente: complemento Concept Drift))
Eventos
- Taller internacional sobre minería de datos ubicua celebrado junto con la Conferencia conjunta internacional sobre inteligencia artificial (IJCAI) en Beijing, China, del 3 al 5 de agosto de 2013.
- Taller internacional sobre descubrimiento de conocimientos a partir de flujos de datos ubicuos, celebrado junto con la 18a Conferencia europea sobre aprendizaje automático (ECML) y la 11a Conferencia europea sobre principios y práctica del descubrimiento de conocimientos en bases de datos (PKDD) en Varsovia, Polonia, en septiembre de 2007.
- Simposio de ACM sobre la pista de flujos de datos de computación aplicada celebrado junto con el Simposio de ACM sobre computación aplicada de 2007 (SAC-2007) en Seúl , Corea , en marzo de 2007.
- IEEE International Workshop on Mining Evolving and Streaming Data (IWMESD 2006) que se celebrará junto con la IEEE International Conference on Data Mining (ICDM-2006) de 2006 en Hong Kong en diciembre de 2006.
- El cuarto taller internacional sobre descubrimiento de conocimientos a partir de flujos de datos (IWKDDS) se celebrará junto con la 17a Conferencia europea sobre aprendizaje automático (ECML) y la 10a Conferencia europea sobre principios y práctica del descubrimiento de conocimientos en bases de datos (PKDD) (ECML / PKDD). 2006) en Berlín , Alemania , en septiembre de 2006.
Ver también
Libros
- Bifet, Albert; Gavaldà, Ricard; Holmes, Geoff; Pfahringer, Bernhard (2018). Aprendizaje automático para flujos de datos con ejemplos prácticos en MOA . Computación adaptativa y aprendizaje automático. Prensa del MIT. pag. 288. ISBN 9780262037792.
- Gama, João; Gaber, Mohamed Medhat, eds. (2007). Aprendiendo de los flujos de datos: técnicas de procesamiento en redes de sensores . Saltador. pag. 244. doi : 10.1007 / 3-540-73679-4 . ISBN 9783540736783.
- Ganguly, Auroop R .; Gama, João; Omitaomu, Olufemi A .; Gaber, Mohamed M .; Vatsavai, Ranga R., eds. (2008). Descubrimiento de conocimientos a partir de datos de sensores . Innovación industrial. Prensa CRC. pag. 215. ISBN 9781420082326.
- Gama, João (2010). Descubrimiento de conocimientos a partir de flujos de datos . Minería de datos y descubrimiento de conocimientos. Chapman y Hall. pag. 255. ISBN 9781439826119.
- Lughofer, Edwin (2011). Evolución de los sistemas difusos: metodologías, conceptos avanzados y aplicaciones . Estudios en Fuzziness y Soft Computing. 266 . Heidelberg: Springer. pag. 456. doi : 10.1007 / 978-3-642-18087-3 . ISBN 9783642180866.
- Sayed-Mouchaweh, Moamar; Lughofer, Edwin, eds. (2012). Aprendizaje en entornos no estacionarios: métodos y aplicaciones . Nueva York: Springer. pag. 440. CiteSeerX 10.1.1.709.437 . doi : 10.1007 / 978-1-4419-8020-5 . ISBN 9781441980199.
Referencias
- ^ a b Gomes, Heitor M .; Bifet, Albert; Lee, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (1 de octubre de 2017). "Bosques aleatorios adaptativos para la clasificación de flujo de datos en evolución" . Aprendizaje automático . 106 (9): 1469–1495. doi : 10.1007 / s10994-017-5642-8 . ISSN 1573-0565 .
- ^ Medhat, Mohamed; Zaslavsky; Krishnaswamy (1 de junio de 2005). "Flujos de datos de minería". Registro ACM SIGMOD . 34 (2): 18-26. doi : 10.1145 / 1083784.1083789 . S2CID 705946 .
- ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimányi, Esteban; Kutsche, Ralf-Detlef (eds.), "A Survey on Supervised Classification on Data Streams", Business Intelligence: 4th European Summer School, eBISS 2014, Berlín, Alemania, 6 al 11 de julio de 2014, lecciones de tutoría , notas de conferencias en negocios Procesamiento de información, Springer International Publishing, págs. 88-125, doi : 10.1007 / 978-3-319-17551-5_4 , ISBN 978-3-319-17551-5
- ^ Webb, Geoffrey I .; Lee, Loong Kuan; Petitjean, François; Goethals, Bart (2 de abril de 2017). "Comprensión de la deriva del concepto". arXiv : 1704,00362 [ cs.LG ].
- ^ Gama, João; Žliobaitė; Bifet; Pechenizkiy; Bouchachia (1 de marzo de 2014). "Una encuesta sobre la adaptación de la deriva del concepto" (PDF) . Encuestas de computación ACM . 46 (4): 1–37. doi : 10.1145 / 2523813 . S2CID 207208264 .
- ^ Gomes, Heitor Murilo; Leer; Bifet; Barddal; Gama (26 de noviembre de 2019). "Aprendizaje automático para transmisión de datos". Boletín de exploración de ACM SIGKDD . 21 (2): 6-22. doi : 10.1145 / 3373464.3373470 . S2CID 208607941 .
- ^ Grzenda, Maciej; Gomes, Heitor Murilo; Bifet, Albert (16 de noviembre de 2019). "Evaluación de etiquetado retrasada para flujos de datos" . Minería de datos y descubrimiento de conocimientos . 34 (5): 1237–1266. doi : 10.1007 / s10618-019-00654-y . ISSN 1573-756X .
- ^ Žliobaitė, Indrė; Bifet, Albert; Lee, Jesse; Pfahringer, Bernhard; Holmes, Geoff (1 de marzo de 2015). "Métodos de evaluación y teoría de la decisión para la clasificación de datos en streaming con dependencia temporal" . Aprendizaje automático . 98 (3): 455–482. doi : 10.1007 / s10994-014-5441-4 . ISSN 1573-0565 .
- ^ Montiel, Jacob; Lee, Jesse; Bifet, Albert; Abdessalem, Talel (2018). "Scikit-Multiflow: un marco de transmisión de múltiples salidas" . Revista de investigación sobre aprendizaje automático . 19 (72): 1–5. arXiv : 1807.04662 . Código bibliográfico : 2018arXiv180704662M . ISSN 1533-7928 .
- ^ Zaharia, Matei; Das, Tathagata; Li, Haoyuan; Hunter, Timothy; Shenker, Scott; Stoica, Ion (2013). "Corrientes discretizadas" . Actas del Vigésimo Cuarto Simposio de ACM sobre Principios de Sistemas Operativos - SOSP '13 . Nueva York, Nueva York, EE. UU.: ACM Press: 423–438. doi : 10.1145 / 2517349.2522737 . ISBN 978-1-4503-2388-8.