La supervisión débil es una rama del aprendizaje automático en la que se utilizan fuentes ruidosas, limitadas o imprecisas para proporcionar una señal de supervisión para etiquetar grandes cantidades de datos de entrenamiento en un entorno de aprendizaje supervisado . [1] Este enfoque alivia la carga de obtener conjuntos de datos etiquetados a mano, que pueden ser costosos o poco prácticos. En su lugar, se emplean etiquetas débiles y económicas con el entendimiento de que son imperfectas, pero que, no obstante, se pueden utilizar para crear un modelo predictivo sólido. [2] [3] [4]
Problema de los datos de entrenamiento etiquetados
Los modelos y técnicas de aprendizaje automático son cada vez más accesibles para investigadores y desarrolladores; Sin embargo, la utilidad en el mundo real de estos modelos depende del acceso a datos de entrenamiento etiquetados de alta calidad. [5] Esta necesidad de datos de entrenamiento etiquetados a menudo demuestra ser un obstáculo significativo para la aplicación de modelos de aprendizaje automático dentro de una organización o industria. [1] Este efecto de cuello de botella se manifiesta de varias formas, incluidos los siguientes ejemplos:
Cantidad insuficiente de datos etiquetados
Cuando las técnicas de aprendizaje automático se utilizan inicialmente en nuevas aplicaciones o industrias, a menudo no hay suficientes datos de entrenamiento disponibles para aplicar los procesos tradicionales. [6] Algunas industrias tienen el beneficio de décadas de datos de capacitación fácilmente disponibles; aquellos que no lo hacen están en desventaja significativa. En tales casos, la obtención de datos de capacitación puede ser poco práctica, costosa o imposible sin esperar años para su acumulación.
Experiencia insuficiente en la materia para etiquetar los datos
Cuando el etiquetado de datos de formación requiere una experiencia relevante específica, la creación de un conjunto de datos de formación utilizable puede volverse rápidamente prohibitivamente costosa. [6] Es probable que este problema ocurra, por ejemplo, en aplicaciones de aprendizaje automático biomédicas o relacionadas con la seguridad .
Tiempo insuficiente para etiquetar y preparar datos
La mayor parte del tiempo necesario para implementar el aprendizaje automático se dedica a preparar conjuntos de datos. [6] Cuando una industria o campo de investigación se ocupa de problemas que, por naturaleza, evolucionan rápidamente, puede resultar imposible recopilar y preparar datos con la suficiente rapidez para que los resultados sean útiles en aplicaciones del mundo real. Este problema podría ocurrir, por ejemplo, en aplicaciones de detección de fraude o ciberseguridad .
Existen otras áreas de aprendizaje automático que también están motivadas por la demanda de una mayor cantidad y calidad de datos de entrenamiento etiquetados, pero emplean diferentes técnicas de alto nivel para abordar esta demanda. Estos otros enfoques incluyen el aprendizaje activo , el aprendizaje semi-supervisado y el aprendizaje por transferencia . [1]
Tipos de etiquetas débiles
Las etiquetas débiles están destinadas a disminuir el costo y aumentar la eficiencia de los esfuerzos humanos invertidos en los datos de etiquetado manual. Pueden adoptar muchas formas, incluidas las siguientes:
- Etiquetas imprecisas o inexactas: los desarrolladores pueden usar información de alto nivel y menos precisa de expertos en la materia para crear reglas heurísticas , definir distribuciones esperadas o imponer otras restricciones a los datos de entrenamiento. [7] [2] [8]
- Etiquetas inexactas: los desarrolladores pueden utilizar entradas económicas y de menor calidad a través de medios como el crowdsourcing para obtener etiquetas que son numerosas, pero que no se espera que sean perfectamente correctas. [2]
- Recursos existentes : los desarrolladores pueden aprovechar los recursos existentes (como bases de conocimiento, conjuntos de datos alternativos o modelos previamente entrenados [1] ) para crear etiquetas que sean útiles, aunque no perfectamente adecuadas para la tarea dada. [2]
Aplicaciones de supervisión débil
Las aplicaciones de supervisión débil son numerosas y variadas dentro de la comunidad de investigación de aprendizaje automático.
En 2014, investigadores de UC Berkeley hicieron uso de los principios de supervisión débil para proponer un algoritmo de aprendizaje iterativo que depende únicamente de etiquetas generadas por heurísticas y alivia la necesidad de recopilar etiquetas de verdad fundamental. [9] [10] El algoritmo se aplicó a los datos de los medidores inteligentes para conocer la ocupación del hogar sin siquiera preguntar por los datos de ocupación, lo que ha planteado problemas de privacidad y seguridad como lo cubre un artículo de IEEE Spectrum. [11]
En 2018, investigadores de UC Riverside propusieron un método para localizar acciones / eventos en videos usando solo una supervisión débil, es decir, etiquetas a nivel de video, sin ninguna información sobre la hora de inicio y finalización de los eventos durante el entrenamiento. Su trabajo [12] introdujo una similitud basada en la atención entre dos videos, que actúa como un regularizador para el aprendizaje con etiquetas débiles. A partir de entonces, en 2019, introdujeron un nuevo problema [13] de localización de eventos en videos utilizando consultas de texto de los usuarios, pero con anotaciones débiles durante el entrenamiento. Más tarde, en una colaboración con NEC Laboratories America, se introdujo un mecanismo de alineación basado en la atención similar con etiquetas débiles para adaptar un modelo de segmentación semántica de origen a un dominio de destino. [14] Cuando las etiquetas débiles de las imágenes de destino se estiman utilizando el modelo de origen, se trata de una adaptación de dominio no supervisada , que no requiere ningún costo de anotación de destino, y cuando las etiquetas débiles se adquieren de un anotador, incurre en una cantidad muy pequeña de costo de anotación. y cae en la categoría de adaptación de dominio débilmente supervisada, que se introduce por primera vez en este trabajo para la segmentación semántica.
Los investigadores de la Universidad de Stanford crearon Snorkel, un sistema de código abierto para recopilar rápidamente datos de entrenamiento a través de una supervisión débil. [15] Snorkel emplea los principios centrales del paradigma de programación de datos, [7] en el que los desarrolladores crean funciones de etiquetado, que luego se utilizan para etiquetar datos mediante programación, y emplea técnicas de aprendizaje supervisado para evaluar la precisión de esas funciones de etiquetado. [16] De esta manera, se pueden utilizar insumos potencialmente de baja calidad para crear modelos de alta calidad.
En un trabajo conjunto con Google , los investigadores de Stanford demostraron que los recursos de conocimiento organizacional existentes podrían convertirse en fuentes de supervisión débiles y usarse para disminuir significativamente los costos y el tiempo de desarrollo. [17]
En 2019, los investigadores del Instituto de Tecnología de Massachusetts y de Google lanzaron cleanlab, el primer paquete de Python estandarizado para el aprendizaje automático y el aprendizaje profundo con etiquetas ruidosas. [18] Cleanlab implementa el aprendizaje seguro , [19] [20] un marco de teoría y algoritmos para lidiar con la incertidumbre en las etiquetas de conjuntos de datos, para (1) encontrar errores de etiquetas en conjuntos de datos, (2) caracterizar el ruido de etiquetas y (3) estandarizar y simplificar la investigación en la supervisión débil y el aprendizaje con etiquetas ruidosas. [21]
Investigadores de la Universidad de Massachusetts Amherst proponen aumentar los enfoques tradicionales de aprendizaje activo solicitando etiquetas en características en lugar de instancias dentro de un conjunto de datos. [22]
Investigadores de la Universidad Johns Hopkins proponen reducir el costo de etiquetar conjuntos de datos haciendo que los anotadores proporcionen fundamentos que respalden cada una de sus anotaciones de datos, y luego utilicen esos fundamentos para entrenar modelos discriminativos y generativos para etiquetar datos adicionales. [23]
Investigadores de la Universidad de Alberta proponen un método que aplica enfoques tradicionales de aprendizaje activo para mejorar la calidad de las etiquetas imperfectas proporcionadas por una supervisión débil. [24]
- ^ a b c d Alex Ratner, Stephen Bach, Paroma Varma, Chris Ré Y referencias al trabajo de muchos otros miembros de Hazy Research. "Supervisión débil: el nuevo paradigma de programación para el aprendizaje automático" . hazyresearch.github.io . Consultado el 5 de junio de 2019 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b c d Zhou, Zhi-Hua (2018). "Una breve introducción al aprendizaje débilmente supervisado" (PDF) . Revista Nacional de Ciencias . 5 : 44–53. doi : 10.1093 / NSR / NWX106 . S2CID 44192968 . Archivado desde el original (PDF) el 22 de febrero de 2019 . Consultado el 4 de junio de 2019 .
- ^ Nodet, Pierre; Lemaire, Vincent; Bondu, Alexis; Cornuéjols, Antoine; Ouorou, Adam (20 de diciembre de 2020). "Del aprendizaje débilmente supervisado al aprendizaje de la bicualidad, una breve introducción". arXiv : 2012.09632 [ cs.LG ].
- ^ Cabannes, Vivien; Rudi, Alessandro; Bach, Francis (2021). "Desambiguación de supervisión débil con tasas de convergencia exponencial". CoRR . arXiv : 2102.02789 .
- ^ "Conjuntos de datos sobre algoritmos" . Máquina espacial . Consultado el 5 de junio de 2019 .
- ^ a b c Roh, Yuji (8 de noviembre de 2018). "Una encuesta sobre la recopilación de datos para el aprendizaje automático: una perspectiva de integración de Big Data - AI". arXiv : 1811.03402 [ cs.LG ].
- ^ a b Ré, Christopher; Selsam, Daniel; Wu, Sen; De Sa, Christopher; Ratner, Alexander (25 de mayo de 2016). "Programación de datos: creación de conjuntos de entrenamiento grandes, rápidamente". arXiv : 1605.07723v3 [ stat.ML ].
- ^ Cabannes, Vivien; Rudi, Alessandro; Bach, Francis (2020). "Predicción estructurada con etiquetado parcial a través de la pérdida infimum". ICML . 37 . arXiv : 2003.00920 .
- ^ Jin, Ming; Jia, Ruoxi; Kang, Zhaoyi; Konstantakopoulos, Ioannis; Spanos, Costas (2014). "PresenceSense: algoritmo de entrenamiento cero para la detección de presencia individual basado en el monitoreo de energía". Actas de la 1ª Conferencia de ACM sobre sistemas integrados para edificios energéticamente eficientes : 1–10. doi : 10.1145 / 2674061.2674073 .
- ^ Jin, Ming; Jia, Ruoxi; Spanos, Costas (2017). "Detección virtual de ocupación: uso de contadores inteligentes para indicar su presencia". Transacciones IEEE sobre informática móvil . 16 (11): 3264–3277. arXiv : 1407.4395 . doi : 10.1109 / TMC.2017.2684806 .
- ^ "¿Qué sabe el medidor inteligente de ti?" . Espectro IEEE .
- ^ Paul, Sujoy; Roy, Sourya; Roy-Chowdhury, Amit K. (2018). "W-TALC: localización y clasificación de actividad temporal débilmente supervisada". Congreso Europeo de Visión por Computador (ECCV) . arXiv : 1807.10418 .
- ^ Mithun, Niluthpol Chowdhury; Paul, Sujoy; Roy-Chowdhury, Amit K. (2019). "Recuperación de momentos de vídeo débilmente supervisados a partir de consultas de texto". Visión por computadora y reconocimiento de patrones (CVPR) . arXiv : 1904.03282 .
- ^ Paul, Sujoy; Tsai, Yi-Hsuan; Schulter, Samuel; Roy-Chowdhury, Amit K .; Chandraker, Manmohan (2020). "Segmentación semántica adaptativa de dominio mediante etiquetas débiles". Congreso Europeo de Visión por Computador (ECCV) . arXiv : 2007.15176 .
- ^ "Snorkel y el amanecer del aprendizaje automático débilmente supervisado · Stanford DAWN" . dawn.cs.stanford.edu . Consultado el 5 de junio de 2019 .
- ^ "Snorkel por HazyResearch" . hazyresearch.github.io . Consultado el 5 de junio de 2019 .
- ^ Malkin, Rob; Ré, Christopher; Kuchhal, Rahul; Alborzi, Houman; Hancock, Braden; Ratner, Alexander; Sen, Souvik; Xia, Cassandra; Shao, Haidong (2 de diciembre de 2018). "Snorkel DryBell: un estudio de caso en la implementación de supervisión débil a escala industrial" . Actas. Conferencia Internacional Acm-Sigmod sobre Gestión de Datos . 2019 : 362–375. arXiv : 1812.00417 . Código Bib : 2018arXiv181200417B . doi : 10.1145 / 3299869.3314036 . PMC 6879379 . PMID 31777414 .
- ^ "Anuncio de cleanlab: un paquete de Python para ML y aprendizaje profundo en conjuntos de datos con errores de etiqueta" . l7.curtisnorthcutt.com . Consultado el 4 de febrero de 2020 .
- ^ "Una introducción al aprendizaje seguro: encontrar y aprender con errores de etiqueta en conjuntos de datos" . l7.curtisnorthcutt.com . Consultado el 4 de febrero de 2020 .
- ^ Northcutt, Curtis G .; Jiang, Lu; Chuang, Isaac L. (31 de octubre de 2019). "Aprendizaje seguro: estimación de la incertidumbre en las etiquetas del conjunto de datos". arXiv : 1911.00068 [ stat.ML ].
- ^ Northcutt, Curtis. "CleanLab para encontrar y aprender con etiquetas ruidosas" . Consultado el 9 de octubre de 2019 .
- ^ Druck, Gregory. "Aprendizaje activo mediante funciones de etiquetado" (PDF) . Consultado el 4 de junio de 2019 .
- ^ Zaidan, Omar. "Aprendizaje automático con fundamentos del anotador para reducir el costo de las anotaciones" (PDF) . Consultado el 4 de junio de 2019 .
- ^ Nashaat, Mona; Ghosh, Aindrila; Miller, James; Quader, Shaikh; Marston, Chad; Puget, Jean-Francois (diciembre de 2018). "Hibridación de aprendizaje activo y programación de datos para etiquetar grandes conjuntos de datos industriales". 2018 IEEE International Conference on Big Data (Big Data) . Seattle, WA, EE. UU .: IEEE: 46–55. doi : 10.1109 / BigData.2018.8622459 . ISBN 9781538650356. S2CID 59233854 .