Aprendizaje perezoso

En el aprendizaje automático , el aprendizaje perezoso es un método de aprendizaje en el que la generalización de los datos de entrenamiento , en teoría, se retrasa hasta que se realiza una consulta al sistema, en contraposición al aprendizaje ansioso , donde el sistema intenta generalizar los datos de entrenamiento antes de recibir consultas. .

La principal motivación para emplear el aprendizaje perezoso, como en el algoritmo de vecinos más cercanos K , utilizado por los sistemas de recomendación en línea ("las personas que vieron / compraron / escucharon esta película / artículo / melodía también ...") es que el conjunto de datos es actualizado continuamente con nuevas entradas (por ejemplo, nuevos artículos a la venta en Amazon, nuevas películas para ver en Netflix, nuevos clips en YouTube, nueva música en Spotify o Pandora). Debido a la actualización continua, los "datos de entrenamiento" quedarían obsoletos en un tiempo relativamente corto, especialmente en áreas como libros y películas, donde se publican / lanzan continuamente nuevos best-sellers o películas / música de éxito. Por tanto, no se puede hablar realmente de una "fase de formación".

Los clasificadores perezosos son más útiles para conjuntos de datos grandes que cambian continuamente con pocos atributos que se consultan comúnmente. Específicamente, incluso si existe un gran conjunto de atributos (por ejemplo, los libros tienen un año de publicación, autor / es, editor, título, edición, ISBN, precio de venta, etc.), las consultas de recomendación se basan en muchos menos atributos, por ejemplo, compra. o ver datos de co-ocurrencia y calificaciones de usuarios de artículos comprados / vistos.

Ventajas

La principal ventaja que se obtiene al emplear un método de aprendizaje perezoso es que la función objetivo se aproximará localmente, como en el algoritmo de k vecino más cercano . Debido a que la función de destino se aproxima localmente para cada consulta al sistema, los sistemas de aprendizaje perezoso pueden resolver simultáneamente múltiples problemas y lidiar con éxito con los cambios en el dominio del problema. Al mismo tiempo, pueden reutilizar una gran cantidad de resultados teóricos y aplicados del modelado de regresión lineal (en particular, la estadística PRESS ) y el control. ^[1] Se dice que la ventaja de este sistema se logra si las predicciones que utilizan un único conjunto de entrenamiento se desarrollan solo para unos pocos objetos. ^[2] Esto se puede demostrar en el caso de la técnica k-NN, que se basa en instancias y la función solo se estima localmente. ^[3]

Desventajas

Las desventajas teóricas del aprendizaje perezoso incluyen:

El requisito de gran espacio para almacenar todo el conjunto de datos de entrenamiento. En la práctica, esto no es un problema debido a los avances en el hardware y al número relativamente pequeño de atributos (por ejemplo, como frecuencia de co-ocurrencia) que necesitan ser almacenados.
Los datos de entrenamiento particularmente ruidosos aumentan la base de casos innecesariamente, porque no se realiza ninguna abstracción durante la fase de entrenamiento. En la práctica, como se indicó anteriormente, el aprendizaje perezoso se aplica a situaciones en las que cualquier aprendizaje realizado con anticipación pronto se vuelve obsoleto debido a cambios en los datos. Además, para los problemas para los que el aprendizaje perezoso es óptimo, los datos "ruidosos" no ocurren realmente: el comprador de un libro ha comprado otro libro o no lo ha hecho.
Los métodos de aprendizaje perezoso suelen ser más lentos de evaluar. En la práctica, para bases de datos muy grandes con altas cargas de simultaneidad, las consultas no se posponen hasta el momento real de la consulta, sino que se vuelven a calcular por adelantado de forma periódica, por ejemplo, cada noche, en previsión de consultas futuras, y las respuestas se almacenan. De esta manera, la próxima vez que se realicen nuevas consultas sobre las entradas existentes en la base de datos, las respuestas simplemente se buscarán rápidamente en lugar de tener que calcularse sobre la marcha, lo que casi con certeza pondría de rodillas un sistema multiusuario de alta concurrencia. .
Los datos de formación más amplios también implican un aumento de los costes. En particular, existe la cantidad fija de costo computacional, donde un procesador solo puede procesar una cantidad limitada de puntos de datos de entrenamiento. ^[4]

Existen técnicas estándar para mejorar la eficiencia del recálculo de modo que una respuesta en particular no se vuelva a calcular a menos que los datos que impactan esta respuesta hayan cambiado (por ejemplo, nuevos elementos, nuevas compras, nuevas vistas). En otras palabras, las respuestas almacenadas se actualizan de forma incremental.

Este enfoque, utilizado por grandes sitios de comercio electrónico o medios de comunicación, se ha utilizado durante mucho tiempo en el portal Entrez del Centro Nacional de Información Biotecnológica (NCBI) para calcular previamente las similitudes entre los diferentes elementos en sus grandes conjuntos de datos: secuencias biológicas, proteína 3-D estructuras, resúmenes de artículos publicados, etc. Debido a que las consultas de "buscar similares" se realizan con tanta frecuencia, el NCBI utiliza hardware altamente paralelo para realizar el recálculo nocturno. El recálculo se realiza solo para nuevas entradas en los conjuntos de datos entre sí y contra entradas existentes: no es necesario volver a calcular la similitud entre dos entradas existentes.

Ejemplos de métodos de aprendizaje perezoso

Vecinos K-más cercanos , que es un caso especial de aprendizaje basado en instancias.
Regresión local .
Reglas de Bayes ingenuas y perezosas , que se utilizan ampliamente en software comercial de detección de spam. Aquí, los spammers se vuelven más inteligentes y revisan sus estrategias de spam y, por lo tanto, las reglas de aprendizaje también deben actualizarse continuamente.

Referencias

^ Bontempi, Gianluca; Birattari, Mauro; Bersini, Hugues (1 de enero de 1999). "Aprendizaje perezoso para modelado local y diseño de control". Revista Internacional de Control . 72 (7–8): 643–658. doi : 10.1080 / 002071799220830 .
^ Sammut, Claude; Webb, Geoffrey I. (2011). Enciclopedia de aprendizaje automático . Nueva York: Springer Science & Business Media. pag. 572. ISBN 9780387307688.
^ Pal, Saurabh (2 de noviembre de 2017). Aplicaciones de minería de datos. Un estudio comparativo para predecir el desempeño de los estudiantes . GRIN Verlag. ISBN 9783668561458.
^ Ajá, David W. (2013). Aprendizaje perezoso . Berlín: Springer Science & Business Media. pag. 106. ISBN 9789401720533.

lazy: Lazy Learning for Local Regression , paquete R con manual de referencia
"El paquete de aprendizaje perezoso" . Archivado desde el original el 16 de febrero de 2012.
Webb GI (2011) Lazy Learning. En: Sammut C., Enciclopedia de aprendizaje automático de Webb GI (eds). Springer, Boston, MA

Este artículo relacionado con la inteligencia artificial es un esbozo . Puedes ayudar a Wikipedia expandiéndolo .

[1] Bontempi, Gianluca; Birattari, Mauro; Bersini, Hugues (1 de enero de 1999). "Aprendizaje perezoso para modelado local y diseño de control". Revista Internacional de Control . 72 (7–8): 643–658. doi : 10.1080 / 002071799220830 .

[2] Sammut, Claude; Webb, Geoffrey I. (2011). Enciclopedia de aprendizaje automático . Nueva York: Springer Science & Business Media. pag. 572. ISBN 9780387307688.

[3] Pal, Saurabh (2 de noviembre de 2017). Aplicaciones de minería de datos. Un estudio comparativo para predecir el desempeño de los estudiantes . GRIN Verlag. ISBN 9783668561458.

[4] Ajá, David W. (2013). Aprendizaje perezoso . Berlín: Springer Science & Business Media. pag. 106. ISBN 9789401720533.

[1]