En el aprendizaje automático , una tarea común es el estudio y la construcción de algoritmos que pueden aprender y hacer predicciones sobre los datos . [1] Estos algoritmos funcionan haciendo predicciones o decisiones basadas en datos, [2] mediante la construcción de un modelo matemático a partir de datos de entrada.

Los datos utilizados para construir el modelo final generalmente provienen de múltiples conjuntos de datos . En particular, se utilizan comúnmente tres conjuntos de datos en diferentes etapas de la creación del modelo.
El modelo se ajusta inicialmente a un conjunto de datos de entrenamiento , [3] que es un conjunto de ejemplos utilizados para ajustar los parámetros (por ejemplo, pesos de conexiones entre neuronas en redes neuronales artificiales ) del modelo. [4] El modelo (por ejemplo, una red neuronal o un clasificador de Bayes ingenuo ) se entrena en el conjunto de datos de entrenamiento utilizando un método de aprendizaje supervisado , por ejemplo, utilizando métodos de optimización como el descenso de gradiente o el descenso de gradiente estocástico . En la práctica, el conjunto de datos de entrenamiento a menudo consta de pares de un vector de entrada (o escalar) y el vector de salida correspondiente (o escalar), donde la clave de respuesta se denota comúnmente como el objetivo (o etiqueta ). El modelo actual se ejecuta con el conjunto de datos de entrenamiento y produce un resultado, que luego se compara con el objetivo , para cada vector de entrada en el conjunto de datos de entrenamiento. En función del resultado de la comparación y del algoritmo de aprendizaje específico que se utiliza, se ajustan los parámetros del modelo. El ajuste del modelo puede incluir tanto la selección de variables como la estimación de parámetros .
Sucesivamente, el modelo ajustado se utiliza para predecir las respuestas de las observaciones en un segundo conjunto de datos denominado conjunto de datos de validación . [3] El conjunto de datos de validación proporciona una evaluación imparcial de un ajuste del modelo en el conjunto de datos de entrenamiento mientras se ajustan los hiperparámetros del modelo [5] (por ejemplo, el número de unidades ocultas —capas y anchos de capa— en una red neuronal [4] ). Los conjuntos de datos de validación se pueden usar para la regularización mediante la detención anticipada (detener el entrenamiento cuando aumenta el error en el conjunto de datos de validación, ya que esto es una señal de sobreajuste del conjunto de datos de entrenamiento). [6] Este sencillo procedimiento se complica en la práctica por el hecho de que el error del conjunto de datos de validación puede fluctuar durante el entrenamiento, produciendo múltiples mínimos locales. Esta complicación ha llevado a la creación de muchas reglas ad-hoc para decidir cuándo realmente ha comenzado el sobreajuste. [6]
Por último, el conjunto de datos de prueba es un conjunto de datos que se utiliza para proporcionar una evaluación imparcial de un ajuste final del modelo en el conjunto de datos de entrenamiento. [5] Si los datos del conjunto de datos de prueba nunca se han utilizado en el entrenamiento (por ejemplo, en la validación cruzada ), el conjunto de datos de prueba también se denomina conjunto de datos de reserva . El término "conjunto de validación" se utiliza a veces en lugar de "conjunto de prueba" en alguna literatura (por ejemplo, si el conjunto de datos original se dividió en sólo dos subconjuntos, el conjunto de prueba podría denominarse conjunto de validación). [5]
Conjunto de datos de entrenamiento
Un conjunto de datos de entrenamiento es un conjunto de datos de ejemplos utilizados durante el proceso de aprendizaje y se utiliza para ajustar los parámetros (por ejemplo, pesos) de, por ejemplo, un clasificador . [7] [8]
Para las tareas de clasificación, un algoritmo de aprendizaje supervisado examina el conjunto de datos de entrenamiento para determinar, o aprender, las combinaciones óptimas de variables que generarán un buen modelo predictivo . [9] El objetivo es producir un modelo entrenado (ajustado) que generalice bien a datos nuevos y desconocidos. [10] El modelo ajustado se evalúa utilizando ejemplos "nuevos" de los conjuntos de datos retenidos (conjuntos de datos de validación y prueba) para estimar la precisión del modelo en la clasificación de datos nuevos. [5] Para reducir el riesgo de problemas como el sobreajuste, los ejemplos de los conjuntos de datos de validación y prueba no deben utilizarse para entrenar el modelo. [5]
La mayoría de los enfoques que buscan relaciones empíricas en los datos de entrenamiento tienden a sobreajustarse a los datos, lo que significa que pueden identificar y explotar relaciones aparentes en los datos de entrenamiento que no se mantienen en general.
Conjunto de datos de validación
Un conjunto de datos de validación es un conjunto de datos de ejemplos que se utilizan para ajustar los hiperparámetros (es decir, la arquitectura) de un clasificador. A veces también se denomina conjunto de desarrollo o "conjunto de desarrollo" [11] . Un ejemplo de un hiperparámetro para redes neuronales artificiales incluye el número de unidades ocultas en cada capa. [7] [8] Este, así como el conjunto de pruebas (como se mencionó anteriormente), debe seguir la misma distribución de probabilidad que el conjunto de datos de entrenamiento.
Para evitar el sobreajuste, cuando sea necesario ajustar algún parámetro de clasificación , es necesario tener un conjunto de datos de validación además de los conjuntos de datos de entrenamiento y prueba. Por ejemplo, si se busca el clasificador más adecuado para el problema, el conjunto de datos de entrenamiento se usa para entrenar a los diferentes clasificadores candidatos, el conjunto de datos de validación se usa para comparar sus desempeños y decidir cuál tomar y, finalmente, se usa el conjunto de datos de prueba. para obtener las características de rendimiento como precisión , sensibilidad , especificidad , medida F , etc. El conjunto de datos de validación funciona como un híbrido: son datos de entrenamiento que se utilizan para las pruebas, pero no como parte del entrenamiento de bajo nivel ni como parte de la prueba final.
El proceso básico de usar un conjunto de datos de validación para la selección de modelos (como parte del conjunto de datos de entrenamiento, conjunto de datos de validación y conjunto de datos de prueba) es: [8] [12]
Dado que nuestro objetivo es encontrar la red que tenga el mejor rendimiento con datos nuevos, el enfoque más simple para la comparación de diferentes redes es evaluar la función de error utilizando datos que son independientes de los utilizados para el entrenamiento. Varias redes se entrenan minimizando una función de error apropiada definida con respecto a un conjunto de datos de entrenamiento. A continuación, se compara el rendimiento de las redes evaluando la función de error utilizando un conjunto de validación independiente, y se selecciona la red que tiene el error más pequeño con respecto al conjunto de validación. Este enfoque se denomina método de espera . Dado que este procedimiento en sí mismo puede dar lugar a un sobreajuste del conjunto de validación, el rendimiento de la red seleccionada debe confirmarse midiendo su rendimiento en un tercer conjunto de datos independiente denominado conjunto de prueba.
Una aplicación de este proceso es la parada temprana , donde los modelos candidatos son iteraciones sucesivas de la misma red, y el entrenamiento se detiene cuando crece el error en el conjunto de validación, eligiendo el modelo anterior (el que tiene el mínimo error).
Conjunto de datos de prueba
Un conjunto de datos de prueba es un conjunto de datos que es independiente del conjunto de datos de entrenamiento, pero que sigue la misma distribución de probabilidad que el conjunto de datos de entrenamiento. Si un modelo que se ajusta al conjunto de datos de entrenamiento también se ajusta bien al conjunto de datos de prueba, se ha producido un sobreajuste mínimo (consulte la figura siguiente). Un mejor ajuste del conjunto de datos de entrenamiento en comparación con el conjunto de datos de prueba generalmente apunta a un sobreajuste.
Por tanto, un conjunto de prueba es un conjunto de ejemplos que se utilizan únicamente para evaluar el rendimiento (es decir, la generalización) de un clasificador completamente especificado. [7] [8] Para hacer esto, el modelo final se usa para predecir clasificaciones de ejemplos en el conjunto de prueba. Esas predicciones se comparan con las clasificaciones reales de los ejemplos para evaluar la precisión del modelo. [9]
En un escenario en el que se utilizan conjuntos de datos de prueba y validación, el conjunto de datos de prueba se utiliza normalmente para evaluar el modelo final que se selecciona durante el proceso de validación. En el caso de que el conjunto de datos original esté dividido en dos subconjuntos (conjuntos de datos de entrenamiento y de prueba), el conjunto de datos de prueba podría evaluar el modelo solo una vez (por ejemplo, en el método de exclusión ). [13] Tenga en cuenta que algunas fuentes desaconsejan este método. [10] Sin embargo, cuando se usa un método como la validación cruzada , dos particiones pueden ser suficientes y efectivas ya que los resultados se promedian después de rondas repetidas de entrenamiento y prueba de modelos para ayudar a reducir el sesgo y la variabilidad. [5] [10]

Confusión en la terminología
Los términos conjunto de prueba y conjunto de validación a veces se usan de una manera que cambia su significado tanto en la industria como en el mundo académico. En el uso erróneo, "conjunto de prueba" se convierte en el conjunto de desarrollo y "conjunto de validación" es el conjunto independiente utilizado para evaluar el rendimiento de un clasificador completamente especificado.
La literatura sobre el aprendizaje automático a menudo invierte el significado de los conjuntos de "validación" y "prueba". Este es el ejemplo más flagrante de la confusión terminológica que impregna la investigación sobre inteligencia artificial. [14]
Validación cruzada
Un conjunto de datos se puede dividir repetidamente en un conjunto de datos de entrenamiento y un conjunto de datos de validación: esto se conoce como validación cruzada . Estas particiones repetidas se pueden hacer de varias maneras, como dividir en 2 conjuntos de datos iguales y usarlos como entrenamiento / validación, y luego validación / entrenamiento, o seleccionar repetidamente un subconjunto aleatorio como un conjunto de datos de validación [ cita requerida ] . Para validar el rendimiento del modelo, a veces se utiliza un conjunto de datos de prueba adicional que se mantuvo fuera de la validación cruzada. [ cita requerida ]
Clasificación jerárquica
Otro ejemplo de ajuste de parámetros es la clasificación jerárquica (a veces denominada descomposición del espacio de instancias [15] ), que divide un problema completo de varias clases en un conjunto de problemas de clasificación más pequeños. Sirve para aprender conceptos más precisos debido a límites de clasificación más simples en subtareas y procedimientos de selección de características individuales para subtareas. Al realizar la descomposición de la clasificación, la elección central es el orden de combinación de pasos de clasificación más pequeños, denominada ruta de clasificación. Dependiendo de la aplicación, se puede derivar de la matriz de confusión y, al descubrir las razones de los errores típicos y encontrar formas de evitar que el sistema los cometa en el futuro. Por ejemplo, [16] en el conjunto de validación se puede ver qué clases se confunden mutuamente con mayor frecuencia por el sistema y luego la descomposición del espacio de instancia se realiza de la siguiente manera: en primer lugar, la clasificación se realiza entre clases bien reconocibles y las difíciles de separar las clases se tratan como una sola clase conjunta y, finalmente, como un segundo paso de clasificación, la clase conjunta se clasifica en las dos clases inicialmente confundidas entre sí. [ cita requerida ]
Ver también
- Clasificación estadística
- Lista de conjuntos de datos para la investigación del aprendizaje automático
Referencias
- ^ Ron Kohavi; Foster Provost (1998). "Glosario de términos" . Aprendizaje automático . 30 : 271-274. doi : 10.1023 / A: 1007411609915 .
- ^ Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. pag. vii. ISBN 0-387-31073-8.
El reconocimiento de patrones tiene sus orígenes en la ingeniería, mientras que el aprendizaje automático surgió de la informática. Sin embargo, estas actividades pueden verse como dos facetas del mismo campo, y juntas han experimentado un desarrollo sustancial durante los últimos diez años.
- ^ a b James, Gareth (2013). Una introducción al aprendizaje estadístico: con aplicaciones en R . Saltador. pag. 176. ISBN 978-1461471370.
- ^ a b Ripley, Brian (1996). Reconocimiento de patrones y redes neuronales . Prensa de la Universidad de Cambridge. pag. 354 . ISBN 978-0521717700.
- ^ a b c d e f Brownlee, Jason (13 de julio de 2017). "¿Cuál es la diferencia entre conjuntos de datos de prueba y validación?" . Consultado el 12 de octubre de 2017 .
- ^ a b Prechelt, Lutz; Geneviève B. Orr (1 de enero de 2012). "Parada anticipada, pero ¿cuándo?". En Grégoire Montavon; Klaus-Robert Müller (eds.). Redes neuronales: trucos del oficio . Apuntes de conferencias en informática. Springer Berlín Heidelberg. págs. 53 –67. doi : 10.1007 / 978-3-642-35289-8_5 . ISBN 978-3-642-35289-8.
- ^ a b c Ripley, BD (1996) Reconocimiento de patrones y redes neuronales , Cambridge: Cambridge University Press, p. 354
- ^ a b c d " Asunto: ¿Cuál es la población, la muestra, el conjunto de entrenamiento, el conjunto de diseño, el conjunto de validación y el conjunto de prueba? ", Preguntas frecuentes sobre redes neuronales, parte 1 de 7: Introducción ( txt ), comp.ai.neural- redes, Sarle, WS, ed. (1997, última modificación 17-05-2002)
- ^ a b Larose, DT; Larose, CD (2014). Descubriendo el conocimiento en los datos: una introducción a la minería de datos . Hoboken: Wiley. doi : 10.1002 / 9781118874059 . ISBN 978-0-470-90874-7. OCLC 869460667 .
- ^ a b c Xu, Yun; Goodacre, Royston (2018). "Sobre la división de formación y conjunto de validación: un estudio comparativo de validación cruzada, Bootstrap y muestreo sistemático para estimar el rendimiento de generalización del aprendizaje supervisado" . Revista de análisis y pruebas . Springer Science and Business Media LLC. 2 (3): 249–262. doi : 10.1007 / s41664-018-0068-2 . ISSN 2096-241X .
- ^ "Aprendizaje profundo" . Coursera . Consultado el 18 de mayo de 2021 .
- ^ Bishop, CM (1995), Redes neuronales para el reconocimiento de patrones , Oxford: Oxford University Press, p. 372
- ^ Kohavi, Ron (3 de marzo de 2001). "Un estudio de validación cruzada y Bootstrap para la estimación de la precisión y la selección del modelo" . 14 . Cite journal requiere
|journal=
( ayuda ) - ^ Ripley, Brian D. (2009). Reconocimiento de patrones y redes neuronales . Universidad de Cambridge. Prensa. pp. Glosario. ISBN 9780521717700. OCLC 601063414 .
- ^ Cohen, S .; Rokach, L .; Maimón, O. (2007). "Descomposición de espacio de instancia de árbol de decisión con relación de ganancia agrupada". Ciencias de la información . Elsevier. 177 (17): 3592–3612. doi : 10.1016 / j.ins.2007.01.016 .
- ^ Sidorova, J., Badia, T. " ESEDA: herramienta para la detección y el análisis mejorados de las emociones del habla ". IV Congreso Internacional sobre Soluciones Automatizadas para Contenido Cross Media y Distribución Multicanal (AXMEDIS 2008). Florence, 17-19 de noviembre, págs. 257-260. Prensa IEEE.
enlaces externos
- Preguntas frecuentes: ¿Cuáles son la población, la muestra, el conjunto de entrenamiento, el conjunto de diseño, el conjunto de validación y el conjunto de prueba?
- ¿Cuál es la diferencia entre los conjuntos de datos de prueba y validación?
- ¿Qué es el escenario de entrenamiento, validación y prueba de conjuntos de datos en el aprendizaje automático?
- ¿Existe una regla general sobre cómo dividir un conjunto de datos en conjuntos de entrenamiento y validación?