En estadística y aprendizaje automático , la fuga (también conocida como fuga de datos o fuga de destino ) es el uso de información en el proceso de entrenamiento del modelo que no se esperaría que estuviera disponible en el momento de la predicción , lo que hace que las puntuaciones predictivas (métricas) sobrestimen los valores del modelo. utilidad cuando se ejecuta en un entorno de producción. [1]
Las fugas suelen ser sutiles e indirectas, lo que dificulta su detección y eliminación. Las fugas pueden hacer que un estadístico o modelador seleccione un modelo subóptimo, que podría ser superado por un modelo sin fugas. [1]
Modos de fuga
Las fugas pueden ocurrir en muchos pasos del proceso de aprendizaje automático. Las causas de las fugas se pueden subclasificar en dos posibles fuentes de fugas para un modelo: características y ejemplos de capacitación. [1]
Característica de fuga
La fuga de características o columnas es causada por la inclusión de columnas que son una de las siguientes: una etiqueta duplicada, un sustituto de la etiqueta o la etiqueta misma. Estas características, conocidas como anacronismos, no estarán disponibles cuando el modelo se use para predicciones y darán lugar a fugas si se incluyen cuando se entrena el modelo. [2]
Por ejemplo, incluir una columna "MonthlySalary" al predecir "YearlySalary"; o "MinutesLate" al predecir "IsLate"; o más sutilmente "NumOfLatePayments" al predecir "ShouldGiveLoan".
Fugas de ejemplo de formación
Las fugas por filas se deben al intercambio inadecuado de información entre filas de datos. Los tipos de fugas en hileras incluyen:
- Caracterización prematura ; Fugas por características prematuras antes de la división CV / Train / Test (debe ajustarse a MinMax / ngrams / etc solo en la división del tren, luego transformar el conjunto de prueba)
- Filas duplicadas entre tren / validación / prueba (por ejemplo, sobremuestreo de un conjunto de datos para rellenar su tamaño antes de dividir; por ejemplo, diferentes rotaciones / aumentos de una sola imagen; muestreo de arranque antes de dividir; o duplicar filas para muestrear la clase minoritaria)
- Datos no iid
- Pérdida de tiempo (por ejemplo, dividir un conjunto de datos de series de tiempo de forma aleatoria en lugar de datos más nuevos en el conjunto de prueba mediante una división de TrainTest o una validación cruzada de origen continuo)
- Fuga de grupo: sin incluir una columna dividida de agrupación (p. Ej ., El grupo de Andrew Ng tuvo 100.000 radiografías de 30.000 pacientes, lo que significa ~ 3 imágenes por paciente. misma división. Por lo tanto, el modelo memorizó parcialmente a los pacientes en lugar de aprender a reconocer la neumonía en las radiografías de tórax. El papel revisado tuvo una caída en las puntuaciones. [3] [4] )
Para los conjuntos de datos dependientes del tiempo, la estructura del sistema que se estudia evoluciona con el tiempo (es decir, no es "estacionario"). Esto puede introducir diferencias sistemáticas entre los conjuntos de formación y validación. Por ejemplo, si un modelo para predecir valores de existencias se entrena con datos para un período determinado de cinco años, no es realista tratar el período de cinco años subsiguiente como una extracción de la misma población. Como otro ejemplo, suponga que se desarrolla un modelo para predecir el riesgo de un individuo de ser diagnosticado con una enfermedad en particular durante el próximo año.
Detección
Ver también
Referencias
- ^ a b c Shachar Kaufman; Saharon Rosset; Claudia Perlich (enero de 2011). "Fugas en minería de datos: formulación, detección y evitación" . Actas de la Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . 6 : 556–563. doi : 10.1145 / 2020408.2020496 . Consultado el 13 de enero de 2020 .
- ^ Soumen Chakrabarti (2008). "9". Minería de datos: conócelo todo . Editores Morgan Kaufmann. pag. 383. ISBN 978-0-12-374629-0.
Las variables anacrónicas son un problema minero pernicioso. Sin embargo, no suponen ningún problema en el momento de la implementación, ¡a menos que alguien espere que el modelo funcione! Las variables anacrónicas están fuera de lugar en el tiempo. Específicamente, en el momento del modelado de datos, transportan información del futuro al pasado.
- ^ Guts, Yuriy (30 de octubre de 2018). Yuriy Guts. FUGAS OBJETIVO EN EL APRENDIZAJE MÁQUINA (Hablar) . Conferencia AI Ucrania. Ucrania. Lay resumen (PDF) .
- ^ Nick, Roberts (16 de noviembre de 2017). "En respuesta a @AndrewYNg @pranavrajpurkar y a 2 más" . Brooklyn, NY, EE. UU .: Twitter. Archivado desde el original el 10 de junio de 2018 . Consultado el 13 de enero de 2020 .
En respuesta a @AndrewYNg @pranavrajpurkar y a otras 2 personas ... ¿Le preocupaba que la red pudiera memorizar la anatomía del paciente, ya que los pacientes cruzan el tren y la validación? “El conjunto de datos ChestX-ray14 contiene 112,120 imágenes de rayos X de vista frontal de 30,805 pacientes únicos. Dividimos aleatoriamente todo el conjunto de datos en un 80% de entrenamiento y un 20% de validación ".