Validación cruzada (estadísticas)

La validación cruzada , ^[2]^[3]^{[4] a} veces denominada estimación de rotación ^[5]^[6]^[7] o pruebas fuera de la muestra , es cualquiera de las diversas técnicas de validación de modelos similares para evaluar cómo los resultados de una estadística el análisis se generalizará a un conjunto de datos independientes. La validación cruzada es un método de remuestreo que utiliza diferentes partes de los datos para probar y entrenar un modelo en diferentes iteraciones. Se utiliza principalmente en entornos donde el objetivo es la predicción y se desea estimar la precisión con la que un modelo predictivofuncionará en la práctica. En un problema de predicción, un modelo generalmente recibe un conjunto de datos de datos conocidos en los que se ejecuta el entrenamiento ( conjunto de datos de entrenamiento ) y un conjunto de datos de datos desconocidos (o datos vistos por primera vez ) contra los cuales se prueba el modelo (llamado conjunto de datos de validación o prueba). conjunto ). ^[8]^[9] El objetivo de la validación cruzada es probar la capacidad del modelo para predecir nuevos datos que no se utilizaron en la estimación, con el fin de marcar problemas como sobreajuste o sesgo de selección ^[10] y dar una idea de cómo se generalizará el modelo a un conjunto de datos independiente (es decir, un conjunto de datos desconocido, por ejemplo, de un problema real).

Una ronda de validación cruzada implica dividir una muestra de datos en subconjuntos complementarios , realizar el análisis en un subconjunto (llamado conjunto de entrenamiento ) y validar el análisis en el otro subconjunto (llamado conjunto de validación o conjunto de prueba ). Para reducir la variabilidad , en la mayoría de los métodos se realizan múltiples rondas de validación cruzada utilizando diferentes particiones, y los resultados de la validación se combinan (por ejemplo, promediados) durante las rondas para dar una estimación del rendimiento predictivo del modelo.

En resumen, la validación cruzada combina (promedios) medidas de aptitud en la predicción para obtener una estimación más precisa del rendimiento de la predicción del modelo. ^[11]

Supongamos que tenemos un modelo con uno o más parámetros desconocidos y un conjunto de datos al que se puede ajustar el modelo (el conjunto de datos de entrenamiento). El proceso de ajuste optimiza los parámetros del modelo para que el modelo se ajuste a los datos de entrenamiento de la mejor manera posible. Si luego tomamos una muestra independiente de datos de validación de la misma población donde se tomaron los datos de entrenamiento, generalmente resultará que el modelo no se ajusta a los datos de validación tan bien como se ajusta a los datos de entrenamiento. Es probable que el tamaño de esta diferencia sea grande, especialmente cuando el tamaño del conjunto de datos de entrenamiento es pequeño o cuando el número de parámetros en el modelo es grande. La validación cruzada es una forma de estimar el tamaño de este efecto.

En la regresión lineal tenemos valores de respuesta reales y ₁ , ..., y _n , y n p - covariables vectoriales dimensionales x₁ , ..., x _n . Las componentes del vector x _i se denotan x _i₁ , ..., x _ip . Si usamos mínimos cuadrados para ajustar una función en forma de hiperplano ŷ = a + β^Tx a los datos ( x _i , y _i )_{1 ≤ i ≤ n} , entonces podríamos evaluar el ajuste usando el error cuadrático medio (MSE). El MSE para valores de parámetros estimados dados a y β en el conjunto de entrenamiento ( x _i , y _i )_{1 ≤ i ≤ n} se define como

Si el modelo se especifica correctamente, se puede mostrar bajo suposiciones leves que el valor esperado del MSE para el conjunto de entrenamiento es ( n - p - 1) / ( n + p + 1) <1 veces el valor esperado del MSE para el conjunto de validación ^[12] (el valor esperado se toma sobre la distribución de conjuntos de entrenamiento). Por lo tanto, si ajustamos el modelo y calculamos el MSE en el conjunto de entrenamiento, obtendremos una evaluación con sesgo optimista de qué tan bien el modelo se ajustará a un conjunto de datos independientes. Esta estimación sesgada se denomina estimación del ajuste dentro de la muestra , mientras que la estimación de validación cruzada es una estimación fuera de la muestra .

Comparar la precisión de la validación cruzada y el porcentaje de falsos negativos (sobreestimación) de cinco modelos de clasificación. El tamaño de las burbujas representa la desviación estándar de la precisión de la validación cruzada (diez veces). ^[1]

Diagrama de validación cruzada de k-fold.

Ilustración de validación cruzada de dejar uno fuera (LOOCV) cuando n = 8 observaciones. Se entrenarán y probarán un total de 8 modelos.

Ilustración de la validación cruzada de k veces cuando n = 12 observaciones yk = 3. Después de mezclar los datos, se entrenará y probará un total de 3 modelos.