Escala de platt


En el aprendizaje automático , la escala de Platt o la calibración de Platt es una forma de transformar los resultados de un modelo de clasificación en una distribución de probabilidad entre clases . El método fue inventado por John Platt en el contexto de las máquinas de vectores de soporte , [1] reemplazando un método anterior de Vapnik , pero se puede aplicar a otros modelos de clasificación. [2] La escala de Platt funciona ajustando un modelo de regresión logística a las puntuaciones de un clasificador.

Considere el problema de la clasificación binaria : para las entradas x , queremos determinar si pertenecen a una de dos clases, etiquetadas arbitrariamente +1 y −1 . Suponemos que el problema de clasificación se resolverá mediante una función de valor real f , al predecir una etiqueta de clase y = signo ( f ( x )) . [a] Para muchos problemas, es conveniente obtener una probabilidad , es decir, una clasificación que no solo dé una respuesta, sino también un grado de certeza sobre la respuesta. Algunos modelos de clasificación no proporcionan tal probabilidad o dan estimaciones de probabilidad deficientes.

El escalado de Platt es un algoritmo para resolver el problema mencionado anteriormente. Produce estimaciones de probabilidad

es decir, una transformación logística de las puntuaciones del clasificador f ( x ) , donde A y B son dos parámetros escalares que son aprendidos por el algoritmo. Tenga en cuenta que ahora se pueden hacer predicciones de acuerdo con si las estimaciones de probabilidad contienen una corrección en comparación con la antigua función de decisión y = signo ( f ( x )) . [3]

Los parámetros A y B se estiman utilizando un método de máxima verosimilitud que optimiza el mismo conjunto de entrenamiento que el del clasificador original f . Para evitar el sobreajuste de este conjunto, se puede utilizar un conjunto de calibración retenido o una validación cruzada , pero Platt también sugiere transformar las etiquetas y en probabilidades objetivo

Aquí, N + y N - son el número de muestras positivas y negativas, respectivamente. Esta transformación sigue aplicando la regla de Bayes a un modelo de datos fuera de la muestra que tiene un antecedente uniforme sobre las etiquetas. [1] Las constantes 1 y 2, en el numerador y denominador respectivamente, se derivan de la aplicación de Laplace Smoothing.