Clasificación probabilística

En el aprendizaje automático , un clasificador probabilístico es un clasificador que puede predecir, dada una observación de una entrada, una distribución de probabilidad sobre un conjunto de clases, en lugar de solo generar la clase más probable a la que debería pertenecer la observación. Los clasificadores probabilísticos proporcionan una clasificación que puede ser útil por derecho propio ^[1] o cuando se combinan clasificadores en conjuntos .

Tipos de clasificación

Formalmente, un clasificador "ordinario" es una regla o función que asigna a una muestra $x$ una etiqueta de clase $ŷ$ :

{\ Displaystyle {\ hat {y}} = f (x)}

Las muestras provienen de algún conjunto $X$ (por ejemplo, el conjunto de todos los documentos o el conjunto de todas las imágenes ), mientras que las etiquetas de clase forman un conjunto finito $Y$ definido antes del entrenamiento.

Los clasificadores probabilísticos generalizan esta noción de clasificadores: en lugar de funciones, son distribuciones condicionales ${\ Displaystyle \ Pr (Y \ vert X)}$ , lo que significa que para un ${\ Displaystyle x \ in X}$ , asignan probabilidades a todos ${\ Displaystyle y \ in Y}$ (y estas probabilidades suman uno). La clasificación "difícil" se puede realizar utilizando la regla de decisión óptima ^[2]^{: 39–40}

{\ Displaystyle {\ hat {y}} = \ operatorname {\ arg \ max} _ {y} \ Pr (Y = y \ vert X)}

o, en inglés, la clase predicha es la que tiene la mayor probabilidad.

Los clasificadores probabilísticos binarios también se denominan modelos de regresión binaria en estadística . En econometría , la clasificación probabilística en general se denomina elección discreta .

Algunos modelos de clasificación, como Bayes ingenuo , regresión logística y perceptrones multicapa (cuando se entrenan bajo una función de pérdida apropiada ) son naturalmente probabilísticos. Otros modelos, como las máquinas de vectores de soporte , no lo son, pero existen métodos para convertirlos en clasificadores probabilísticos.

Entrenamiento generativo y condicional

Algunos modelos, como la regresión logística , se entrenan condicionalmente: optimizan la probabilidad condicional ${\ Displaystyle \ Pr (Y \ vert X)}$ directamente en un conjunto de entrenamiento (ver minimización de riesgos empíricos ). Otros clasificadores, como Bayes ingenuo , se entrenan generativamente : en el momento del entrenamiento, la distribución condicional de clase ${\ Displaystyle \ Pr (X \ vert Y)}$ y la clase previa ${\ Displaystyle \ Pr (Y)}$ se encuentran, y la distribución condicional ${\ Displaystyle \ Pr (Y \ vert X)}$ se deriva utilizando la regla de Bayes . ^[2]^{: 43}

Calibración de probabilidad

No todos los modelos de clasificación son naturalmente probabilísticos, y algunos que lo son, sobre todo clasificadores de Bayes ingenuos, árboles de decisión y métodos de impulso , producen distribuciones de probabilidad de clase distorsionadas. ^[3] En el caso de los árboles de decisión, donde $Pr (y | x)$ es la proporción de muestras de entrenamiento con la etiqueta $y$ en la hoja donde termina $x$ , estas distorsiones se producen porque los algoritmos de aprendizaje como C4.5 o CART apuntan explícitamente para producir hojas homogéneas (dando probabilidades cercanas a cero o uno, y por lo tanto alto sesgo ) mientras se utilizan pocas muestras para estimar la proporción relevante (alta varianza ). ^[4]

Un ejemplo de gráfico de calibración

La calibración se puede evaluar mediante un gráfico de calibración (también llamado diagrama de confiabilidad ). ^[3]^[5] Un gráfico de calibración muestra la proporción de elementos en cada clase para las bandas de probabilidad o puntuación predichas (como una distribución de probabilidad distorsionada o la "distancia con signo al hiperplano" en una máquina de vectores de soporte). Las desviaciones de la función de identidad indican un clasificador mal calibrado para el cual las probabilidades o puntuaciones pronosticadas no se pueden usar como probabilidades. En este caso, se puede utilizar un método para convertir estos puntajes en probabilidades de pertenencia a una clase debidamente calibradas .

Para el caso binario , un enfoque común es aplicar la escala de Platt , que aprende un modelo de regresión logística en las puntuaciones. ^[6] Un método alternativo que utiliza regresión isotónica ^[7] es generalmente superior al método de Platt cuando se dispone de suficientes datos de entrenamiento. ^[3]

En el caso multiclase , se puede utilizar una reducción a tareas binarias, seguida de una calibración univariante con un algoritmo como se describe anteriormente y una aplicación adicional del algoritmo de acoplamiento por pares por Hastie y Tibshirani. ^[8]

Evaluación de la clasificación probabilística

Las funciones de pérdida comúnmente utilizadas para la clasificación probabilística incluyen la pérdida logarítmica y la puntuación de Brier entre las distribuciones de probabilidad predicha y verdadera. El primero de estos se usa comúnmente para entrenar modelos logísticos.

Un método utilizado para asignar puntuaciones a pares de probabilidades pronosticadas y resultados discretos reales, de modo que se puedan comparar diferentes métodos predictivos, se denomina regla de puntuación .

Referencias

^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico . pag. 348. Archivado desde el original el 26 de enero de 2015. [E] n aplicaciones de minería de datos , el interés suele estar más en las probabilidades de clase ${\ Displaystyle p _ {\ ell} (x), \ ell = 1, \ dots, K}$ ellos mismos, en lugar de realizar una tarea de clase.
^ a b Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador.
^ a b c Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicción de buenas probabilidades con aprendizaje supervisado (PDF) . ICML. doi : 10.1145 / 1102351.1102430 . Archivado desde el original (PDF) el 11 de marzo de 2014.
^ Zadrozny, Bianca; Elkan, Charles (2001). Obtención de estimaciones de probabilidad calibradas a partir de árboles de decisión y clasificadores bayesianos ingenuos (PDF) . ICML. págs. 609–616.
^ "Calibración de probabilidad" . jmetzen.github.io . Consultado el 18 de junio de 2019 .
^ Platt, John (1999). "Salidas probabilísticas para máquinas de vectores de soporte y comparaciones con métodos de verosimilitud regularizados" . Avances en clasificadores de grandes márgenes . 10 (3): 61–74.
^ Zadrozny, Bianca; Elkan, Charles (2002). "Transformar las puntuaciones del clasificador en estimaciones precisas de probabilidad multiclase" (PDF) . Actas de la octava conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '02 . págs. 694–699. CiteSeerX 10.1.1.164.8140 . doi : 10.1145 / 775047.775151 . ISBN 978-1-58113-567-1. CiteSeerX : 10.1.1.13.7457 .
^ Hastie, Trevor; Tibshirani, Robert (1998). "Clasificación por acoplamiento por pares". The Annals of Statistics . 26 (2): 451–471. CiteSeerX 10.1.1.309.4720 . doi : 10.1214 / aos / 1028144844 . Zbl 0932.62071 . CiteSeerX : 10.1.1.46.6032 .

[1] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico . pag. 348. Archivado desde el original el 26 de enero de 2015. [E] n aplicaciones de minería de datos , el interés suele estar más en las probabilidades de clase ${\ Displaystyle p _ {\ ell} (x), \ ell = 1, \ dots, K}$ ellos mismos, en lugar de realizar una tarea de clase.

[bishop-2] Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador.

[Niculescu-3] Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicción de buenas probabilidades con aprendizaje supervisado (PDF) . ICML. doi : 10.1145 / 1102351.1102430 . Archivado desde el original (PDF) el 11 de marzo de 2014.

[4] Zadrozny, Bianca; Elkan, Charles (2001). Obtención de estimaciones de probabilidad calibradas a partir de árboles de decisión y clasificadores bayesianos ingenuos (PDF) . ICML. págs. 609–616.

[5] "Calibración de probabilidad" . jmetzen.github.io . Consultado el 18 de junio de 2019 .

[platt99-6] Platt, John (1999). "Salidas probabilísticas para máquinas de vectores de soporte y comparaciones con métodos de verosimilitud regularizados" . Avances en clasificadores de grandes márgenes . 10 (3): 61–74.

[7] Zadrozny, Bianca; Elkan, Charles (2002). "Transformar las puntuaciones del clasificador en estimaciones precisas de probabilidad multiclase" (PDF) . Actas de la octava conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '02 . págs. 694–699. CiteSeerX 10.1.1.164.8140 . doi : 10.1145 / 775047.775151 . ISBN 978-1-58113-567-1. CiteSeerX : 10.1.1.13.7457 .

[8] Hastie, Trevor; Tibshirani, Robert (1998). "Clasificación por acoplamiento por pares". The Annals of Statistics . 26 (2): 451–471. CiteSeerX 10.1.1.309.4720 . doi : 10.1214 / aos / 1028144844 . Zbl 0932.62071 . CiteSeerX : 10.1.1.46.6032 .

[1]