En la teoría de la decisión , una función de puntuación , o regla de puntuación , mide la precisión de las predicciones probabilísticas . Es aplicable a tareas en las que las predicciones deben asignar probabilidades a un conjunto de resultados o clases mutuamente excluyentes . El conjunto de posibles resultados puede ser de naturaleza binaria o categórica, y las probabilidades asignadas a este conjunto de resultados deben sumar uno (donde cada probabilidad individual está en el rango de 0 a 1). Una puntuación puede considerarse como una medida de la " calibración " de un conjunto de predicciones probabilísticas o como una "función de costo" o " función de pérdida ".
Si se aplica un costo en proporción a una regla de puntuación adecuada, el costo mínimo esperado corresponde a informar el verdadero conjunto de probabilidades. Las reglas de puntuación adecuadas se utilizan en meteorología, finanzas y clasificación de patrones donde un pronosticador o algoritmo intentará minimizar la puntuación promedio para producir probabilidades refinadas y calibradas (es decir, probabilidades precisas).
Definición
Suponer y son dos variables aleatorias definidas en un espacio muestral con y como sus correspondientes funciones de densidad (masa), en las que es una variable objetivo de pronóstico y es la variable aleatoria generada a partir de un esquema de pronóstico. Además, suponga que el, por es el valor realizado. Una regla de puntuación es una función como (es decir, ) que calcula la distancia entre y .
Orientación
está orientado positivamente si para dos pronósticos probabilísticos diferentes (como y ), significa que es un mejor pronóstico probabilístico que .
Puntuación esperada
La puntuación esperada es el valor esperado de la regla de puntuación sobre todos los valores posibles de la variable objetivo. Por ejemplo, para una variable aleatoria continua tenemos
Pérdida esperada
La pérdida de puntuación esperada es la diferencia entre la puntuación esperada para la variable objetivo y el pronóstico:
Propiedad
Suponiendo una orientación positiva, una regla de puntuación se considera estrictamente adecuada si el valor de la pérdida de puntuación esperada es positivo para todos los pronósticos posibles. En otras palabras, con base en una regla de puntuación estrictamente adecuada, un esquema de previsión debe puntuar mejor si sugiere la variable objetivo como previsión, y viceversa; es decir, basado en una regla de puntuación estrictamente adecuada, un esquema de previsión debe puntuar mejor si, y sólo si, sugiere la variable objetivo como previsión. [1]
Medidas de precisión de pronóstico no probabilísticas
Aunque las reglas de puntuación se introducen en la literatura sobre predicción probabilística, la definición es lo suficientemente general como para considerar medidas no probabilísticas como el error medio absoluto o el error cuadrático medio como algunas reglas específicas de puntuación. La principal característica de tales reglas de puntuación es es solo una función del valor esperado de (es decir, ).
Ejemplo de aplicación de las reglas de puntuación
Un ejemplo de pronóstico probabilístico es en meteorología, donde un pronosticador del tiempo puede dar la probabilidad de lluvia al día siguiente. Se podría anotar el número de veces que se citó una probabilidad del 25%, durante un período prolongado, y compararlo con la proporción real de veces que cayó lluvia. Si el porcentaje real fue sustancialmente diferente de la probabilidad declarada, decimos que el pronosticador está mal calibrado . Un pronosticador mal calibrado podría ser alentado a hacerlo mejor mediante un sistema de bonificación . Un sistema de bonificación diseñado en torno a una regla de puntuación adecuada incentivará al pronosticador a informar probabilidades iguales a sus creencias personales . [2]
Además del caso simple de una decisión binaria , como asignar probabilidades a "lluvia" o "sin lluvia", las reglas de puntuación se pueden utilizar para varias clases, como "lluvia", "nieve" o "despejado".
La imagen de la derecha muestra un ejemplo de una regla de puntuación, la regla de puntuación logarítmica, en función de la probabilidad informada para el evento que realmente ocurrió. Una forma de usar esta regla sería como un costo basado en la probabilidad que asigna un pronosticador o algoritmo, luego verificando qué evento ocurre realmente.
Reglas de puntuación adecuadas
Un pronosticador o algoritmo probabilístico devolverá un vector de probabilidad con una probabilidad para cada uno de los resultados. Un uso de una función de puntuación podría ser otorgar una recompensa de Si el Ocurre el evento. Si se utiliza una regla de puntuación adecuada , la recompensa esperada más alta se obtiene informando la distribución de probabilidad real. El uso de una regla de puntuación adecuada anima al pronosticador a ser honesto para maximizar la recompensa esperada. [3]
Reglas de puntuación estrictamente adecuadas
Una regla de puntuación es estrictamente adecuada si está optimizada de forma única (en expectativa) solo por las probabilidades verdaderas. En otras palabras, si una regla de puntuación adecuada no es estrictamente adecuada, entonces se optimizará prediciendo las probabilidades verdaderas, pero posiblemente también alcance el mismo valor óptimo con algunas otras probabilidades predichas. Optimizado en este caso corresponderá a la maximización para las reglas cuadráticas, esféricas y logarítmicas, pero a la minimización para la puntuación de Brier. Esto se puede ver en la imagen de la derecha para la regla logarítmica. Aquí, se espera que el Evento 1 ocurra con una probabilidad de 0.8 y la puntuación esperada (o recompensa) se muestra como una función de la probabilidad informada. La forma de maximizar la recompensa esperada es informar la probabilidad real de 0,8, ya que todas las demás probabilidades informadas producirán una puntuación esperada más baja. Esta propiedad se mantiene porque la puntuación logarítmica es estrictamente adecuada.
Ejemplos de reglas de puntuación estrictamente adecuadas
Hay un número infinito de reglas de puntuación, incluidas familias enteras parametrizadas de reglas de puntuación estrictamente adecuadas. Los que se muestran a continuación son simplemente ejemplos populares.
Regla de puntuación logarítmica
La regla de puntuación logarítmica es una regla de puntuación local estrictamente adecuada. Este es también el negativo de la sorpresa , que se utiliza comúnmente como criterio de puntuación en la inferencia bayesiana ; el objetivo es minimizar la sorpresa esperada. Esta regla de puntuación tiene bases sólidas en la teoría de la información .
Aquí, la puntuación se calcula como el logaritmo de la estimación de probabilidad para el resultado real. Es decir, una predicción del 80% que se pruebe correctamente recibiría una puntuación de ln (0,8) = −0,22 . Esta misma predicción también asigna un 20% de probabilidad al caso opuesto, por lo que si la predicción resulta falsa, recibiría una puntuación basada en el 20%: ln (0,2) = −1,6 . El objetivo de un pronosticador es maximizar la puntuación y que la puntuación sea lo más grande posible, y −0,22 es de hecho mayor que −1,6.
Si se trata la verdad o falsedad de la predicción como una variable x con valor 1 o 0 respectivamente, y la probabilidad expresada como p , entonces se puede escribir la regla de puntuación logarítmica como x ln ( p ) + (1 - x ) ln ( 1 - p ) . Tenga en cuenta que se puede utilizar cualquier base logarítmica, ya que las reglas de puntuación estrictamente adecuadas siguen siendo estrictamente adecuadas en la transformación lineal. Es decir:
es estrictamente apropiado para todos .
Brier / regla de puntuación cuadrática
La regla de puntuación cuadrática es una regla de puntuación estrictamente adecuada.
dónde es la probabilidad asignada a la respuesta correcta y es el número de clases.
La puntuación de Brier , propuesta originalmente por Glenn W. Brier en 1950, [4] se puede obtener mediante una transformación afín a partir de la regla de puntuación cuadrática.
Dónde cuando el El evento es correcto y de lo contrario y es el número de clases.
Una diferencia importante entre estas dos reglas es que un pronosticador debe esforzarse por maximizar la puntuación cuadrática y minimizar la puntuación de Brier. Esto se debe a un signo negativo en la transformación lineal entre ellos.
Regla de puntuación de Hyvarinen
La función de puntuación de Hyvarinen (de una densidad p) se define mediante [5]
Se puede utilizar para simplificar computacionalmente la inferencia de parámetros y abordar la comparación del modelo bayesiano con antecedentes arbitrariamente vagos. [5] [6] También se utilizó para introducir nuevas cantidades teóricas de la información más allá de la teoría de la información existente . [7]
Regla de puntuación esférica
La regla de puntuación esférica también es una regla de puntuación estrictamente adecuada.
Interpretación de las reglas de puntuación adecuadas
Todas las reglas de puntuación adecuadas son iguales a sumas ponderadas (integrales con una ponderación funcional no negativa) de las pérdidas en un conjunto de problemas de decisión simples de dos alternativas que utilizan la predicción probabilística, cada uno de estos problemas de decisión tiene una combinación particular de parámetros de costos asociados. para decisiones falsas positivas y falsas negativas . Una regla de puntuación estrictamente adecuada corresponde a tener una ponderación distinta de cero para todos los posibles umbrales de decisión. Cualquier regla de puntuación adecuada dada es igual a las pérdidas esperadas con respecto a una distribución de probabilidad particular sobre los umbrales de decisión; por tanto, la elección de una regla de puntuación corresponde a una suposición sobre la distribución de probabilidad de los problemas de decisión para los que se emplearán en última instancia las probabilidades predichas, con, por ejemplo, la regla de puntuación de pérdida cuadrática (o Brier) correspondiente a una probabilidad uniforme de que el umbral de decisión sea en cualquier lugar entre cero y uno. El puntaje de precisión de clasificación (porcentaje clasificado correctamente), una regla de puntaje de umbral único que es cero o uno dependiendo de si la probabilidad predicha está en el lado apropiado de 0.5, es una regla de puntaje adecuada pero no una regla de puntaje estrictamente adecuada porque es optimizado (en expectativa) no solo al predecir la probabilidad verdadera, sino también al predecir cualquier probabilidad en el mismo lado de 0.5 que la probabilidad verdadera. [8] [9] [10] [11] [12] [13]
Comparación de reglas de puntuación estrictamente adecuadas
A continuación, a la izquierda, se muestra una comparación gráfica de las reglas de puntuación logarítmica, cuadrática y esférica para un problema de clasificación binaria. El eje x indica la probabilidad reportada para el evento que realmente ocurrió.
Es importante señalar que cada una de las puntuaciones tiene diferentes magnitudes y ubicaciones. Sin embargo, las diferencias de magnitud no son relevantes ya que las puntuaciones siguen siendo adecuadas en la transformación afín. Por tanto, para comparar distintas puntuaciones es necesario trasladarlas a una escala común. En la imagen de la derecha se muestra una opción razonable de normalización, donde todas las puntuaciones se cruzan con los puntos (0,5,0) y (1,1). Esto asegura que den 0 para una distribución uniforme (dos probabilidades de 0,5 cada una), lo que no refleja ningún costo ni recompensa por informar lo que suele ser la distribución de referencia. Todos los puntajes normalizados a continuación también arrojan 1 cuando a la clase verdadera se le asigna una probabilidad de 1.
Caracteristicas
Transformacion afin
Una regla de puntuación estrictamente adecuada, ya sea binaria o multiclase, después de una transformación afín sigue siendo una regla de puntuación estrictamente adecuada. [2] Es decir, si es una regla de puntuación estrictamente adecuada, entonces con es también una regla de puntuación estrictamente adecuada. Por supuesto si luego, el sentido de optimización de la regla de puntuación cambia entre maximización y minimización.
Localidad
Se dice que una regla de puntuación adecuada es local si su estimación de la probabilidad de un evento específico depende solo de la probabilidad de ese evento. Esta afirmación es vaga en la mayoría de las descripciones pero, en la mayoría de los casos, podemos pensar en esto como que la solución óptima del problema de puntuación "en un evento específico" es invariante a todos los cambios en la distribución de observación que dejan la probabilidad de ese evento sin cambios. Todas las puntuaciones binarias son locales porque se determina la probabilidad asignada al evento que no ocurrió, por lo que no hay ningún grado de flexibilidad para variar.
Las funciones afines de la regla de puntuación logarítmica son las únicas reglas de puntuación locales estrictamente adecuadas en un conjunto finito que no es binario.
Descomposición
El valor esperado de una regla de puntuación adecuada se puede descomponer en la suma de tres componentes, llamados incertidumbre , confiabilidad y resolución , [14] [15] que caracterizan diferentes atributos de los pronósticos probabilísticos:
Si una puntuación es adecuada y tiene una orientación negativa (como la puntuación de Brier), los tres términos son positivos definidos. El componente de incertidumbre es igual a la puntuación esperada del pronóstico que predice constantemente la frecuencia promedio de eventos. El componente de confiabilidad penaliza los pronósticos mal calibrados, en los que las probabilidades pronosticadas no coinciden con las frecuencias de los eventos.
Las ecuaciones para los componentes individuales dependen de la regla de puntuación particular. Para la puntuación de Brier, se dan por
dónde es la probabilidad promedio de ocurrencia del evento binario , y es la probabilidad de evento condicional, dada , es decir
Ver también
Referencias
- ↑ Mojab, Ramin (4 de agosto de 2016). "Pronóstico probabilístico con modelos VAR estacionarios". doi : 10.2139 / ssrn.2818213 . SSRN 2818213 . Cite journal requiere
|journal=
( ayuda ) - ^ a b Bickel, EJ (2007). "Algunas comparaciones entre reglas de puntuación cuadráticas, esféricas y logarítmicas" (PDF) . Análisis de decisiones . 4 (2): 49–65. doi : 10.1287 / deca.1070.0089 .
- ^ Gneiting, Tilmann; Raftery, Adrian E. (2007). "Reglas de puntuación, predicción y estimación estrictamente adecuadas". Revista de la Asociación Estadounidense de Estadística . 102 (447): 359–378. doi : 10.1198 / 016214506000001437 .
- ^ Brier, GW (1950). "Verificación de pronósticos expresados en términos de probabilidad" (PDF) . Revisión mensual del clima . 78 (1): 1-3. Código Bibliográfico : 1950MWRv ... 78 .... 1B . doi : 10.1175 / 1520-0493 (1950) 078 <0001: VOFEIT> 2.0.CO; 2 .
- ^ a b Hyvärinen, Aapo (2005). "Estimación de modelos estadísticos no normalizados por coincidencia de puntuación" . Revista de investigación sobre aprendizaje automático . 6 (24): 695–709. ISSN 1533-7928 .
- ^ Shao, Stephane; Jacob, Pierre E .; Ding, Jie; Tarokh, Vahid (2 de octubre de 2019). "Comparación del modelo bayesiano con la puntuación de Hyvärinen: cálculo y coherencia" . Revista de la Asociación Estadounidense de Estadística . 114 (528): 1826–1837. arXiv : 1711.00136 . doi : 10.1080 / 01621459.2018.1518237 . ISSN 0162-1459 .
- ^ Ding, Jie; Calderbank, Robert; Tarokh, Vahid (2019). "Información de gradiente para representación y modelado" : 2396-2405. Cite journal requiere
|journal=
( ayuda ) - ^ Leonard J. Savage. Obtención de probabilidades y expectativas personales. J. of the American Stat. Assoc., 66 (336): 783–801, 1971.
- ^ Schervish, Mark J. (1989). "Un método general para comparar evaluadores de probabilidad", Annals of Statistics 17 (4) 1856–1879, https://projecteuclid.org/euclid.aos/1176347398
- ^ Rosen, David B. (1996). "¿Qué tan buenas fueron esas predicciones de probabilidad? La regla de puntuación de pérdida de recomendación esperada (ERL)" . En Heidbreder, G. (ed.). Máxima entropía y métodos bayesianos (Actas del Decimotercer Taller Internacional, agosto de 1993) . Kluwer, Dordrecht, Países Bajos. CiteSeerX 10.1.1.52.1557 .
- ^ Roulston, MS y Smith, LA (2002). Evaluación de pronósticos probabilísticos utilizando la teoría de la información. Monthly Weather Review, 130, 1653–1660. Consulte el APÉNDICE "Puntuaciones de habilidades y costo-pérdida". [1]
- ^ "Funciones de pérdida para clasificación y estimación de probabilidad de clase binaria: estructura y aplicaciones", Andreas Buja, Werner Stuetzle, Yi Shen (2005) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.184. 5203
- ^ Hernandez-Orallo, Jose; Flach, Peter; y Ferri, Cesar (2012). "Una visión unificada de las métricas de rendimiento: traducción de la elección de umbral en pérdida de clasificación esperada". Journal of Machine Learning Research 13 2813–2869. http://www.jmlr.org/papers/volume13/hernandez-orallo12a/hernandez-orallo12a.pdf
- ^ Murphy, AH (1973). "Una nueva partición vectorial de la puntuación de probabilidad" . Revista de meteorología aplicada . 12 (4): 595–600. Código bibliográfico : 1973JApMe..12..595M . doi : 10.1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2 .
- ^ Bröcker, J. (2009). "Fiabilidad, suficiencia y la descomposición de puntuaciones adecuadas" (PDF) . Revista trimestral de la Royal Meteorological Society . 135 (643): 1512-1519. arXiv : 0806.0813 . Código Bibliográfico : 2009QJRMS.135.1512B . doi : 10.1002 / qj.456 .
enlaces externos
- Video que compara reglas de puntuación esféricas, cuadráticas y logarítmicas
- Reglas de puntuación adecuadas locales
- Educación en reglas de puntuación y análisis de decisiones
- Reglas de puntuación estrictamente adecuadas
- Reglas de puntuación e incertidumbre