Puntuación de Brier

La puntuación de Brier es una función de puntuación estrictamente adecuada o una regla de puntuación estrictamente adecuada que mide la precisión de las predicciones probabilísticas . Para las predicciones unidimensionales, es estrictamente equivalente al error cuadrático medio aplicado a las probabilidades predichas.

La puntuación de Brier es aplicable a tareas en las que las predicciones deben asignar probabilidades a un conjunto de clases o resultados discretos mutuamente excluyentes . El conjunto de posibles resultados puede ser de naturaleza binaria o categórica, y las probabilidades asignadas a este conjunto de resultados deben sumar uno (donde cada probabilidad individual está en el rango de 0 a 1). Fue propuesto por Glenn W. Brier en 1950. ^[1]

El puntaje de Brier se puede considerar como una función de costo . Más precisamente, en todos los elementos ${\ Displaystyle i \ in {1 ... N}}$ en un conjunto de N predicciones, la puntuación de Brier mide la diferencia cuadrática media entre:

La probabilidad predicha asignada a los posibles resultados del ítem i
El resultado real ${\ Displaystyle o_ {i}}$

Por lo tanto, cuanto más baja sea la puntuación de Brier para un conjunto de predicciones, mejor se calibrarán las predicciones. Tenga en cuenta que la puntuación de Brier, en su formulación más común, toma un valor entre cero y uno, ya que este es el cuadrado de la mayor diferencia posible entre una probabilidad predicha (que debe estar entre cero y uno) y el resultado real (que puede tomar valores de solo 0 o 1). En la formulación original (1950) de la puntuación de Brier, el rango es el doble, de cero a dos.

La puntuación de Brier es apropiada para resultados binarios y categóricos que pueden estructurarse como verdaderos o falsos, pero no es apropiada para variables ordinales que pueden tomar tres o más valores.

Definición

La formulación más común de la puntuación de Brier es

{\ Displaystyle BS = {\ frac {1} {N}} \ sum \ limits _ {t = 1} ^ {N} (f_ {t} -o_ {t}) ^ {2} \, \!}

en el cual ${\ Displaystyle f_ {t}}$ es la probabilidad que se pronosticó, ${\ Displaystyle o_ {t}}$ el resultado real del evento en la instancia ${\ Displaystyle t}$ ( ${\ Displaystyle 0}$ si no pasa y ${\ Displaystyle 1}$ si sucede) y ${\ Displaystyle N}$ es el número de instancias de pronóstico. En efecto, es el error cuadrático medio del pronóstico. Esta formulación se utiliza principalmente para eventos binarios (por ejemplo, "lluvia" o "sin lluvia"). La ecuación anterior es una regla de puntuación adecuada solo para eventos binarios; Si se va a evaluar un pronóstico de múltiples categorías, entonces se debe usar la definición original dada por Brier a continuación.

Ejemplo

Suponga que uno está pronosticando la probabilidad ${\ Displaystyle P}$ que lloverá en un día determinado. Luego, la puntuación de Brier se calcula de la siguiente manera:

Si la previsión es 100% ( ${\ Displaystyle P}$ = 1) y llueve, entonces el puntaje de Brier es 0, el mejor puntaje que se puede lograr.
Si el pronóstico es del 100% y no llueve, entonces el puntaje Brier es 1, el peor puntaje que se puede lograr.
Si la previsión es del 70% ( ${\ Displaystyle P}$ = 0,70) y llueve, entonces la puntuación de Brier es (0,70−1) ² = 0,09.

Por el contrario, si la previsión es del 70% ( ${\ Displaystyle P}$ = 0,70) y no llueve, entonces la puntuación de Brier es (0,70−0) ² = 0,49.
Del mismo modo, si la previsión es del 30% ( ${\ Displaystyle P}$ = 0.30) y llueve, entonces el puntaje de Brier es (0.30−1) ² = 0.49.
Si la previsión es 50% ( ${\ Displaystyle P}$ = 0.50), entonces la puntuación de Brier es (0.50−1) ² = (0.50−0) ² = 0.25, independientemente de si llueve.

Definición original de Brier

Aunque la formulación anterior es la más utilizada, la definición original de Brier ^[1] es aplicable a los pronósticos de múltiples categorías y sigue siendo una regla de puntuación adecuada, mientras que la forma binaria (como se usa en los ejemplos anteriores) es solo adecuada. para eventos binarios. Para los pronósticos binarios, la formulación original del "puntaje de probabilidad" de Brier tiene el doble del valor del puntaje actualmente conocido como puntaje de Brier.

{\ Displaystyle BS = {\ frac {1} {N}} \ sum \ limits _ {t = 1} ^ {N} \ sum \ limits _ {i = 1} ^ {R} (f_ {ti} -o_ {ti}) ^ {2} \, \!}

En el cual ${\ Displaystyle R}$ es el número de clases posibles en las que puede caer el evento, y ${\ Displaystyle N}$ el número total de instancias de todas las clases. Para el caso Lluvia / Sin lluvia, ${\ Displaystyle R = 2}$ , mientras que para el pronóstico Frío / Normal / Cálido, ${\ Displaystyle R = 3}$ .

Descomposiciones

Hay varias descomposiciones de la puntuación de Brier que proporcionan una visión más profunda del comportamiento de un clasificador binario.

Descomposición de 3 componentes

La puntuación de Brier se puede descomponer en 3 componentes aditivos: incertidumbre, confiabilidad y resolución. (Murphy 1973) ^[2]

{\ Displaystyle BS = REL-RES + UNC}

Cada uno de estos componentes se puede descomponer aún más de acuerdo con el número de clases posibles en las que puede caer el evento. Abusar del signo de igualdad:

{\ Displaystyle BS = {\ frac {1} {N}} \ sum \ limits _ {k = 1} ^ {K} {n_ {k} (\ mathbf {f_ {k}} - \ mathbf {\ bar { o}} _ {\ mathbf {k}})} ^ {2} - {\ frac {1} {N}} \ sum \ limits _ {k = 1} ^ {K} {n_ {k} (\ mathbf {{\ bar {o}} _ {k}} - {\ bar {\ mathbf {o}}})} ^ {2} + \ mathbf {\ bar {o}} \ left ({1- \ mathbf { \ bar {o}}} \ right)}

Con ${\ Displaystyle \ textstyle N}$ siendo el número total de pronósticos emitidos, ${\ Displaystyle \ textstyle K}$ el número de pronósticos únicos emitidos, ${\ Displaystyle \ mathbf {\ bar {o}} = {\ sum _ {t = 1} ^ {N}} \ mathbf {o_ {t}} / N}$ la tasa base climatológica observada para que ocurra el evento, ${\ Displaystyle n_ {k}}$ el número de pronósticos con la misma categoría de probabilidad y ${\ Displaystyle \ mathbf {\ overline {o}} _ {\ mathbf {k}}}$ la frecuencia observada, dados los pronósticos de probabilidad ${\ Displaystyle \ mathbf {f_ {k}}}$ . La notación en negrita en la fórmula anterior indica vectores, que es otra forma de denotar la definición original de la partitura y descomponerla según el número de clases posibles en las que puede caer el evento. Por ejemplo, un 70% de probabilidad de lluvia y una ocurrencia de no lluvia se denotan como ${\ Displaystyle \ mathbf {f} = (0.3,0.7)}$ y ${\ Displaystyle \ mathbf {o} = (1,0)}$ respectivamente. Se entiende que las operaciones como el cuadrado y la multiplicación de estos vectores son componentes. La puntuación de Brier es entonces la suma del vector resultante en el lado derecho.

Incertidumbre

El término de incertidumbre mide la incertidumbre inherente a los resultados del evento. Para eventos binarios, es máximo cuando cada resultado ocurre el 50% del tiempo, y es mínimo (cero) si un resultado siempre ocurre o nunca ocurre.

Fiabilidad

El término de confiabilidad mide qué tan cerca están las probabilidades de pronóstico de las probabilidades verdaderas, dado ese pronóstico. La confiabilidad se define en la dirección contraria en comparación con el idioma inglés . Si la confiabilidad es 0, el pronóstico es perfectamente confiable. Por ejemplo, si agrupamos todos los casos de pronóstico donde se pronosticó un 80% de probabilidad de lluvia, obtenemos una confiabilidad perfecta solo si llovió 4 de 5 veces después de que se emitió dicho pronóstico.

Resolución

El término de resolución mide cuánto difieren las probabilidades condicionales dadas las diferentes predicciones del promedio climático. Cuanto mayor sea este término, mejor. En el peor de los casos, cuando siempre se pronostica la probabilidad climática, la resolución es cero. En el mejor de los casos, cuando las probabilidades condicionales son cero y uno, la resolución es igual a la incertidumbre.

Descomposición de dos componentes

Una descomposición alternativa (y relacionada) genera dos términos en lugar de tres.

{\ Displaystyle BS = CAL + REF}

{\ Displaystyle BS = {\ frac {1} {N}} \ sum \ limits _ {k = 1} ^ {K} {n_ {k} (\ mathbf {f_ {k}} - \ mathbf {\ bar { o}} _ {\ mathbf {k}})} ^ {2} + {\ frac {1} {N}} \ sum \ limits _ {k = 1} ^ {K} {n_ {k} (\ mathbf {{\ bar {o}} _ {k}} (1- \ mathbf {{\ bar {o}} _ {k}}}))}

El primer término se conoce como calibración (y puede usarse como una medida de calibración, ver calibración estadística ) y es igual a confiabilidad. El segundo término se conoce como refinamiento, y es una agregación de resolución e incertidumbre, y está relacionado con el área bajo la Curva ROC .

La puntuación de Brier, y la descomposición CAL + REF, se pueden representar gráficamente a través de las llamadas Curvas de Brier, ^[3] donde se muestra la pérdida esperada para cada condición de operación. Esto hace que el puntaje de Brier sea una medida del desempeño agregado bajo una distribución uniforme de asimetrías de clase. ^[4]

Puntaje de habilidad de Brier (BSS)

Una puntuación de habilidad para una puntuación subyacente determinada es una variante compensada y escalada (negativamente) de la puntuación subyacente, de modo que un valor de puntuación de habilidad de cero significa que la puntuación de las predicciones es simplemente tan buena como la de un conjunto de puntos de referencia o de referencia. o predicciones predeterminadas, mientras que un valor de puntuación de habilidad de uno (100%) representa la mejor puntuación posible. Un valor de puntuación de habilidad menor que cero significa que el rendimiento es incluso peor que el de las predicciones de referencia o de referencia. Cuando el puntaje subyacente es el puntaje brier (BS), el puntaje de habilidad brier (BSS) se calcula como

{\ Displaystyle BSS = 1 - {\ frac {BS} {BS_ {ref}}}}

dónde ${\ Displaystyle BS_ {ref}}$ es la puntuación más breve de las predicciones de referencia o de referencia que buscamos mejorar. Si bien las predicciones de referencia podrían, en principio, estar dadas por cualquier modelo preexistente, de forma predeterminada se puede usar el modelo ingenuo que predice la proporción o frecuencia general de una clase determinada en el conjunto de datos que se puntúa, como la probabilidad predicha constante de esa clase. que ocurren en cada instancia en el conjunto de datos. Este modelo de línea de base representaría un modelo "sin habilidad" que se busca mejorar. Los puntajes de habilidad se originan en la literatura de predicción meteorológica, donde las predicciones de referencia predeterminadas ingenuas se denominan predicciones de "climatología en la muestra", donde la climatología significa un promedio a largo plazo o general de las predicciones meteorológicas, y medias en la muestra calculadas a partir del presente. conjunto de datos que se califica. ^[5]^[6] En este caso predeterminado, para la clasificación binaria (de dos clases), la puntuación de brier de referencia viene dada por (utilizando la notación de la primera ecuación de este artículo, en la parte superior de la sección Definición):

{\ Displaystyle BS_ {ref} = {\ frac {1} {N}} \ sum \ limits _ {t = 1} ^ {N} ({\ bar {o}} - o_ {t}) ^ {2} \,}

dónde ${\ Displaystyle {\ bar {o}}}$ es simplemente el resultado real promedio, es decir, la proporción general de clase 1 verdadera en el conjunto de datos:

{\ Displaystyle {\ bar {o}} = {\ frac {1} {N}} \ sum \ limits _ {t = 1} ^ {N} o_ {t}.}

Con un puntaje brier, cuanto más bajo es mejor (es una función de pérdida) siendo 0 el mejor puntaje posible. Pero con un puntaje de habilidad más alto, cuanto más alto es mejor, siendo 1 (100%) el mejor puntaje posible.

El puntaje de habilidad más rápido puede ser más interpretable que el puntaje más rápido porque el BSS es simplemente el porcentaje de mejora en el BS en comparación con el modelo de referencia, y un BSS negativo significa que lo está haciendo incluso peor que el modelo de referencia, lo que puede no ser obvio a partir de mirando la propia partitura de brier. Sin embargo, normalmente no se debería esperar un BSS cercano al 100% porque esto requeriría que cada predicción de probabilidad fuera casi 0 o 1 (y, por supuesto, era correcta).

Debido a que el puntaje brier es una regla de puntaje estrictamente adecuada , y el BSS es solo una transformación afín de él, el BSS también es una regla de puntaje estrictamente adecuada.

Puede notar que el BSS de la clasificación (estimación de probabilidad) es a su BS, como el coeficiente de determinación de regresión ( ${\ Displaystyle R ^ {2}}$ ) es su error cuadrático medio (MSE).

Defectos

La puntuación de Brier se vuelve inadecuada para eventos muy raros (o muy frecuentes), porque no discrimina suficientemente entre pequeños cambios en el pronóstico que son significativos para eventos raros. ^[7] Wilks (2010) ha encontrado que "[Q] uite tamaños de muestra grandes, es decir, n> 1000, son necesarios para pronósticos de alta habilidad de eventos relativamente raros, mientras que solo se necesitan tamaños de muestra bastante modestos para pronósticos de baja habilidad de eventos comunes ". ^[8]

Ver también

Lecturas adicionales

Brier, Glenn W. (1950). "Verificación de pronósticos expresados en términos de probabilidad" . Revisión mensual del clima . 78 (1): 1-3.
J. Scott Armstrong, Principios de pronóstico .
Glosario de meteorología AMS
Composición de la partitura de Brier: un mini-tutorial

Notas

^ ^a ^b Brier (1950). "Verificación de pronósticos expresados en términos de probabilidad" (PDF) . Revisión mensual del clima . 78 : 1-3. doi : 10.1175 / 1520-0493 (1950) 078 <0001: vofeit> 2.0.co; 2 . Archivado desde el original (PDF) el 23 de octubre de 2017.
^ Murphy, AH (1973). "Una nueva partición vectorial de la puntuación de probabilidad" . Revista de meteorología aplicada . 12 (4): 595–600. doi : 10.1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2 .
^ Hernandez-Orallo, J .; Flach, PA; Ferri, C. (2011). "Curvas de Brier: una nueva visualización basada en costos del rendimiento del clasificador" (PDF) . Actas de la 28a Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . págs. 585–592.
^ Hernandez-Orallo, J .; Flach, PA; Ferri, C. (2012). "Una vista unificada de las métricas de rendimiento: traducción de la elección del umbral en pérdida de clasificación esperada" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 2813–2869.
^ Una descomposición corregida por sesgo de la puntuación de Brier. (Notas y correspondencia.) CAT Ferro y TE Fricker en Quarterly Journal of the Royal Meteorological Society , volumen 138, número 668, octubre de 2012, parte A, páginas 1954-1960 [1]
^ "Predicción numérica del tiempo: el sistema de predicción de conjunto de corto alcance de MOGREPS: Informe de verificación: Rendimiento de prueba de MOGREPS: enero de 2006 - marzo de 2007. Informe técnico de investigación de predicciones n. ° 503". Neill Bowler, Marie Dando, Sarah Beare y Ken Mylne [2]
^ Riccardo Benedetti (1 de enero de 2010). "Reglas de puntuación para la verificación del pronóstico" . Revisión mensual del clima . 138 (1): 203–211. doi : 10.1175 / 2009MWR2945.1 .
^ Wilks, DS (2010). "Distribuciones de muestreo de la puntuación de Brier y la puntuación de habilidad de Brier bajo dependencia en serie". Revista trimestral de la Royal Meteorological Society . 136 (1): 2109–2118. doi : 10.1002 / qj.709 .

[Brier-1] Brier (1950). "Verificación de pronósticos expresados en términos de probabilidad" (PDF) . Revisión mensual del clima . 78 : 1-3. doi : 10.1175 / 1520-0493 (1950) 078 <0001: vofeit> 2.0.co; 2 . Archivado desde el original (PDF) el 23 de octubre de 2017.

[Murphy1973-2] Murphy, AH (1973). "Una nueva partición vectorial de la puntuación de probabilidad" . Revista de meteorología aplicada . 12 (4): 595–600. doi : 10.1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2 .

[hernandez2011brier-3] Hernandez-Orallo, J .; Flach, PA; Ferri, C. (2011). "Curvas de Brier: una nueva visualización basada en costos del rendimiento del clasificador" (PDF) . Actas de la 28a Conferencia Internacional sobre Aprendizaje Automático (ICML-11) . págs. 585–592.

[hernandez2012unified-4] Hernandez-Orallo, J .; Flach, PA; Ferri, C. (2012). "Una vista unificada de las métricas de rendimiento: traducción de la elección del umbral en pérdida de clasificación esperada" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 2813–2869.

[5] Una descomposición corregida por sesgo de la puntuación de Brier. (Notas y correspondencia.) CAT Ferro y TE Fricker en Quarterly Journal of the Royal Meteorological Society , volumen 138, número 668, octubre de 2012, parte A, páginas 1954-1960 [1]

[6] "Predicción numérica del tiempo: el sistema de predicción de conjunto de corto alcance de MOGREPS: Informe de verificación: Rendimiento de prueba de MOGREPS: enero de 2006 - marzo de 2007. Informe técnico de investigación de predicciones n. ° 503". Neill Bowler, Marie Dando, Sarah Beare y Ken Mylne [2]

[7] Riccardo Benedetti (1 de enero de 2010). "Reglas de puntuación para la verificación del pronóstico" . Revisión mensual del clima . 138 (1): 203–211. doi : 10.1175 / 2009MWR2945.1 .

[8] Wilks, DS (2010). "Distribuciones de muestreo de la puntuación de Brier y la puntuación de habilidad de Brier bajo dependencia en serie". Revista trimestral de la Royal Meteorological Society . 136 (1): 2109–2118. doi : 10.1002 / qj.709 .

[1]