Regresión gaussiana no homogénea

La regresión gaussiana no homogénea ( NGR ) ^[1]^[2] es un tipo de análisis de regresión estadística que se utiliza en las ciencias atmosféricas como una forma de convertir los pronósticos por conjuntos en pronósticos probabilísticos . ^{[3] En} relación con la regresión lineal simple , NGR utiliza la dispersión del conjunto como un predictor adicional, que se utiliza para mejorar la predicción de la incertidumbre y permite que la incertidumbre predicha varíe de un caso a otro. La predicción de la incertidumbre en NGR se deriva tanto de las estadísticas de errores de pronóstico anteriores como de la dispersión del conjunto. NGR se desarrolló originalmente para el pronóstico de temperatura de rango medio específico del sitio, ^[1]pero desde entonces también se ha aplicado a la predicción de vientos de mediano alcance en lugares específicos ^[4] ya las predicciones estacionales ^[5], y se ha adaptado para la predicción de precipitaciones. ^[6] La introducción de NGR fue la primera demostración de que los pronósticos probabilísticos que tienen en cuenta la dispersión del conjunto variable podrían lograr mejores puntajes de habilidad que los pronósticos basados en enfoques estándar de estadísticas de salida del modelo aplicados a la media del conjunto.

Intuición

Los pronósticos meteorológicos generados por simulaciones por computadora de la atmósfera y el océano generalmente consisten en un conjunto de pronósticos individuales. Los conjuntos se utilizan como una forma de intentar capturar y cuantificar las incertidumbres en el proceso de pronóstico del tiempo, como la incertidumbre en las condiciones iniciales y la incertidumbre en las parametrizaciones en el modelo . Para pronósticos puntuales de variables distribuidas normalmente , se puede resumir un pronóstico de conjunto con la media y la desviación estándar del conjunto. La media del conjunto es a menudo un mejor pronóstico que cualquiera de los pronósticos individuales, y la desviación estándar del conjunto puede dar una indicación de la incertidumbre en el pronóstico.

Sin embargo, la salida directa de las simulaciones por computadora de la atmósfera necesita calibración antes de que pueda compararse de manera significativa con las observaciones de las variables meteorológicas. Este proceso de calibración se conoce a menudo como estadísticas de salida del modelo (MOS). La forma más simple de tal calibración es corregir sesgos, utilizando una corrección de sesgo calculada a partir de errores de pronóstico pasados. La corrección de sesgo se puede aplicar tanto a los miembros individuales del conjunto como a la media del conjunto. Una forma más compleja de calibración es usar pronósticos y observaciones pasadas para entrenar un modelo de regresión lineal simple que mapea la media del conjunto en las observaciones. En tal modelo, la incertidumbre en la predicción se deriva puramente de las propiedades estadísticas de los errores de pronóstico pasados. Sin embargo, los pronósticos por conjuntos se construyen con la esperanza de que la dispersión por conjuntos pueda contener información adicional sobre la incertidumbre, más allá de la información que se puede derivar del análisis del desempeño pasado del pronóstico. En particular, dado que la dispersión del conjunto es típicamente diferente para cada pronóstico sucesivo, se ha sugerido que la dispersión del conjunto puede servir de base para predecir diferentes niveles de incertidumbre en diferentes pronósticos, lo que es difícil de hacer a partir de estimaciones de incertidumbre basadas en el desempeño anteriores. Si la extensión del conjunto realmente contiene información sobre la incertidumbre del pronóstico y cuánta información contiene, depende de muchos factores, como el sistema de pronóstico, la variable de pronóstico, la resolución y el tiempo de espera del pronóstico.

NGR es una forma de incluir información de la dispersión por conjunto en la calibración de un pronóstico, al predecir la incertidumbre futura como una combinación ponderada de la incertidumbre estimada usando errores de pronóstico pasados, como en MOS, y la incertidumbre estimada usando la dispersión por conjunto. Las ponderaciones de las dos fuentes de información de incertidumbre se calibran utilizando pronósticos y observaciones pasadas en un intento de obtener una ponderación óptima.

Descripción general

Considere una serie de observaciones meteorológicas pasadas ${\ Displaystyle y_ {t}}$ durante un período de ${\ Displaystyle T}$ días (u otro intervalo de tiempo):

{\ Displaystyle y_ {t}, \ quad t = 1, \ ldots, T}

y una serie correspondiente de pronósticos de conjuntos pasados, caracterizados por la media muestral ${\ Displaystyle m_ {t}}$ y desviación estándar ${\ Displaystyle s_ {t}}$ del conjunto:

{\ Displaystyle (m_ {t}, s_ {t}), \ quad t = 1, \ ldots, T}

.

Considere también un nuevo pronóstico de conjunto del mismo sistema con media de conjunto ${\ Displaystyle M}$ y desviación estándar del conjunto ${\ Displaystyle S}$ , pensado como un pronóstico para una observación meteorológica futura desconocida ${\ Displaystyle Y}$ .

Una forma sencilla de calibrar los nuevos parámetros de salida de pronóstico de conjunto ${\ Displaystyle (M, S)}$ y producir un pronóstico calibrado para ${\ Displaystyle Y}$ es utilizar un modelo de regresión lineal simple basado en la media del conjunto ${\ Displaystyle M}$ , entrenado utilizando las observaciones meteorológicas pasadas y los pronósticos anteriores:

{\ Displaystyle y_ {t} \ sim N (\ alpha + \ beta m_ {t}, \ sigma ^ {2})}

Este modelo tiene el efecto de sesgo corrigiendo la media del conjunto y ajustando el nivel de variabilidad del pronóstico. Se puede aplicar al nuevo pronóstico de conjunto. ${\ Displaystyle (M, S)}$ para generar una previsión puntual para ${\ Displaystyle Y}$ utilizando

{\ Displaystyle {\ hat {Y}} {=} {\ hat {\ alpha}} + {\ hat {\ beta}} M}

o para obtener un pronóstico probabilístico para la distribución de posibles valores para ${\ Displaystyle Y}$ basado en la distribución normal con media ${\ displaystyle {\ hat {\ alpha}} + {\ hat {\ beta}} M}$ y varianza ${\ Displaystyle {\ hat {\ sigma}} ^ {2}}$ :

{\ Displaystyle {\ hat {Y}} \ sim N ({\ hat {\ alpha}} + {\ hat {\ beta}} M, {\ hat {\ sigma}} ^ {2})}

El uso de la regresión para calibrar los pronósticos meteorológicos de esta manera es un ejemplo de estadísticas de salida del modelo .

Sin embargo, este modelo de regresión lineal simple no usa la desviación estándar de conjunto ${\ Displaystyle S}$ y, por lo tanto, pierde cualquier información que la desviación estándar del conjunto pueda contener sobre la incertidumbre del pronóstico. El modelo NGR se introdujo como una forma de mejorar potencialmente la predicción de incertidumbre en el pronóstico de ${\ Displaystyle Y}$ incluyendo información extraída de la desviación estándar del conjunto. Lo logra generalizando el modelo de regresión lineal simple a:

{\ Displaystyle y_ {t} \ sim N (\ alpha + \ beta m_ {t}, \ sigma = \ gamma + \ delta s_ {t})}

^[1]

o

{\ Displaystyle y_ {t} \ sim N (\ alpha + \ beta m_ {t}, \ sigma ^ {2} = \ gamma + \ delta s_ {t} ^ {2})}

^[1]^[2]

Esto se puede utilizar para calibrar los nuevos parámetros de pronóstico de conjunto. ${\ Displaystyle (M, S)}$ usando cualquiera

{\ Displaystyle {\ hat {Y}} \ sim N ({\ hat {\ alpha}} + {\ hat {\ beta}} M, {\ hat {\ sigma}} = {\ hat {\ gamma}} + {\ hat {\ delta}} S)}

o

{\ Displaystyle {\ hat {Y}} \ sim N ({\ hat {\ alpha}} + {\ hat {\ beta}} M, {\ hat {\ sigma}} ^ {2} = {\ hat { \ gamma}} + {\ hat {\ delta}} S ^ {2})}

respectivamente. La incertidumbre de la predicción ahora viene dada por dos términos: el ${\ Displaystyle \ gamma}$ término es constante en el tiempo, mientras que el ${\ Displaystyle \ delta}$ el término varía a medida que varía la extensión del conjunto.

Estimación de parámetros

En la literatura científica los cuatro parámetros ${\ Displaystyle \ alpha, \ beta, \ gamma, \ delta}$ de NGR se han estimado por máxima verosimilitud ^[1] o por máximo CRPS. ^[2] También se han discutido los pros y los contras de estos dos enfoques. ^[7]

Historia

NGR fue desarrollado originalmente en el sector privado por científicos de Risk Management Solutions Ltd con el propósito de utilizar información en el conjunto de datos para la valoración de derivados climáticos. ^[1]

Terminología

Originalmente, NGR se denominó "regresión de dispersión" en lugar de NGR. ^[1] Sin embargo, los autores posteriores introdujeron primero los nombres alternativos Estadísticas de salida del modelo de conjunto (EMOS) ^[2] y luego NGR. ^[8] El nombre original 'regresión de dispersión' ha dejado de usarse, EMOS se usa para referirse generalmente a cualquier método usado para la calibración de conjuntos, y NGR se usa típicamente para referirse al método descrito en este artículo. ^[4]^[7]

Referencias

^ ^a ^b ^c ^d ^e ^f ^g Jewson, S .; Brix, A .; Ziehmann, C. (2004). "Un nuevo modelo paramétrico para la evaluación y calibración de pronósticos de temperatura de conjunto de rango medio" . Letras de ciencia atmosférica . 5 (5): 96–102. doi : 10.1002 / asl.69 .
^ ^a ^b ^c d Gneiting, T .; Raftery, A .; Westveld, A .; Goldman, T. (2005). "Pronóstico probabilístico calibrado utilizando estadísticas de salida del modelo de conjunto y estimación mínima de CRPS" . Revisión mensual del clima . 133 (5): 1098. doi : 10.1175 / MWR2904.1 .
^ "Calibración y combinación de predicciones de conjuntos" (PDF) . Laboratorio de Investigación del Sistema Terrestre de la NOAA . EE.UU .: Administración Nacional Oceánica y Atmosférica .
^ a b Thorarinsdottir, T .; Johnson, M. (2012). "Pronóstico probabilístico de ráfagas de viento mediante regresión gaussiana no homogénea". Revisión mensual del clima . 140 (3): 889–897. doi : 10.1175 / MWR-D-11-00075.1 .
^ Lalic, B .; Firany Sremac, A .; Dekic, L .; Eitzinger, J. (2017). "Pronóstico estacional de componentes de agua verde y rendimientos de cultivos de trigo de invierno en Serbia y Austria" . La Revista de Ciencias Agrícolas . 156 (5): 645–657. doi : 10.1017 / S0021859617000788 . PMC 6199547 . PMID 30369628 .
^ Scheuerer, M. (2013). "Pronóstico de precipitación cuantitativo probabilístico utilizando estadísticas de salida del modelo de conjunto". Revista trimestral de la Royal Meteorological Society . 140 (680): 1086–1096. arXiv : 1302.0893 . doi : 10.1002 / qj.2183 . S2CID 88512854 .
^ a b Gebetsberger, M .; Messner, J .; Mayr, G .; Zeileis, A. (2018). "Métodos de estimación para modelos de regresión no homogéneos: puntuación de probabilidad mínima continua clasificada frente a máxima verosimilitud" . Revisión mensual del clima . 146 (12): 4323–4338. doi : 10.1175 / MWR-D-17-0364.1 .
^ Wilks, DS (22 de agosto de 2006). "Comparación de métodos ensemble-MOS en la configuración de Lorenz '96". Aplicaciones meteorológicas . 13 (3): 243. doi : 10.1017 / s1350482706002192 . ISSN 1350-4827 .

[jewsonetal2004-1] ^ ^a ^b ^c ^d ^e ^f ^g Jewson, S .; Brix, A .; Ziehmann, C. (2004). "Un nuevo modelo paramétrico para la evaluación y calibración de pronósticos de temperatura de conjunto de rango medio" . Letras de ciencia atmosférica . 5 (5): 96–102. doi : 10.1002 / asl.69 .

[gneitingetal2005-2] Gneiting, T .; Raftery, A .; Westveld, A .; Goldman, T. (2005). "Pronóstico probabilístico calibrado utilizando estadísticas de salida del modelo de conjunto y estimación mínima de CRPS" . Revisión mensual del clima . 133 (5): 1098. doi : 10.1175 / MWR2904.1 .

[3] "Calibración y combinación de predicciones de conjuntos" (PDF) . Laboratorio de Investigación del Sistema Terrestre de la NOAA . EE.UU .: Administración Nacional Oceánica y Atmosférica .

[thorarinsdottirjohnson2012-4] Thorarinsdottir, T .; Johnson, M. (2012). "Pronóstico probabilístico de ráfagas de viento mediante regresión gaussiana no homogénea". Revisión mensual del clima . 140 (3): 889–897. doi : 10.1175 / MWR-D-11-00075.1 .

[lalicetal2017-5] Lalic, B .; Firany Sremac, A .; Dekic, L .; Eitzinger, J. (2017). "Pronóstico estacional de componentes de agua verde y rendimientos de cultivos de trigo de invierno en Serbia y Austria" . La Revista de Ciencias Agrícolas . 156 (5): 645–657. doi : 10.1017 / S0021859617000788 . PMC 6199547 . PMID 30369628 .

[scheuerer2013-6] Scheuerer, M. (2013). "Pronóstico de precipitación cuantitativo probabilístico utilizando estadísticas de salida del modelo de conjunto". Revista trimestral de la Royal Meteorological Society . 140 (680): 1086–1096. arXiv : 1302.0893 . doi : 10.1002 / qj.2183 . S2CID 88512854 .

[gebetsbergeretal2018-7] Gebetsberger, M .; Messner, J .; Mayr, G .; Zeileis, A. (2018). "Métodos de estimación para modelos de regresión no homogéneos: puntuación de probabilidad mínima continua clasificada frente a máxima verosimilitud" . Revisión mensual del clima . 146 (12): 4323–4338. doi : 10.1175 / MWR-D-17-0364.1 .

[8] Wilks, DS (22 de agosto de 2006). "Comparación de métodos ensemble-MOS en la configuración de Lorenz '96". Aplicaciones meteorológicas . 13 (3): 243. doi : 10.1017 / s1350482706002192 . ISSN 1350-4827 .

[1]