Intervalo de predicción

En la inferencia estadística , específicamente la inferencia predictiva , un intervalo de predicción es una estimación de un intervalo en el que caerá una observación futura, con una cierta probabilidad, dado lo que ya se ha observado. Los intervalos de predicción se utilizan a menudo en el análisis de regresión .

Los intervalos de predicción se utilizan tanto en la estadística frecuentista como en la estadística bayesiana : un intervalo de predicción tiene la misma relación con una observación futura que un intervalo de confianza frecuentista o un intervalo creíble bayesiano con un parámetro de población no observable: los intervalos de predicción predicen la distribución de puntos futuros individuales, mientras que Los intervalos de confianza y los intervalos creíbles de los parámetros predicen la distribución de las estimaciones de la media poblacional real u otra cantidad de interés que no se puede observar.

Introducción

Por ejemplo, si se hace la suposición paramétrica de que la distribución subyacente es una distribución normal y tiene un conjunto de muestra { X ₁ , ..., X _n }, entonces se pueden usar intervalos de confianza e intervalos creíbles para estimar la media poblacional μ y la desviación estándar de la población σ de la población subyacente, mientras que los intervalos de predicción pueden usarse para estimar el valor de la siguiente variable de muestra, X _{n +1} .

Alternativamente, en términos bayesianos , un intervalo de predicción puede describirse como un intervalo creíble para la propia variable, en lugar de como un parámetro de la distribución de la misma.

El concepto de intervalos de predicción no tiene por qué limitarse a la inferencia sobre un único valor de muestra futuro, sino que puede extenderse a casos más complicados. Por ejemplo, en el contexto de las inundaciones de los ríos, donde los análisis a menudo se basan en valores anuales del mayor caudal dentro del año, puede haber interés en hacer inferencias sobre la mayor inundación que probablemente se experimente en los próximos 50 años.

Dado que los intervalos de predicción solo se refieren a observaciones pasadas y futuras, en lugar de parámetros de población no observables, algunos estadísticos, como Seymour Geisser , los recomiendan como un método mejor que los intervalos de confianza , ^{[ cita requerida ]} siguiendo el enfoque en observables de Bruno de Finetti . ^{[ cita requerida ]}

Distribución normal

Dada una muestra de una distribución normal , cuyos parámetros se desconocen, es posible dar intervalos de predicción en el sentido frecuentista, es decir, un intervalo [ a , b ] basado en estadísticas de la muestra tal que en experimentos repetidos, X _{n +1} cae en el intervalo el porcentaje deseado del tiempo; uno puede llamar a estos " intervalos de confianza predictivos ". ^[1]

Una técnica general de intervalos de predicción frecuentista es encontrar y calcular una cantidad fundamental de los observables X ₁ , ..., X _n , X _{n +1} , es decir, una función de observables y parámetros cuya distribución de probabilidad no depende de los parámetros. que se puede invertir para dar una probabilidad de que la observación futura X _{n +1} caiga en algún intervalo calculado en términos de los valores observados hasta el momento, ${\ Displaystyle X_ {1}, \ dots, X_ {n}.}$ Esta cantidad fundamental, que depende únicamente de los observables, se denomina estadística auxiliar . ^[2] El método habitual de construir cantidades fundamentales es tomar la diferencia de dos variables que dependen de la ubicación, de modo que la ubicación se cancele, y luego tomar la razón de dos variables que dependen de la escala, de modo que la escala se cancele. La cantidad fundamental más conocida es el estadístico t de Student , que se puede derivar mediante este método y se utiliza en la secuela.

Media conocida, varianza conocida

Un intervalo de predicción [ ℓ , u ] para una observación futura X en una distribución normal N ( µ , σ ² ) con media y varianza conocidas se puede calcular a partir de

{\ Displaystyle \ gamma = P (\ ell

dónde ${\ Displaystyle Z = {\ frac {X- \ mu} {\ sigma}}}$ , la puntuación estándar de X , se distribuye como normal estándar.

Por eso

{\ Displaystyle {\ frac {\ ell - \ mu} {\ sigma}} = - z, \ quad {\ frac {u- \ mu} {\ sigma}} = z,}

o

{\ Displaystyle \ ell = \ mu -z \ sigma, \ quad u = \ mu + z \ sigma,}

con z el cuantil en la distribución normal estándar para el cual:

{\ Displaystyle \ gamma = P (-z

o equivalente;

{\ displaystyle {\ tfrac {1} {2}} (1- \ gamma) = P (Z> z).}

Intervalo de predicción	z
75%	1,15 ^[3]
90%	1,64 ^[3]
95%	1,96 ^[3]
99%	2.58 ^[3]

Intervalo de predicción (en el eje y ) dado a partir de z (el cuantil de la puntuación estándar , en el eje x ). El eje y está comprimido logarítmicamente (pero los valores que contiene no se modifican).

El intervalo de predicción se escribe convencionalmente como:

{\ Displaystyle \ left [\ mu -z \ sigma, \ \ mu + z \ sigma \ right].}

Por ejemplo, para calcular el intervalo de predicción del 95% para una distribución normal con una media ( µ ) de 5 y una desviación estándar ( σ ) de 1, entonces z es aproximadamente 2. Por lo tanto, el límite inferior del intervalo de predicción es aproximadamente 5 - (2 · 1) = 3, y el límite superior es aproximadamente 5 + (2 · 1) = 7, lo que da un intervalo de predicción de aproximadamente 3 a 7.

Diagrama que muestra la función de distribución acumulada para la distribución normal con media ( µ ) 0 y varianza ( σ ² ) 1. Además de la función de cuantiles , el intervalo de predicción para cualquier puntuación estándar se puede calcular mediante (1 - (1 - Φ _{µ , σ ²} (puntuación estándar)) · 2). Por ejemplo, una puntuación estándar de x = 1,96 da Φ _{µ , σ ²} (1,96) = 0,9750 correspondiente a un intervalo de predicción de (1 - (1 - 0,9750) · 2) = 0,9500 = 95%.

Estimación de parámetros

Para una distribución con parámetros desconocidos, un enfoque directo para la predicción es estimar los parámetros y luego usar la función cuantílica asociada; por ejemplo, se podría usar la media muestral ${\ Displaystyle {\ overline {X}}}$ como estimación para μ y la varianza muestral s ² como estimación para σ ² . Tenga en cuenta que aquí hay dos opciones naturales para s ² : dividir por ${\ Displaystyle (n-1)}$ produce una estimación insesgada, mientras que dividir por n da como resultado el estimador de máxima verosimilitud , y se puede utilizar cualquiera de ellos. Luego se usa la función de cuantiles con estos parámetros estimados ${\ Displaystyle \ Phi _ {{\ overline {X}}, s ^ {2}} ^ {- 1}}$ para dar un intervalo de predicción.

Este enfoque es utilizable, pero el intervalo resultante no tendrá la interpretación de muestreo repetido ^[4] ; no es un intervalo de confianza predictivo.

Para la secuela, use la media de la muestra:

{\ Displaystyle {\ overline {X}} = {\ overline {X}} _ {n} = (X_ {1} + \ cdots + X_ {n}) / n}

y la varianza de la muestra (insesgada):

{\ Displaystyle s ^ {2} = s_ {n} ^ {2} = {1 \ over n-1} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X} } _ {n}) ^ {2}.}

Media desconocida, varianza conocida

Dada ^[5] una distribución normal con media desconocida μ pero varianza conocida 1, la media de la muestra ${\ Displaystyle {\ overline {X}}}$ de las observaciones ${\ Displaystyle X_ {1}, \ dots, X_ {n}}$ tiene distribución ${\ Displaystyle N (\ mu, 1 / n),}$ mientras que la futura observación ${\ Displaystyle X_ {n + 1}}$ tiene distribución ${\ Displaystyle N (\ mu, 1).}$ Al tomar la diferencia de estos, se cancela μ y se obtiene una distribución normal de la varianza. ${\ Displaystyle 1+ (1 / n),}$ por lo tanto

{\ Displaystyle {\ frac {X_ {n + 1} - {\ overline {X}}} {\ sqrt {1+ (1 / n)}}} \ sim N (0,1).}

Resolviendo para ${\ Displaystyle X_ {n + 1}}$ da la distribución de predicción ${\ Displaystyle N ({\ overline {X}}, 1+ (1 / n)),}$ a partir de los cuales se pueden calcular los intervalos como antes. Este es un intervalo de confianza predictivo en el sentido de que si se usa un rango de cuantiles de 100 p %, en aplicaciones repetidas de este cálculo, la observación futura ${\ Displaystyle X_ {n + 1}}$ caerá en el intervalo previsto el 100 p % del tiempo.

Observe que esta distribución de predicción es más conservadora que usar la media estimada ${\ Displaystyle {\ overline {X}}}$ y varianza conocida 1, ya que usa varianza ${\ Displaystyle 1+ (1 / n)}$ , por lo tanto, produce intervalos más amplios. Esto es necesario para que se mantenga la propiedad de intervalo de confianza deseada.

Media conocida, varianza desconocida

Por el contrario, dada una distribución normal con media conocida 0 pero varianza desconocida ${\ Displaystyle \ sigma ^ {2}}$ , la varianza de la muestra ${\ Displaystyle s ^ {2}}$ de las observaciones ${\ Displaystyle X_ {1}, \ dots, X_ {n}}$ tiene, a escala, un ${\ Displaystyle \ scriptstyle \ chi _ {n-1} ^ {2}}$ distribución ; más precisamente:

{\ Displaystyle {\ frac {(n-1) s_ {n} ^ {2}} {\ sigma ^ {2}}} \ sim \ chi _ {n-1} ^ {2}.}

mientras que la futura observación ${\ Displaystyle X_ {n + 1}}$ tiene distribución ${\ Displaystyle N (0, \ sigma ^ {2}).}$ Al tomar la razón de la observación futura y la desviación estándar de la muestra ^{[se necesita aclaración ], se} cancela σ, lo que produce una distribución t de Student con n - 1 grados de libertad :

{\ Displaystyle {\ frac {X_ {n + 1}} {s}} \ sim T ^ {n-1}.}

Resolviendo para ${\ Displaystyle X_ {n + 1}}$ da la distribución de predicción ${\ Displaystyle sT ^ {n-1},}$ a partir de los cuales se pueden calcular los intervalos como antes.

Observe que esta distribución de predicción es más conservadora que usar una distribución normal con la desviación estándar estimada ${\ Displaystyle s}$ y la media conocida 0, ya que utiliza la distribución t en lugar de la distribución normal, por lo que produce intervalos más amplios. Esto es necesario para que se mantenga la propiedad de intervalo de confianza deseada.

Media desconocida, varianza desconocida

Combinando lo anterior para una distribución normal ${\ Displaystyle N (\ mu, \ sigma ^ {2})}$ con μ y σ ² desconocidos produce la siguiente estadística auxiliar: ^[6]

{\ Displaystyle {\ frac {X_ {n + 1} - {\ overline {X}} _ {n}} {s_ {n} {\ sqrt {1 + 1 / n}}}} \ sim T ^ {n -1}.}

Esta simple combinación es posible porque la media muestral y la varianza muestral de la distribución normal son estadísticas independientes; esto solo es cierto para la distribución normal y, de hecho, caracteriza a la distribución normal.

Resolviendo para ${\ Displaystyle X_ {n + 1}}$ produce la distribución de predicción

{\ Displaystyle {\ overline {X}} _ {n} + s_ {n} {\ sqrt {1 + 1 / n}} \ cdot T ^ {n-1}.}

La probabilidad de ${\ Displaystyle X_ {n + 1}}$ caer en un intervalo dado es entonces:

{\ Displaystyle \ Pr \ left ({\ overline {X}} _ {n} -T_ {a} s_ {n} {\ sqrt {1+ (1 / n)}} \ leq X_ {n + 1} \ leq {\ overline {X}} _ {n} + T_ {a} s_ {n} {\ sqrt {1+ (1 / n)}} \, \ right) = p}

donde T _una es el 100 (1 - p / 2) ^º percentil de la distribución t de Student con n - 1 grados de libertad. Por lo tanto, los números

{\ Displaystyle {\ overline {X}} _ {n} \ pm T_ {a} s_ {n} {\ sqrt {1+ (1 / n)}}}

son los puntos finales de un intervalo de predicción del 100 (1 - p )% para ${\ Displaystyle X_ {n + 1}}$ .

Métodos no paramétricos

Se pueden calcular intervalos de predicción sin ningún supuesto sobre la población; formalmente, este es un método no paramétrico . ^[7] Si uno tiene una muestra de variables aleatorias idénticas { X ₁ , ..., X _n }, entonces la probabilidad de que la siguiente observación X _{n +1} sea la más grande es 1 / ( n + 1), ya que todos las observaciones tienen la misma probabilidad de ser el máximo. De la misma forma, la probabilidad de que X _{n +1} sea la menor es 1 / ( n + 1). El otro ( n - 1) / ( n + 1) del tiempo, X _{n +1} cae entre el máximo de muestra y el mínimo de muestra de la muestra { X ₁ , ..., X _n }. Por lo tanto, al denotar el máximo y mínimo de la muestra por M y m, esto produce un intervalo de predicción ( n - 1) / ( n + 1) de [ m , M ].

Tenga en cuenta que si bien esto da la probabilidad de que una observación futura caiga dentro de un rango, no da ninguna estimación de en qué parte de un segmento caerá; en particular, si cae fuera del rango de valores observados, puede estar muy por fuera. el rango. Consulte la teoría del valor extremo para obtener más información. Formalmente, esto se aplica no solo al muestreo de una población, sino a cualquier secuencia intercambiable de variables aleatorias, no necesariamente independientes o distribuidas de manera idéntica .

Contraste con otros intervalos

Contraste con los intervalos de confianza

Tenga en cuenta que en la fórmula para el intervalo de confianza predictivo no se mencionan los parámetros no observables μ y σ de la media poblacional y la desviación estándar: las estadísticas de la muestra observada ${\ Displaystyle {\ overline {X}} _ {n}}$ y ${\ Displaystyle S_ {n}}$ de la media muestral y la desviación estándar, y lo que se estima es el resultado de muestras futuras .

En lugar de utilizar estadísticas de muestra como estimadores de parámetros de población y aplicar intervalos de confianza a estas estimaciones, se considera "la siguiente muestra" ${\ Displaystyle X_ {n + 1}}$ como una estadística en sí misma , y calcula su distribución muestral .

En los intervalos de confianza de los parámetros, se estiman los parámetros de la población; si se desea interpretar esto como una predicción de la siguiente muestra, se modela "la siguiente muestra" como una extracción de esta población estimada, utilizando la distribución de población (estimada) . Por el contrario, en los intervalos de confianza predictivos, se usa la distribución muestral de (una estadística de) una muestra de n o n + 1 observaciones de dicha población, y la distribución de la población no se usa directamente, aunque la suposición sobre su forma (aunque no los valores de sus parámetros) se utiliza para calcular la distribución muestral.

Contraste con los intervalos de tolerancia

Aplicaciones

Los intervalos de predicción se usan comúnmente como definiciones de rangos de referencia , como rangos de referencia para análisis de sangre para dar una idea de si un análisis de sangre es normal o no. Para este propósito, el intervalo de predicción más comúnmente utilizado es el intervalo de predicción del 95%, y un rango de referencia basado en él se puede llamar rango de referencia estándar .

Análisis de regresión

Una aplicación común de los intervalos de predicción es el análisis de regresión .

Suponga que los datos se modelan mediante una regresión en línea recta:

{\ Displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i} \,}

dónde ${\ Displaystyle y_ {i}}$ es la variable de respuesta , ${\ Displaystyle x_ {i}}$ es la variable explicativa , ε _i es un término de error aleatorio, y ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ beta}$ son parámetros.

Estimaciones dadas ${\ Displaystyle {\ hat {\ alpha}}}$ y ${\ Displaystyle {\ hat {\ beta}}}$ para los parámetros, como el de una regresión lineal simple , el valor de respuesta pronosticado y _d para un valor explicativo dado x _d es

{\ displaystyle {\ hat {y}} _ {d} = {\ hat {\ alpha}} + {\ hat {\ beta}} x_ {d},}

(el punto en la línea de regresión), mientras que la respuesta real sería

{\ Displaystyle y_ {d} = \ alpha + \ beta x_ {d} + \ varepsilon _ {d}. \,}

La estimación puntual ${\ Displaystyle {\ hat {y}} _ {d}}$ se llama respuesta media y es una estimación del valor esperado de y _d , ${\ Displaystyle E (y \ mid x_ {d}).}$

En cambio, un intervalo de predicción da un intervalo en el que se espera que y _d caiga; esto no es necesario si se conocen los parámetros reales α y β (junto con el término de error ε _i ), pero si se está estimando a partir de una muestra , entonces se puede usar el error estándar de las estimaciones para la intersección y la pendiente ( ${\ Displaystyle {\ hat {\ alpha}}}$ y ${\ Displaystyle {\ hat {\ beta}}}$ ), así como su correlación, para calcular un intervalo de predicción.

En regresión, Faraway (2002 , p. 39) hace una distinción entre intervalos para predicciones de la respuesta media vs. para predicciones de respuesta observada - afectando esencialmente la inclusión o no del término unitario dentro de la raíz cuadrada en los factores de expansión anteriores; para más detalles, consulte Faraway (2002) .

Estadísticas bayesianas

Seymour Geisser , un defensor de la inferencia predictiva, ofrece aplicaciones predictivas de la estadística bayesiana . ^[8]

En la estadística bayesiana, se pueden calcular intervalos de predicción (bayesianos) a partir de la probabilidad posterior de la variable aleatoria, como un intervalo creíble . En el trabajo teórico, los intervalos creíbles no se calculan a menudo para la predicción de eventos futuros, sino para la inferencia de parámetros, es decir, intervalos creíbles de un parámetro, no para los resultados de la variable en sí. Sin embargo, particularmente cuando las aplicaciones se refieren a posibles valores extremos de casos aún por observar, los intervalos creíbles para tales valores pueden ser de importancia práctica.

Ver también

Extrapolación
Probabilidad posterior
Predicción
Banda de predicción
Seymour Geisser
Validación del modelo estadístico
Estimación de tendencias

Notas

^ Geisser (1993 , p. 6 ): Capítulo 2: Enfoques predictivos no bayesianos
^ Geisser (1993 , p. 7 )
^ a b c d Tabla A2 en Sterne y Kirkwood (2003 , p. 472)
^ Geisser (1993 , págs. 8–9 )
^ Geisser (1993 , p. 7– )
^ Geisser (1993 , ejemplo 2.2, p. 9-10 )
^ " Intervalos de predicción ", Estadísticas @ SUNY Oswego
^ Geisser (1993)

Referencias

Faraway, Julian J. (2002), Practical Regression y Anova usando R (PDF)
Geisser, Seymour (1993), Inferencia predictiva , CRC Press
Sterne, Jonathan; Kirkwood, Betty R. (2003), Estadísticas médicas esenciales , Blackwell Science , ISBN 0-86542-871-9

Otras lecturas

Chatfield, C. (1993). "Cálculo de pronósticos de intervalo". Revista de Estadísticas Económicas y Empresariales . 11 (2): 121-135. doi : 10.2307 / 1391361 .
Lawless, JF; Fredette, M. (2005). "Intervalos de predicción frecuentista y distribuciones predictivas" . Biometrika . 92 (3): 529–542. doi : 10.1093 / biomet / 92.3.529 .
Meade, N .; Islam, T. (1995). "Intervalos de predicción para las previsiones de la curva de crecimiento". Journal of Forecasting . 14 (5): 413–430. doi : 10.1002 / para.3980140502 .
ISO 16269-8 Interpretación estándar de datos, Parte 8, Determinación de intervalos de predicción

[1] Geisser (1993 , p. 6 ): Capítulo 2: Enfoques predictivos no bayesianos

[2] Geisser (1993 , p. 7 )

[MedicalStatisticsA2-3] Tabla A2 en Sterne y Kirkwood (2003 , p. 472)

[4] Geisser (1993 , págs. 8–9 )

[5] Geisser (1993 , p. 7– )

[6] Geisser (1993 , ejemplo 2.2, p. 9-10 )

[7] " Intervalos de predicción ", Estadísticas @ SUNY Oswego

[8] Geisser (1993)

[1]