Criterio de información bayesiano

Estadísticas bayesianas
Parte de una serie sobre

Teoría
Regla de decisión admisible Eficiencia bayesiana Epistemología bayesiana Probabilidad bayesiana Interpretaciones de probabilidad Teorema de Bayes Factor de Bayes Inferencia bayesiana Red bayesiana Previo Posterior Probabilidad Conjugado previo Predictivo posterior Hiperparámetro Hyperprior Principio de indiferencia Principio de máxima entropía Método empírico de Bayes La regla de Cromwell Teorema de Bernstein-von Mises Criterio de Schwarz Intervalo creíble Estimación máxima a posteriori Probabilismo radical
Técnicas
Regresión lineal bayesiana Estimador bayesiano Cálculo bayesiano aproximado Cadena de Markov Monte Carlo
Portal de matemáticas
v t mi

En estadística , el criterio de información bayesiano ( BIC ) o el criterio de información de Schwarz (también SIC , SBC , SBIC ) es un criterio para la selección de modelos entre un conjunto finito de modelos; Por lo general, se prefieren los modelos con un BIC más bajo. Se basa, en parte, en la función de probabilidad y está estrechamente relacionado con el criterio de información de Akaike (AIC).

Al ajustar modelos, es posible aumentar la probabilidad agregando parámetros, pero hacerlo puede resultar en un sobreajuste . Tanto BIC como AIC intentan resolver este problema introduciendo un término de penalización para el número de parámetros en el modelo; el plazo de penalización es mayor en BIC que en AIC.

El BIC fue desarrollado por Gideon E. Schwarz y publicado en un artículo de 1978, ^[1] donde dio un argumento bayesiano para adoptarlo.

Definición

El BIC se define formalmente como ^[2]^[a]

\mathrm {BIC} =k\ln(n)-2\ln({\widehat {L}}).\

dónde

${\hat {L}}$ = el valor maximizado de la función de verosimilitud del modelo , es decir , dónde están los valores de los parámetros que maximizan la función de verosimilitud; $M$ ${\hat {L}}=p(x\mid {\widehat {\theta }},M)$ ${\widehat {\theta }}$
$x$ = los datos observados;
$n$ = el número de puntos de datos , el número de observaciones o, de manera equivalente, el tamaño de la muestra; $x$
$k$ = el número de parámetros estimados por el modelo. Por ejemplo, en la regresión lineal múltiple , los parámetros estimados son la intersección, los parámetros de pendiente y la varianza constante de los errores; Por lo tanto, . $q$ $k=q+2$

Konishi y Kitagawa ^[4]^{: 217} derivan el BIC para aproximar la distribución de los datos, integrando los parámetros utilizando el método de Laplace , comenzando con la siguiente evidencia del modelo :

p(x\mid M)=\int p(x\mid \theta ,M)\pi (\theta \mid M)\,d\theta

donde es el anterior para el modelo inferior . $\pi (\theta \mid M)$ $\theta$ $M$

El diario de probabilidad, , entonces se expandió a un segundo orden en serie de Taylor alrededor de la MLE , , asumiendo que es diferenciable dos veces como sigue: $\ln(p(x|\theta ,M))$ ${\widehat {\theta }}$

\ln(p(x\mid \theta ,M))=\ln({\widehat {L}})-0.5(\theta -{\widehat {\theta }})'n{\mathcal {I}}(\theta )(\theta -{\widehat {\theta }})+R(x,\theta ),

donde es la información media observada por observación , y prime ( ) denota la transposición del vector . En la medida en que sea insignificante y relativamente lineal cerca , podemos integrar para obtener lo siguiente: ${\mathcal {I}}(\theta )$ $'$ $(\theta -{\widehat {\theta }})$ $R(x,\theta )$ $\pi (\theta \mid M)$ ${\widehat {\theta }}$ $\theta$

p(x\mid M)\approx {\hat {L}}(2\pi /n)^{k/2}|{\mathcal {I}}({\widehat {\theta }})|^{-1/2}\pi ({\widehat {\theta }})

A medida que aumenta, podemos ignorar y como son . Por lo tanto, $n$ $|{\mathcal {I}}({\widehat {\theta }})|$ $\pi ({\widehat {\theta }})$ O ( 1 ) {\displaystyle O(1)}

p(x\mid M)=\exp\{\ln {\widehat {L}}-(k/2)\ln(n)+O(1)\}=\exp(-\mathrm {BIC} /2+O(1)),

donde BIC se define como anteriormente, y (a) es el modo posterior bayesiano o (b) usa el MLE y el anterior tiene una pendiente distinta de cero en el MLE. Entonces el posterior ${\widehat {L}}$ $\pi (\theta \mid M)$

p(M\mid x)\propto p(x\mid M)p(M)\approx \exp(-\mathrm {BIC} /2)p(M)

Uso

Al elegir entre varios modelos, generalmente se prefieren los que tienen valores BIC más bajos. El BIC es una función creciente de la varianza del error y una función creciente de k . Es decir, la variación inexplicable en la variable dependiente y el número de variables explicativas aumentan el valor de BIC. Sin embargo, un BIC más bajo no necesariamente indica que un modelo sea mejor que otro. Debido a que implica aproximaciones, el BIC es simplemente una heurística. En particular, las diferencias en BIC nunca deben tratarse como factores de Bayes transformados. $\sigma _{e}^{2}$

Es importante tener en cuenta que el BIC se puede utilizar para comparar modelos estimados solo cuando los valores numéricos de la variable dependiente ^[b] son idénticos para todos los modelos que se comparan. Los modelos que se comparan no necesitan estar anidados , a diferencia del caso en el que los modelos se comparan mediante una prueba F o una prueba de razón de verosimilitud . ^{[ cita requerida ]}

Propiedades

Esta sección necesita citas adicionales para su verificación . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado. ( Noviembre de 2011 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

El BIC generalmente penaliza los parámetros libres con más fuerza que el criterio de información de Akaike , aunque depende del tamaño de ny de la magnitud relativa de n y k .
Es independiente del prior.
Puede medir la eficiencia del modelo parametrizado en términos de predecir los datos.
Penaliza la complejidad del modelo donde la complejidad se refiere al número de parámetros en el modelo.
Es aproximadamente igual al criterio de longitud mínima de descripción pero con signo negativo.
Se puede utilizar para elegir el número de clústeres de acuerdo con la complejidad intrínseca presente en un conjunto de datos en particular.
Está estrechamente relacionado con otros criterios de probabilidad penalizados, como el criterio de información de Desviación y el criterio de información de Akaike .

Limitaciones

El BIC adolece de dos limitaciones principales ^[5]

la aproximación anterior solo es válida para un tamaño de muestra mucho mayor que el número de parámetros del modelo. $n$ $k$
el BIC no puede manejar colecciones complejas de modelos como en el problema de selección de variables (o selección de características ) en alta dimensión. ^[5]

Caso especial gaussiano

Bajo el supuesto de que los errores o perturbaciones del modelo son independientes e idénticamente distribuidos de acuerdo con una distribución normal y que la condición de límite de que la derivada de la probabilidad logarítmica con respecto a la varianza verdadera es cero, esto se convierte en ( hasta una constante aditiva , que depende solo de ny no del modelo): ^[6]

\mathrm {BIC} =n\ln({\widehat {\sigma _{e}^{2}}})+k\ln(n)\

donde es la varianza del error. La varianza del error en este caso se define como ${\widehat {\sigma _{e}^{2}}}$

{\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\widehat {x_{i}}})^{2}.

que es un estimador sesgado de la verdadera varianza .

En términos de la suma de cuadrados residual (RSS), el BIC es

\mathrm {BIC} =n\ln(RSS/n)+k\ln(n)\

Al probar varios modelos lineales contra un modelo saturado, el BIC se puede reescribir en términos de la desviación como: ^[7] $\chi ^{2}$

\mathrm {BIC} =\chi ^{2}+k\ln(n)

donde es el número de parámetros del modelo en la prueba. $k$

Ver también

Criterio de información de Akaike
Factor de Bayes
Comparación del modelo bayesiano
Criterio de información de desviación
Criterio de información de Hannan-Quinn
Divergencia Jensen-Shannon
Divergencia de Kullback-Leibler
Longitud mínima del mensaje

Notas

^ Los AIC, AICc y BIC definidos por Claeskens y Hjort^[3] son los negativos de los definidos en este artículo y en la mayoría de las otras referencias estándar.
^ Una variable dependiente también se denomina variable de respuesta o variable de resultado . Consulte Análisis de regresión .

Referencias

^ Schwarz, Gideon E. (1978), "Estimación de la dimensión de un modelo", Annals of Statistics , 6 (2): 461–464, doi : 10.1214 / aos / 1176344136 , MR 0468014.
^ Ingenio, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). " ' Todos los modelos son incorrectos ...': una introducción a la incertidumbre del modelo" (PDF) . Statistica Neerlandica . 66 (3): 217-236. doi : 10.1111 / j.1467-9574.2012.00530.x .
^ Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedios de modelos , Cambridge University Press
^ Konishi, Sadanori; Kitagawa, Genshiro (2008). Criterios de información y modelización estadística . Saltador. ISBN 978-0-387-71886-6.
↑ a b Giraud, C. (2015). Introducción a la estadística de alta dimensión . Chapman y Hall / CRC. ISBN 9781482237948.
^ Priestley, MB (1981). Análisis espectral y series de tiempo . Prensa académica . ISBN 978-0-12-564922-3. (pág.375).
^ Kass, Robert E .; Raftery, Adrian E. (1995), "Bayes Factors", Journal of the American Statistical Association , 90 (430): 773–795, doi : 10.2307 / 2291091 , ISSN 0162-1459 , JSTOR 2291091 .

Otras lecturas

Bhat, HS; Kumar, N (2010). "Sobre la derivación del criterio de información bayesiano" (PDF) . Archivado desde el original (PDF) el 28 de marzo de 2012. Cite journal requiere |journal=( ayuda )
Findley, DF (1991). "Contraejemplos a la parsimonia y BIC". Anales del Instituto de Matemática Estadística . 43 (3): 505–514. doi : 10.1007 / BF00053369 .
Kass, RE; Wasserman, L. (1995). "Una prueba bayesiana de referencia para hipótesis anidadas y su relación con el criterio de Schwarz". Revista de la Asociación Estadounidense de Estadística . 90 (431): 928–934. doi : 10.2307 / 2291327 . JSTOR 2291327 .
Liddle, AR (2007). "Criterios de información para la selección del modelo astrofísico". Avisos mensuales de la Royal Astronomical Society . 377 (1): L74 – L78. arXiv : astro-ph / 0701113 . Código bibliográfico : 2007MNRAS.377L..74L . doi : 10.1111 / j.1745-3933.2007.00306.x .
McQuarrie, ADR; Tsai, C.-L. (1998). Selección de modelos de regresión y series temporales . World Scientific .

enlaces externos

Criterios de información y selección de modelos
Modelado autorregresivo de vector disperso

[4] Los AIC, AICc y BIC definidos por Claeskens y Hjort^[3] son los negativos de los definidos en este artículo y en la mayoría de las otras referencias estándar.

[6] Una variable dependiente también se denomina variable de respuesta o variable de resultado . Consulte Análisis de regresión .

[1] Schwarz, Gideon E. (1978), "Estimación de la dimensión de un modelo", Annals of Statistics , 6 (2): 461–464, doi : 10.1214 / aos / 1176344136 , MR 0468014.

[2] Ingenio, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). " ' Todos los modelos son incorrectos ...': una introducción a la incertidumbre del modelo" (PDF) . Statistica Neerlandica . 66 (3): 217-236. doi : 10.1111 / j.1467-9574.2012.00530.x .

[3] Claeskens, G .; Hjort, NL (2008), Selección de modelos y promedios de modelos , Cambridge University Press

[5] Konishi, Sadanori; Kitagawa, Genshiro (2008). Criterios de información y modelización estadística . Saltador. ISBN 978-0-387-71886-6.

[Giraud-7] Giraud, C. (2015). Introducción a la estadística de alta dimensión . Chapman y Hall / CRC. ISBN 9781482237948.

[Priestley-8] Priestley, MB (1981). Análisis espectral y series de tiempo . Prensa académica . ISBN 978-0-12-564922-3. (pág.375).

[Raftery1995-9] Kass, Robert E .; Raftery, Adrian E. (1995), "Bayes Factors", Journal of the American Statistical Association , 90 (430): 773–795, doi : 10.2307 / 2291091 , ISSN 0162-1459 , JSTOR 2291091 .

[1]