Criterio de información de desviación

El criterio de información de desviación ( DIC ) es una generalización de modelado jerárquico del criterio de información de Akaike (AIC). Es particularmente útil en problemas de selección de modelos bayesianos donde las distribuciones posteriores de los modelos se han obtenido mediante simulación de la cadena de Markov Monte Carlo (MCMC). DIC es una aproximación asintótica a medida que el tamaño de la muestra aumenta, como AIC. Solo es válido cuando la distribución posterior es aproximadamente normal multivariante .

Definición

Defina la desviación como ${\ Displaystyle D (\ theta) = - 2 \ log (p (y | \ theta)) + C \,}$ , dónde ${\ Displaystyle y}$ son los datos, ${\ Displaystyle \ theta}$ son los parámetros desconocidos del modelo y ${\ Displaystyle p (y | \ theta)}$ es la función de verosimilitud . ${\ Displaystyle C}$ es una constante que se anula en todos los cálculos que comparan diferentes modelos y que, por tanto, no necesita ser conocida.

Hay dos cálculos de uso común para el número efectivo de parámetros del modelo. El primero, como se describe en Spiegelhalter et al. (2002 , p. 587), es ${\ Displaystyle p_ {D} = {\ overline {D (\ theta)}} - D ({\ bar {\ theta}})}$ , dónde ${\ Displaystyle {\ bar {\ theta}}}$ es la expectativa de ${\ Displaystyle \ theta}$ . El segundo, como se describe en Gelman et al. (2004 , p. 182), es ${\ Displaystyle p_ {D} = p_ {V} = {\ frac {1} {2}} {\ overline {\ operatorname {var} \ left (D (\ theta) \ right)}}}$ . Cuanto mayor sea el número efectivo de parámetros, más fácil será para el modelo ajustar los datos, por lo que la desviación debe ser penalizada.

El criterio de información de desviación se calcula como

{\ Displaystyle \ mathrm {DIC} = p_ {D} + {\ overline {D (\ theta)}},}

o equivalentemente como

{\ Displaystyle \ mathrm {DIC} = D ({\ bar {\ theta}}) + 2p_ {D}.}

A partir de esta última forma, la conexión con AIC es más evidente.

Motivación

La idea es que los modelos con DIC más pequeños deberían preferirse a los modelos con DIC más grandes. Los modelos están penalizados tanto por el valor de ${\ displaystyle {\ bar {D}}}$ , que favorece un buen ajuste, pero también (similar al AIC) por el número efectivo de parámetros ${\ Displaystyle p_ {D}}$ . Desde ${\ displaystyle {\ bar {D}}}$ disminuirá a medida que aumenta el número de parámetros en un modelo, el ${\ Displaystyle p_ {D}}$ term compensa este efecto favoreciendo modelos con un número menor de parámetros.

Una ventaja de DIC sobre otros criterios en el caso de la selección del modelo bayesiano es que el DIC se calcula fácilmente a partir de las muestras generadas por una simulación de Monte Carlo de la cadena de Markov. AIC requiere calcular la probabilidad en su máximo sobre ${\ Displaystyle \ theta}$ , que no está disponible en la simulación de MCMC. Pero para calcular DIC, simplemente calcule ${\ displaystyle {\ bar {D}}}$ como el promedio de ${\ Displaystyle D (\ theta)}$ sobre las muestras de ${\ Displaystyle \ theta}$ , y ${\ Displaystyle D ({\ bar {\ theta}})}$ como el valor de ${\ Displaystyle D}$ evaluado en el promedio de las muestras de ${\ Displaystyle \ theta}$ . Entonces el DIC se sigue directamente de estas aproximaciones. Claeskens y Hjort (2008, cap. 3.5) muestran que el DIC es equivalente en una muestra grande a la versión robusta del modelo natural del AIC.

Supuestos

En la derivación de DIC, se supone que la familia paramétrica especificada de distribuciones de probabilidad que generan observaciones futuras abarca el modelo verdadero. Esta suposición no siempre se cumple, y es deseable considerar los procedimientos de evaluación del modelo en ese escenario.

Además, los datos observados se utilizan tanto para construir la distribución posterior como para evaluar los modelos estimados. Por lo tanto, DIC tiende a seleccionar modelos sobreajustados .

Extensiones

Ando (2007) sugirió una resolución a los problemas anteriores , con la propuesta del criterio de información predictiva bayesiana (BPIC). Ando (2010, cap. 8) proporcionó una discusión de varios criterios de selección del modelo bayesiano. Para evitar los problemas de sobreajuste de DIC, Ando (2011) desarrolló criterios de selección del modelo bayesiano desde un punto de vista predictivo. El criterio se calcula como

{\ Displaystyle {\ mathit {IC}} = {\ bar {D}} + 2p_ {D} = - 2 \ mathbf {E} ^ {\ theta} [\ log (p (y | \ theta))] + 2p_ {D}.}

El primer término es una medida de qué tan bien el modelo se ajusta a los datos, mientras que el segundo término es una penalización en la complejidad del modelo. Tenga en cuenta que la $p$ en esta expresión es la distribución predictiva en lugar de la probabilidad anterior.

Ver también

Referencias

Ando, Tomohiro (2007). "Criterio de información predictiva bayesiana para la evaluación de modelos Bayesianos jerárquicos y empíricos". Biometrika . 94 (2): 443–458. doi : 10.1093 / biomet / asm017 .
Ando, T. (2010). Selección de modelos bayesianos y modelado estadístico , CRC Press. Capítulo 7.
Ando, Tomohiro (2011). "Selección del modelo bayesiano predictivo" . Revista Estadounidense de Ciencias Matemáticas y de Gestión . 31 (1–2): 13–38. doi : 10.1080 / 01966324.2011.10737798 . S2CID 123680697 .
Claeskens, G y Hjort, NL (2008). Selección de modelos y promediado de modelos , Cambridge. Sección 3.5.
Gelman, Andrew ; Carlin, John B .; Stern, Hal S .; Rubin, Donald B. (2004). Análisis de datos bayesianos: segunda edición . Textos en ciencia estadística. Prensa CRC . ISBN 978-1-58488-388-3. LCCN 2003051474 . Señor 2027492 .
van der Linde, A. (2005). "DIC en la selección de variables", Statistica Neerlandica , 59: 45-56. doi: 10.1111 / j.1467-9574.2005.00278.x
Spiegelhalter, David J .; Mejor, Nicola G .; Carlin, Bradley P .; van der Linde, Angelika (2002). "Medidas bayesianas de complejidad y ajuste del modelo (con discusión)" . Revista de la Sociedad Real de Estadística, Serie B . 64 (4): 583–639. doi : 10.1111 / 1467-9868.00353 . JSTOR 3088806 . Señor 1979380 .
Spiegelhalter, David J .; Mejor, Nicola G .; Carlin, Bradley P .; van der Linde, Angelika (2014). "El criterio de información de la desviación: 12 años después (con discusión)". Revista de la Sociedad Real de Estadística, Serie B . 76 (3): 485–493. doi : 10.1111 / rssb.12062 .

enlaces externos

McElreath, Richard (29 de enero de 2015). "Repensar estadístico Conferencia 8 (sobre DIC y otros criterios de información)" - a través de YouTube .