Jeffreys antes

En probabilidad bayesiana , el prior de Jeffreys , que lleva el nombre de Sir Harold Jeffreys , es una distribución a priori no informativa (objetiva) para un espacio de parámetros; su función de densidad es proporcional a la raíz cuadrada del determinante de la matriz de información de Fisher :

{\ Displaystyle p \ left ({\ vec {\ theta}} \ right) \ propto {\ sqrt {\ det {\ mathcal {I}} \ left ({\ vec {\ theta}} \ right)}}. \,}

Tiene la característica clave de que es invariante bajo un cambio de coordenadas para el vector de parámetros ${\ Displaystyle {\ vec {\ theta}}}$ . Es decir, la probabilidad relativa asignada a un volumen de un espacio de probabilidad utilizando un antecedente de Jeffreys será la misma independientemente de la parametrización utilizada para definir el antecedente de Jeffreys. Esto lo hace de especial interés para su uso con parámetros de escala . ^[1]

Reparametrización

Caso de un parámetro

Si ${\ Displaystyle \ theta}$ y ${\ Displaystyle \ varphi}$ son dos posibles parametrizaciones de un modelo estadístico, y ${\ Displaystyle \ theta}$ es una función continuamente diferenciable de ${\ Displaystyle \ varphi}$ , decimos que el anterior ${\ Displaystyle p _ {\ theta} (\ theta)}$ es "invariante" en una reparametrización si

{\ Displaystyle p _ {\ varphi} (\ varphi) = p _ {\ theta} (\ theta) \ left | {\ frac {d \ theta} {d \ varphi}} \ right |,}

es decir, si los priores ${\ Displaystyle p _ {\ theta} (\ theta)}$ y ${\ Displaystyle p _ {\ varphi} (\ varphi)}$ están relacionados por el teorema habitual del cambio de variables .

Dado que la información de Fisher se transforma bajo la reparametrización como

{\ Displaystyle I _ {\ varphi} (\ varphi) = I _ {\ theta} (\ theta) \ left ({\ frac {d \ theta} {d \ varphi}} \ right) ^ {2},}

definiendo los priores como ${\ Displaystyle p _ {\ varphi} (\ varphi) \ propto {\ sqrt {I _ {\ varphi} (\ varphi)}}}$ y ${\ Displaystyle p _ {\ theta} (\ theta) \ propto {\ sqrt {I _ {\ theta} (\ theta)}}}$ nos da la "invariancia" deseada. ^[2]

Caso de varios parámetros

Análogamente al caso de un parámetro, dejemos ${\ Displaystyle {\ vec {\ theta}}}$ y ${\ Displaystyle {\ vec {\ varphi}}}$ ser dos posibles parametrizaciones de un modelo estadístico, con ${\ Displaystyle {\ vec {\ theta}}}$ una función continuamente diferenciable de ${\ Displaystyle {\ vec {\ varphi}}}$ . Llamamos al prior ${\ Displaystyle p _ {\ theta} ({\ vec {\ theta}})}$ "invariante" en reparametrización si

{\ Displaystyle p _ {\ varphi} ({\ vec {\ varphi}}) = p _ {\ theta} ({\ vec {\ theta}}) \ det J,}

dónde ${\ Displaystyle J}$ es la matriz jacobiana con entradas

{\ Displaystyle J_ {ij} = {\ frac {\ parcial \ theta _ {i}} {\ parcial \ varphi _ {j}}}.}

Dado que la matriz de información de Fisher se transforma bajo reparametrización como

{\ Displaystyle I _ {\ varphi} ({\ vec {\ varphi}}) = J ^ {T} I _ {\ theta} ({\ vec {\ theta}}) J,}

tenemos eso

{\ Displaystyle \ det I _ {\ varphi} (\ varphi) = \ det I _ {\ theta} (\ theta) (\ det J) ^ {2}}

y definiendo así los priores como ${\ Displaystyle p _ {\ varphi} ({\ vec {\ varphi}}) \ propto {\ sqrt {\ det I _ {\ varphi} ({\ vec {\ varphi}})}}}$ y ${\ Displaystyle p _ {\ theta} ({\ vec {\ theta}}) \ propto {\ sqrt {\ det I _ {\ theta} ({\ vec {\ theta}})}}}$ nos da la "invariancia" deseada.

Atributos

Desde un punto de vista práctico y matemático, una razón válida para utilizar este a priori no informativo en lugar de otros, como los obtenidos a través de un límite en familias conjugadas de distribuciones, es que la probabilidad relativa de un volumen del espacio de probabilidad no depende de el conjunto de variables de parámetro que se elige para describir el espacio de parámetros.

A veces, el antecedente de Jeffreys no se puede normalizar y, por tanto, es un antecedente inadecuado . Por ejemplo, el antecedente de Jeffreys para la media de la distribución es uniforme en toda la línea real en el caso de una distribución gaussiana de varianza conocida.

El uso del antecedente de Jeffreys viola la versión fuerte del principio de probabilidad , que es aceptado por muchos, pero no por todos, los estadísticos. Cuando se usa el Jeffrey anterior, las inferencias sobre ${\ Displaystyle {\ vec {\ theta}}}$ Dependen no sólo de la probabilidad de los datos observados en función de ${\ Displaystyle {\ vec {\ theta}}}$ , sino también en el universo de todos los resultados experimentales posibles, según lo determinado por el diseño experimental, porque la información de Fisher se calcula a partir de una expectativa sobre el universo elegido. En consecuencia, el antecedente de Jeffreys y, por tanto, las inferencias que se hacen con él, pueden ser diferentes para dos experimentos ${\ Displaystyle {\ vec {\ theta}}}$ parámetro incluso cuando las funciones de verosimilitud para los dos experimentos son las mismas, una violación del principio de verosimilitud fuerte.

Longitud mínima de la descripción

En el enfoque estadístico de longitud mínima de descripción, el objetivo es describir los datos de la forma más compacta posible, donde la longitud de una descripción se mide en bits del código utilizado. Para una familia de distribuciones paramétricas, se compara un código con el mejor código en función de una de las distribuciones de la familia paramétrica. El resultado principal es que en familias exponenciales , asintóticamente para tamaños de muestra grandes, el código basado en la distribución que es una mezcla de los elementos de la familia exponencial con el anterior de Jeffreys es óptimo. Este resultado es válido si se restringe el conjunto de parámetros a un subconjunto compacto en el interior del espacio de parámetros completo ^{[ cita requerida ]} . Si se usa el parámetro completo, se debe usar una versión modificada del resultado.

Ejemplos de

El antecedente de Jeffreys para un parámetro (o un conjunto de parámetros) depende del modelo estadístico.

Distribución gaussiana con parámetro medio

Para la distribución gaussiana del valor real ${\ Displaystyle x}$

{\ Displaystyle f (x \ mid \ mu) = {\ frac {e ^ {- (x- \ mu) ^ {2} / 2 \ sigma ^ {2}}} {\ sqrt {2 \ pi \ sigma ^ {2}}}}}

con ${\ Displaystyle \ sigma}$ fijo, el Jeffrey antes de la media ${\ Displaystyle \ mu}$ es

{\ Displaystyle {\ begin {alineado} p (\ mu) & \ propto {\ sqrt {I (\ mu)}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac { d} {d \ mu}} \ log f (x \ mid \ mu) \ right) ^ {2} \ right]}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac {x- \ mu} {\ sigma ^ {2}}} \ right) ^ {2} \ right]}} \\ & = {\ sqrt {\ int _ {- \ infty} ^ {+ \ infty} f (x \ mid \ mu) \ left ({\ frac {x- \ mu} {\ sigma ^ {2}}} \ right) ^ {2} dx}} = {\ sqrt {1 / \ sigma ^ { 2}}} \ propto 1. \ end {alineado}}}

Es decir, el Jeffrey antes de ${\ Displaystyle \ mu}$ no depende de ${\ Displaystyle \ mu}$ ; es la distribución uniforme no normalizada en la línea real, la distribución que es 1 (o alguna otra constante fija) para todos los puntos. Este es un previo impropio , y es, hasta la elección de constante, la distribución única de traducción- invariante en los reales (la medida de Haar con respecto a la suma de reales), correspondiente a la media que es una medida de ubicación e invariancia de traducción correspondiente a ninguna información sobre la ubicación.

Distribución gaussiana con parámetro de desviación estándar

Para la distribución gaussiana del valor real ${\ Displaystyle x}$

{\ Displaystyle f (x \ mid \ sigma) = {\ frac {e ^ {- (x- \ mu) ^ {2} / 2 \ sigma ^ {2}}} {\ sqrt {2 \ pi \ sigma ^ {2}}}},}

con ${\ Displaystyle \ mu}$ fijo, el Jeffreys antes de la desviación estándar ${\ Displaystyle \ sigma> 0}$ es

{\ Displaystyle {\ begin {alineado} p (\ sigma) & \ propto {\ sqrt {I (\ sigma)}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac { d} {d \ sigma}} \ log f (x \ mid \ sigma) \ right) ^ {2} \ right]}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac {(x- \ mu) ^ {2} - \ sigma ^ {2}} {\ sigma ^ {3}}} \ right) ^ {2} \ right]}} \\ & = {\ sqrt {\ int _ {- \ infty} ^ {+ \ infty} f (x \ mid \ sigma) \ left ({\ frac {(x- \ mu) ^ {2} - \ sigma ^ {2}} {\ sigma ^ {3}}} \ right) ^ {2} dx}} = {\ sqrt {\ frac {2} {\ sigma ^ {2}}}} \ propto {\ frac {1} {\ sigma}}. \ final {alineado}}}

De manera equivalente, el Jeffrey antes de ${\ estilo de texto \ log \ sigma = \ int d \ sigma / \ sigma}$ es la distribución uniforme no normalizada en la línea real y, por lo tanto, esta distribución también se conoce como logarítmico a priori . Del mismo modo, el Jeffrey antes de ${\ Displaystyle \ log \ sigma ^ {2} = 2 \ log \ sigma}$ también es uniforme. Es la única (hasta un múltiplo) anterior (en los reales positivos) que es invariante de escala (la medida de Haar con respecto a la multiplicación de reales positivos), correspondiente a la desviación estándar que es una medida de escala y la invariancia de escala correspondiente a ninguna información sobre la escala. Al igual que con la distribución uniforme de los reales, es un a priori impropio .

Distribución de Poisson con parámetro de tasa

Para la distribución de Poisson del entero no negativo ${\ Displaystyle n}$ ,

{\ Displaystyle f (n \ mid \ lambda) = e ^ {- \ lambda} {\ frac {\ lambda ^ {n}} {n!}},}

el Jeffreys anterior para el parámetro de tasa ${\ Displaystyle \ lambda \ geq 0}$ es

{\ Displaystyle {\ begin {alineado} p (\ lambda) & \ propto {\ sqrt {I (\ lambda)}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac { d} {d \ lambda}} \ log f (n \ mid \ lambda) \ right) ^ {2} \ right]}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac {n- \ lambda} {\ lambda}} \ right) ^ {2} \ right]}} \\ & = {\ sqrt {\ sum _ {n = 0} ^ {+ \ infty} f (n \ mid \ lambda) \ left ({\ frac {n- \ lambda} {\ lambda}} \ right) ^ {2}}} = {\ sqrt {\ frac {1} {\ lambda}}}. \ end { alineado}}}

De manera equivalente, el Jeffrey antes de ${\ textstyle {\ sqrt {\ lambda}} = \ int d \ lambda / {\ sqrt {\ lambda}}}$ es la distribución uniforme no normalizada en la línea real no negativa.

Juicio de Bernoulli

Para una moneda que tiene "cara" con probabilidad ${\ Displaystyle \ gamma \ in [0,1]}$ y es "colas" con probabilidad ${\ Displaystyle 1- \ gamma}$ , para una dada ${\ Displaystyle (H, T) \ in \ {(0,1), (1,0) \}}$ la probabilidad es ${\ Displaystyle \ gamma ^ {H} (1- \ gamma) ^ {T}}$ . El Jeffreys antes del parámetro ${\ Displaystyle \ gamma}$ es

{\ Displaystyle {\ begin {alineado} p (\ gamma) & \ propto {\ sqrt {I (\ gamma)}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac { d} {d \ gamma}} \ log f (x \ mid \ gamma) \ right) ^ {2} \ right]}} = {\ sqrt {\ operatorname {E} \! \ left [\ left ({\ frac {H} {\ gamma}} - {\ frac {T} {1- \ gamma}} \ right) ^ {2} \ right]}} \\ & = {\ sqrt {\ gamma \ left ({\ frac {1} {\ gamma}} - {\ frac {0} {1- \ gamma}} \ right) ^ {2} + (1- \ gamma) \ left ({\ frac {0} {\ gamma} } - {\ frac {1} {1- \ gamma}} \ right) ^ {2}}} = {\ frac {1} {\ sqrt {\ gamma (1- \ gamma)}}} \,. \ final {alineado}}}

Esta es la distribución de arcoseno y es una distribución beta con ${\ Displaystyle \ alpha = \ beta = 1/2}$ . Además, si ${\ Displaystyle \ gamma = \ sin ^ {2} (\ theta)}$ luego

{\ Displaystyle \ Pr [\ theta] = \ Pr [\ gamma] {\ frac {d \ gamma} {d \ theta}} \ propto {\ frac {1} {\ sqrt {(\ sin ^ {2} \ theta) (1- \ sin ^ {2} \ theta)}}} ~ 2 \ sin \ theta \ cos \ theta = 2 \ ,.}

Es decir, el Jeffrey antes de ${\ Displaystyle \ theta}$ es uniforme en el intervalo ${\ Displaystyle [0, \ pi / 2]}$ . Equivalentemente, ${\ Displaystyle \ theta}$ es uniforme en todo el círculo ${\ Displaystyle [0,2 \ pi]}$ .

Dado de N lados con probabilidades sesgadas

Del mismo modo, para un lanzamiento de un ${\ Displaystyle N}$ -Morre con probabilidades de resultado ${\ Displaystyle {\ vec {\ gamma}} = (\ gamma _ {1}, \ ldots, \ gamma _ {N})}$ , cada uno no negativo y satisfactorio ${\ Displaystyle \ sum _ {i = 1} ^ {N} \ gamma _ {i} = 1}$ , el Jeffrey antes de ${\ Displaystyle {\ vec {\ gamma}}}$ es la distribución de Dirichlet con todos los parámetros (alfa) establecidos en la mitad. Esto equivale a utilizar un pseudocontento de la mitad para cada resultado posible.

De manera equivalente, si escribimos ${\ Displaystyle \ gamma _ {i} = \ varphi _ {i} ^ {2}}$ para cada ${\ Displaystyle i}$ , luego los Jeffreys antes de ${\ Displaystyle {\ vec {\ varphi}}}$ es uniforme en la esfera unitaria ( N - 1) -dimensional ( es decir , es uniforme en la superficie de una bola unitaria N -dimensional ).

Referencias

^ Jaynes, ET (1968) "Probabilidades previas", IEEE Trans. sobre ciencia de sistemas y cibernética , SSC-4 , 227 pdf .
^ Christian P. Robert; Nicolas Chopin; Judith Rousseau (2009). "Teoría de la probabilidad de Harold Jeffreys revisada" . Ciencia estadística . 24 (2). doi : 10.1214 / 09-STS284 .

Otras lecturas

Jeffreys, H. (1946). "Una forma invariante para la probabilidad previa en problemas de estimación" . Actas de la Royal Society of London. Serie A, Ciencias Físicas y Matemáticas . 186 (1007): 453–461. doi : 10.1098 / rspa.1946.0056 . JSTOR 97883 . PMID 20998741 .

Jeffreys, H. (1939). Teoría de la probabilidad . Prensa de la Universidad de Oxford.

[1] Jaynes, ET (1968) "Probabilidades previas", IEEE Trans. sobre ciencia de sistemas y cibernética , SSC-4 , 227 pdf .

[2] Christian P. Robert; Nicolas Chopin; Judith Rousseau (2009). "Teoría de la probabilidad de Harold Jeffreys revisada" . Ciencia estadística . 24 (2). doi : 10.1214 / 09-STS284 .

[1]