La paradoja de Lindley

La paradoja de Lindley es una situación contraintuitiva en estadística en la que los enfoques bayesiano y frecuentista de un problema de prueba de hipótesis dan resultados diferentes para ciertas elecciones de la distribución previa . El problema del desacuerdo entre los dos enfoques se discutió en el libro de texto de 1939 de Harold Jeffreys ; ^[1] se conoció como la paradoja de Lindley después de que Dennis Lindley calificara el desacuerdo como una paradoja en un artículo de 1957. ^[2]

Aunque se lo conoce como una paradoja , los resultados diferentes de los enfoques bayesiano y frecuentista pueden explicarse como su uso para responder a preguntas fundamentalmente diferentes, en lugar de un desacuerdo real entre los dos métodos.

Sin embargo, para una gran clase de antecedentes, las diferencias entre el enfoque frecuentista y el bayesiano son causadas por mantener fijo el nivel de significancia: como incluso Lindley reconoció, "la teoría no justifica la práctica de mantener fijo el nivel de significancia" e incluso "algunos Los cálculos del profesor Pearson en la discusión de ese documento enfatizaron cómo el nivel de significancia tendría que cambiar con el tamaño de la muestra, si las pérdidas y las probabilidades previas se mantuvieran fijas ''. ^[2] De hecho, si el valor crítico aumenta con el tamaño de la muestra adecuadamente rápido, entonces el desacuerdo entre los enfoques frecuentista y bayesiano se vuelve insignificante a medida que aumenta el tamaño de la muestra. ^[3]

Descripción de la paradoja

El resultado ${\ Displaystyle \ textstyle x}$ de algún experimento tiene dos posibles explicaciones, hipótesis ${\ Displaystyle \ textstyle H_ {0}}$ y ${\ Displaystyle \ textstyle H_ {1}}$ , y alguna distribución previa ${\ Displaystyle \ textstyle \ pi}$ que representa la incertidumbre sobre qué hipótesis es más precisa antes de tener en cuenta ${\ Displaystyle \ textstyle x}$ .

La paradoja de Lindley ocurre cuando

El resultado ${\ Displaystyle \ textstyle x}$ es "significativo" por una prueba frecuentista de ${\ Displaystyle \ textstyle H_ {0}}$ , indicando evidencia suficiente para rechazar ${\ Displaystyle \ textstyle H_ {0}}$ , digamos, al nivel del 5%, y
La probabilidad posterior de ${\ Displaystyle \ textstyle H_ {0}}$ dado ${\ Displaystyle \ textstyle x}$ es alto, lo que indica una fuerte evidencia de que ${\ Displaystyle \ textstyle H_ {0}}$ está más de acuerdo con ${\ Displaystyle \ textstyle x}$ que ${\ Displaystyle \ textstyle H_ {1}}$ .

Estos resultados pueden ocurrir al mismo tiempo cuando ${\ Displaystyle \ textstyle H_ {0}}$ es muy específico, ${\ Displaystyle \ textstyle H_ {1}}$ más difuso, y la distribución previa no favorece fuertemente a uno u otro, como se ve a continuación.

Ejemplo numérico

El siguiente ejemplo numérico ilustra la paradoja de Lindley. En una determinada ciudad han nacido 49.581 niños y 48.870 niñas durante un período de tiempo determinado. La proporción observada ${\ Displaystyle \ textstyle x}$ de nacimientos de varones es, por tanto, 49.581 / 98.451 ≈ 0,5036. Suponemos que la fracción de nacimientos de varones es una variable binomial con parámetro ${\ Displaystyle \ textstyle \ theta}$ . Estamos interesados en probar si ${\ Displaystyle \ textstyle \ theta}$ es 0,5 o algún otro valor. Es decir, nuestra hipótesis nula es ${\ Displaystyle \ textstyle H_ {0}: \ theta = 0.5}$ y la alternativa es ${\ Displaystyle \ textstyle H_ {1}: \ theta \ neq 0.5}$ .

Enfoque frecuentista

El enfoque frecuentista de las pruebas ${\ Displaystyle \ textstyle H_ {0}}$ es calcular un valor p , la probabilidad de observar una fracción de niños al menos tan grande como ${\ Displaystyle \ textstyle x}$ asumiendo ${\ Displaystyle \ textstyle H_ {0}}$ es verdad. Debido a que el número de nacimientos es muy grande, podemos usar una aproximación normal para la fracción de nacimientos de varones ${\ Displaystyle \ textstyle X \ sim N (\ mu, \ sigma ^ {2})}$ , con ${\ Displaystyle \ textstyle \ mu = np = n \ theta = 98,451 \ times 0.5 = 49,225.5}$ y ${\ Displaystyle \ textstyle \ sigma ^ {2} = n \ theta (1- \ theta) = 98,451 \ times 0.5 \ times 0.5 = 24,612.75}$ , computar

{\ Displaystyle {\ begin {alineado} P (X \ geq x \ mid \ mu = 49225.5) = \ int _ {x = 49581} ^ {98451} {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- ({\ frac {u- \ mu} {\ sigma}}) ^ {2} / 2} du \\ = \ int _ {x = 49581} ^ {98451} {\ frac {1} {\ sqrt {2 \ pi (24,612.75)}}} e ^ {- {\ frac {(u-49225.5) ^ {2}} {24612.75}} / 2} du \ approx 0.0117. \ final {alineado}}}

Nos hubiera sorprendido igualmente si hubiéramos visto 49.581 nacimientos de mujeres, es decir ${\ Displaystyle \ textstyle x \ approx 0.4964}$ , por lo que un frecuentista normalmente realizaría una prueba de dos caras , para la cual el valor p sería ${\ Displaystyle \ textstyle p \ aproximadamente 2 \ times 0.0117 = 0.0235}$ . En ambos casos, el valor p es menor que el nivel de significancia, α, del 5%, por lo que el enfoque frecuentista rechaza ${\ Displaystyle \ textstyle H_ {0}}$ ya que no está de acuerdo con los datos observados.

Enfoque bayesiano

Suponiendo que no hay razón para favorecer una hipótesis sobre la otra, el enfoque bayesiano sería asignar probabilidades previas ${\ Displaystyle \ textstyle \ pi (H_ {0}) = \ pi (H_ {1}) = 0.5}$ y una distribución uniforme a ${\ Displaystyle \ textstyle \ theta}$ debajo ${\ Displaystyle H_ {1}}$ , y luego calcular la probabilidad posterior de ${\ Displaystyle \ textstyle H_ {0}}$ usando el teorema de Bayes ,

{\ Displaystyle P (H_ {0} \ mid k) = {\ frac {P (k \ mid H_ {0}) \ pi (H_ {0})} {P (k \ mid H_ {0}) \ pi (H_ {0}) + P (k \ mid H_ {1}) \ pi (H_ {1})}}.}

Después de observar ${\ Displaystyle \ textstyle k = 49,581}$ chicos fuera de ${\ Displaystyle \ textstyle n = 98 451}$ nacimientos, podemos calcular la probabilidad posterior de cada hipótesis utilizando la función de masa de probabilidad para una variable binomial,

{\ displaystyle {\ begin {alineado} P (k \ mid H_ {0}) & = {n \ elige k} (0.5) ^ {k} (1-0.5) ^ {nk} \ aproximadamente 1.95 \ times 10 ^ {-4} \\ P (k \ mid H_ {1}) & = \ int _ {0} ^ {1} {n \ elija k} \ theta ^ {k} (1- \ theta) ^ {nk} d \ theta = {n \ elige k} \ mathrm {\ mathrm {B}} (k + 1, n-k + 1) = 1 / (n + 1) \ approx 1.02 \ times 10 ^ {- 5} \ final {alineado}}}

dónde ${\ Displaystyle \ textstyle \ mathrm {\ mathrm {B}} (a, b)}$ es la función Beta .

A partir de estos valores, encontramos la probabilidad posterior de ${\ Displaystyle P (\ textstyle H_ {0} \ mid k) \ aproximadamente 0,95}$ , que favorece fuertemente ${\ Displaystyle \ textstyle H_ {0}}$ encima ${\ Displaystyle \ textstyle H_ {1}}$ .

Los dos enfoques, el bayesiano y el frecuentista, parecen estar en conflicto, y esta es la "paradoja".

Conciliar los enfoques bayesiano y frecuentista

Sin embargo, al menos en el ejemplo de Lindley, si tomamos una secuencia de niveles de significancia, $α n$ , tal que $α n = n - r$ con $r > 1/2$ , entonces la probabilidad posterior del nulo converge a 0, lo cual es consistente con un rechazo de lo nulo. ^[3] En este ejemplo numérico, tomar $r = 1/2$ , da como resultado un nivel de significancia de 0.00318, por lo que el frecuentista no rechazaría la hipótesis nula, que está más o menos de acuerdo con el enfoque bayesiano.

Distribución de

p

bajo la hipótesis nula y distribución posterior de

p

.

Si usamos un a priori no informativo y probamos una hipótesis más similar a la del enfoque frecuentista, la paradoja desaparece.

Por ejemplo, si calculamos la distribución posterior ${\ Displaystyle \ textstyle P (\ theta \ mid x, n)}$ , utilizando una distribución previa uniforme en ${\ Displaystyle \ textstyle \ theta}$ (es decir ${\ Displaystyle \ textstyle \ pi (\ theta \ in [0,1]) = 1}$ ), encontramos

{\ Displaystyle P (\ theta \ mid k, n) = \ mathrm {\ mathrm {B}} (k + 1, n-k + 1).}

Si usamos esto para verificar la probabilidad de que un recién nacido tenga más probabilidades de ser un niño que una niña, es decir ${\ Displaystyle P (\ theta> 0.5 \ mid k, n)}$ , encontramos

 ${\ Displaystyle \ int _ {0.5} ^ {1} \ mathrm {\ mathrm {B}} (49582,48871) \ aproximadamente 0.983.}$

En otras palabras, es muy probable que la proporción de nacimientos de varones sea superior a 0,5.

Ninguno de los análisis da una estimación del tamaño del efecto , directamente, pero ambos podrían usarse para determinar, por ejemplo, si es probable que la fracción de nacimientos de niños esté por encima de algún umbral en particular.

La falta de una paradoja real

El aparente desacuerdo entre los dos enfoques se debe a una combinación de factores. Primero, el enfoque frecuentista anterior prueba ${\ Displaystyle \ textstyle H_ {0}}$ sin referencia a ${\ Displaystyle \ textstyle H_ {1}}$ . El enfoque bayesiano evalúa ${\ Displaystyle \ textstyle H_ {0}}$ como alternativa a ${\ Displaystyle \ textstyle H_ {1}}$ , y encuentra que el primero está más de acuerdo con las observaciones. Esto se debe a que la última hipótesis es mucho más difusa, ya que ${\ Displaystyle \ textstyle \ theta}$ puede estar en cualquier lugar ${\ Displaystyle \ textstyle [0,1]}$ , lo que hace que tenga una probabilidad posterior muy baja. Para entender por qué, es útil considerar las dos hipótesis como generadoras de las observaciones:

Debajo ${\ Displaystyle \ textstyle H_ {0}}$ , nosotros elegimos ${\ Displaystyle \ textstyle \ theta \ approx 0.500}$ y pregunte qué tan probable es ver 49.581 niños en 98.451 nacimientos.
Debajo ${\ Displaystyle \ textstyle H_ {1}}$ , nosotros elegimos ${\ Displaystyle \ textstyle \ theta}$ aleatoriamente desde cualquier lugar dentro de 0 a 1, y haga la misma pregunta.

La mayoría de los valores posibles para ${\ Displaystyle \ textstyle \ theta}$ debajo ${\ Displaystyle \ textstyle H_ {1}}$ están muy mal respaldados por las observaciones. En esencia, el aparente desacuerdo entre los métodos no es un desacuerdo en absoluto, sino más bien dos declaraciones diferentes sobre cómo las hipótesis se relacionan con los datos:

El frecuentista encuentra que ${\ Displaystyle \ textstyle H_ {0}}$ es una mala explicación para la observación.
El bayesiano descubre que ${\ Displaystyle \ textstyle H_ {0}}$ es una explicación mucho mejor para la observación que ${\ Displaystyle \ textstyle H_ {1}}$ .

La proporción del sexo de los recién nacidos es improbablemente 50/50 hombre / mujer, según la prueba frecuentista. Sin embargo, 50/50 es una mejor aproximación que la mayoría, pero no todas , las demás proporciones. La hipótesis ${\ Displaystyle \ textstyle \ theta \ approx 0.504}$ se habría ajustado a la observación mucho mejor que casi todas las demás proporciones, incluidas ${\ Displaystyle \ textstyle \ theta \ approx 0.500}$ .

Por ejemplo, esta elección de hipótesis y probabilidades previas implica el enunciado: "si ${\ Displaystyle \ textstyle \ theta}$ > 0,49 y ${\ Displaystyle \ textstyle \ theta}$ <0.51, entonces la probabilidad previa de ${\ Displaystyle \ theta}$ siendo exactamente 0.5 es 0.50 / 0.51 ${\ Displaystyle \ approx}$ 98% ". Dada una preferencia tan fuerte por ${\ Displaystyle \ theta = 0.5}$ , es fácil ver por qué el enfoque bayesiano favorece ${\ Displaystyle H_ {0}}$ en la cara de ${\ Displaystyle x \ approx 0.5036}$ , aunque el valor observado de ${\ Displaystyle x}$ mentiras ${\ Displaystyle 2.28 \ sigma}$ lejos de 0.5. La desviación de más de 2 sigma de ${\ Displaystyle H_ {0}}$ se considera significativo en el enfoque frecuentista, pero su significado es anulado por el prior en el enfoque bayesiano.

Mirándolo de otra manera, podemos ver que la distribución anterior es esencialmente plana con una función delta en ${\ Displaystyle \ textstyle \ theta = 0.5}$ . Claramente esto es dudoso. De hecho, si imaginara los números reales como continuos, entonces sería más lógico suponer que sería imposible que cualquier número dado fuera exactamente el valor del parámetro, es decir, deberíamos asumir P (theta = 0.5) = 0.

Una distribución más realista para ${\ Displaystyle \ textstyle \ theta}$ en la hipótesis alternativa produce un resultado menos sorprendente para la parte posterior de ${\ Displaystyle \ textstyle H_ {0}}$ . Por ejemplo, si reemplazamos ${\ Displaystyle \ textstyle H_ {1}}$ con ${\ Displaystyle \ textstyle H_ {2}: \ theta = x}$ , es decir, la estimación de máxima verosimilitud para ${\ Displaystyle \ textstyle \ theta}$ , la probabilidad posterior de ${\ Displaystyle \ textstyle H_ {0}}$ sería solo 0.07 en comparación con 0.93 para ${\ Displaystyle \ textstyle H_ {2}}$ (Por supuesto, no se puede utilizar el MLE como parte de una distribución previa).

Discusión reciente

La paradoja sigue siendo una fuente de discusión activa. ^[3]^[4]^[5]^[6]

Ver también

Factor de Bayes

Notas

^ Jeffreys, Harold (1939). Teoría de la probabilidad . Prensa de la Universidad de Oxford . Señor 0000924 .
^ ^a ^b Lindley, DV (1957). "Una paradoja estadística". Biometrika . 44 (1-2): 187-192. doi : 10.1093 / biomet / 44.1-2.187 . JSTOR 2333251 .
^ ^a ^b ^c Naamán, Michael (1 de enero de 2016). "Prueba de hipótesis casi segura y una resolución de la paradoja de Jeffreys-Lindley" . Revista Electrónica de Estadística . 10 (1): 1526-1550. doi : 10.1214 / 16-EJS1146 . ISSN 1935-7524 .
^ Spanos, Aris (2013). "¿Quién debería tener miedo de la paradoja de Jeffreys-Lindley?". Filosofía de la ciencia . 80.1 : 73–93. doi : 10.1086 / 668875 .
^ Sprenger, enero (2013). "Prueba de una hipótesis nula precisa: el caso de la paradoja de Lindley" (PDF) . Filosofía de la ciencia . 80 : 733–744. doi : 10.1086 / 673730 . hdl : 2318/1657960 .
^ Robert, Christian P. (2014). "Sobre la paradoja de Jeffreys-Lindley". Filosofía de la ciencia . 81.2 : 216–232. arXiv : 1303.5973 . doi : 10.1086 / 675729 .

Otras lecturas

Shafer, Glenn (1982). "Paradoja de Lindley". Revista de la Asociación Estadounidense de Estadística . 77 (378): 325–334. doi : 10.2307 / 2287244 . JSTOR 2287244 . Señor 0664677 .

[1] Jeffreys, Harold (1939). Teoría de la probabilidad . Prensa de la Universidad de Oxford . Señor 0000924 .

[:0-2] Lindley, DV (1957). "Una paradoja estadística". Biometrika . 44 (1-2): 187-192. doi : 10.1093 / biomet / 44.1-2.187 . JSTOR 2333251 .

[:1-3] Naamán, Michael (1 de enero de 2016). "Prueba de hipótesis casi segura y una resolución de la paradoja de Jeffreys-Lindley" . Revista Electrónica de Estadística . 10 (1): 1526-1550. doi : 10.1214 / 16-EJS1146 . ISSN 1935-7524 .

[4] Spanos, Aris (2013). "¿Quién debería tener miedo de la paradoja de Jeffreys-Lindley?". Filosofía de la ciencia . 80.1 : 73–93. doi : 10.1086 / 668875 .

[5] Sprenger, enero (2013). "Prueba de una hipótesis nula precisa: el caso de la paradoja de Lindley" (PDF) . Filosofía de la ciencia . 80 : 733–744. doi : 10.1086 / 673730 . hdl : 2318/1657960 .

[6] Robert, Christian P. (2014). "Sobre la paradoja de Jeffreys-Lindley". Filosofía de la ciencia . 81.2 : 216–232. arXiv : 1303.5973 . doi : 10.1086 / 675729 .

[1]