Proceso de Dirichlet impreciso

En teoría de probabilidad y estadística, el proceso de Dirichlet (DP) es uno de los modelos no paramétricos bayesianos más populares. Fue introducido por Thomas Ferguson ^[1] como anterior a las distribuciones de probabilidad.

Un proceso de Dirichlet ${\ Displaystyle \ mathrm {DP} \ left (s, G_ {0} \ right)}$ está completamente definido por sus parámetros: ${\ Displaystyle G_ {0}}$ (la distribución base o medida base ) es una distribución arbitraria y ${\ Displaystyle s}$ (el parámetro de concentración ) es un número real positivo (a menudo se denota como ${\ Displaystyle \ alpha}$ ). Según el paradigma bayesiano, estos parámetros deben elegirse en función de la información previa disponible sobre el dominio.

La pregunta es: ¿cómo elegir los parámetros previos? ${\ Displaystyle \ left (s, G_ {0} \ right)}$ del DP, en particular el de dimensión infinita ${\ Displaystyle G_ {0}}$ , en caso de falta de información previa?

Para abordar este problema, el único a priori que se ha propuesto hasta ahora es el DP límite obtenido para ${\ displaystyle s \ rightarrow 0}$ , que ha sido introducido bajo el nombre de bootstrap bayesiano por Rubin; ^[2] de hecho, se puede demostrar que el bootstrap bayesiano es asintóticamente equivalente al bootstrap frecuentista introducido por Bradley Efron . ^[3] El proceso limitante de Dirichlet ${\ displaystyle s \ rightarrow 0}$ ha sido criticado por diversos motivos. Desde un punto de vista a-priori, la principal crítica es que tomar ${\ displaystyle s \ rightarrow 0}$ está lejos de conducir a un a priori no informativo. ^[4] Además, a posteriori, asigna probabilidad cero a cualquier conjunto que no incluya las observaciones. ^[2]

Se ha propuesto el impreciso proceso de Dirichlet ^[5] para superar estos problemas. La idea básica es arreglar ${\ Displaystyle s> 0}$ pero no elijas ninguna medida base precisa ${\ Displaystyle G_ {0}}$ .

Más precisamente, el proceso de Dirichlet impreciso (IDP) se define de la siguiente manera:

{\ Displaystyle ~~ \ mathrm {IDP}: ~ \ left \ {\ mathrm {DP} \ left (s, G_ {0} \ right): ~~ G_ {0} \ in \ mathbb {P} \ right \ }}

dónde ${\ Displaystyle \ mathbb {P}}$ es el conjunto de todas las medidas de probabilidad. En otras palabras, el IDP es el conjunto de todos los procesos de Dirichlet (con un ${\ Displaystyle s> 0}$ ) obtenido dejando que la base mida ${\ Displaystyle G_ {0}}$ para abarcar el conjunto de todas las medidas de probabilidad.

Inferencias con el proceso de Dirichlet impreciso

Dejar ${\ Displaystyle P}$ una distribución de probabilidad en ${\ Displaystyle (\ mathbb {X}, {\ mathcal {B}})}$ (aquí ${\ Displaystyle \ mathbb {X}}$ es un espacio Borel estándar con Borel ${\ Displaystyle \ sigma}$ -campo ${\ Displaystyle {\ mathcal {B}}}$ ) y asumir que ${\ Displaystyle P \ sim \ mathrm {DP} (s, G_ {0})}$ . Entonces considere una función acotada de valor real ${\ Displaystyle f}$ definido en ${\ Displaystyle (\ mathbb {X}, {\ mathcal {B}})}$ . Es bien sabido que la expectativa de ${\ Displaystyle E [f]}$ con respecto al proceso de Dirichlet es

{\ Displaystyle {\ mathcal {E}} [E (f)] = {\ mathcal {E}} \ left [\ int f \, dP \ right] = \ int f \, d {\ mathcal {E}} [P] = \ int f \, dG_ {0}.}

Una de las propiedades más notables de los priores de DP es que la distribución posterior de ${\ Displaystyle P}$ es de nuevo un DP. Dejar ${\ Displaystyle X_ {1}, \ dots, X_ {n}}$ ser una muestra independiente e idénticamente distribuida de ${\ Displaystyle P}$ y ${\ Displaystyle P \ sim Dp (s, G_ {0})}$ , entonces la distribución posterior de ${\ Displaystyle P}$ dadas las observaciones es

{\ Displaystyle P \ mid X_ {1}, \ dots, X_ {n} \ sim Dp \ left (s + n, G_ {n} \ right), ~~~ {\ text {con}} ~~~~ ~~ G_ {n} = {\ frac {s} {s + n}} G_ {0} + {\ frac {1} {s + n}} \ sum \ limits _ {i = 1} ^ {n} \ delta _ {X_ {i}},}

dónde ${\ Displaystyle \ delta _ {X_ {i}}}$ es una medida de probabilidad atómica (delta de Dirac) centrada en ${\ Displaystyle X_ {i}}$ . Por tanto, se sigue que ${\ Displaystyle {\ mathcal {E}} [E (f) \ mid X_ {1}, \ dots, X_ {n}] = \ int f \, dG_ {n}.}$ Por lo tanto, para cualquier fijo ${\ Displaystyle G_ {0}}$ , podemos aprovechar las ecuaciones anteriores para derivar expectativas previas y posteriores.

En el IDP ${\ Displaystyle G_ {0}}$ puede abarcar el conjunto de todas las distribuciones ${\ Displaystyle \ mathbb {P}}$ . Esto implica que obtendremos una expectativa previa y posterior diferente de ${\ Displaystyle E (f)}$ para cualquier elección de ${\ Displaystyle G_ {0}}$ . Una forma de caracterizar las inferencias para el IDP es calculando los límites superior e inferior para la expectativa de ${\ Displaystyle E (f)}$ wrt ${\ Displaystyle G_ {0} \ in \ mathbb {P}}$ . A priori estos límites son:

{\ Displaystyle {\ underline {\ mathcal {E}}} [E (f)] = \ inf \ limits _ {G_ {0} \ in \ mathbb {P}} \ int f \, dG_ {0} = \ inf f, ~~~~ {\ overline {\ mathcal {E}}} [E (f)] = \ sup \ limits _ {G_ {0} \ in \ mathbb {P}} \ int f \, dG_ { 0} = \ sup f,}

el límite inferior (superior) se obtiene mediante una medida de probabilidad que pone toda la masa en el mínimo (superior) de ${\ Displaystyle f}$ , es decir, ${\ Displaystyle G_ {0} = \ delta _ {X_ {0}}}$ con ${\ Displaystyle X_ {0} = \ arg \ inf f}$ (o respectivamente con ${\ Displaystyle X_ {0} = \ arg \ sup f}$ ). De las expresiones anteriores de los límites inferior y superior, se puede observar que el rango de ${\ Displaystyle {\ mathcal {E}} [E (f)]}$ bajo el IDP es el mismo que el rango original de ${\ Displaystyle f}$ . En otras palabras, al especificar el IDP, no estamos dando ninguna información previa sobre el valor de la expectativa de ${\ Displaystyle f}$ . A priori, la PDI es, por tanto, un modelo de (casi) ignorancia previa para ${\ Displaystyle E (f)}$ .

A posteriori, los desplazados internos pueden aprender de los datos. Los límites posterior inferior y superior para la expectativa de ${\ Displaystyle E (f)}$ de hecho están dadas por:

{\ Displaystyle {\ begin {align} {\ underline {\ mathcal {E}}} [E (f) \ mid X_ {1}, \ dots, X_ {n}] & = \ inf \ limits _ {G_ { 0} \ in \ mathbb {P}} \ int f \, dG_ {n} = {\ frac {s} {s + n}} \ inf f + \ int f (X) {\ frac {1} {s + n}} \ suma \ límites _ {i = 1} ^ {n} \ delta _ {X_ {i}} (dX) \\ & = {\ frac {s} {s + n}} \ inf f + {\ frac {n} {s + n}} {\ frac {\ suma \ límites _ {i = 1} ^ {n} f (X_ {i})} {n}}, \\ [6pt] {\ overline { \ mathcal {E}}} [E (f) \ mid X_ {1}, \ dots, X_ {n}] & = \ sup \ limits _ {G_ {0} \ in \ mathbb {P}} \ int f \, dG_ {n} = {\ frac {s} {s + n}} \ sup f + \ int f (X) {\ frac {1} {s + n}} \ suma \ límites _ {i = 1} ^ {n} \ delta _ {X_ {i}} (dX) \\ & = {\ frac {s} {s + n}} \ sup f + {\ frac {n} {s + n}} {\ frac {\ sum \ limits _ {i = 1} ^ {n} f (X_ {i})} {n}}. \ end {alineado}}}

Se puede observar que las inferencias posteriores no dependen de ${\ Displaystyle G_ {0}}$ . Para definir el IDP, el modelador solo tiene que elegir ${\ Displaystyle s}$ (el parámetro de concentración). Esto explica el significado del adjetivo cerca en casi ignorancia previa, porque el IDP requiere por parte del modelador la obtención de un parámetro. Sin embargo, este es un problema de elicitación simple para un anterior no paramétrico, ya que solo tenemos que elegir el valor de un escalar positivo (no quedan infinitos parámetros en el modelo IDP).

Finalmente, observe que para ${\ Displaystyle n \ rightarrow \ infty}$ , IDP satisface

{\ Displaystyle {\ underline {\ mathcal {E}}} \ left [E (f) \ mid X_ {1}, \ dots, X_ {n} \ right], \ quad {\ overline {\ mathcal {E} }} \ left [E (f) \ mid X_ {1}, \ dots, X_ {n} \ right] \ rightarrow S (f),}

dónde ${\ Displaystyle S (f) = \ lim _ {n \ rightarrow \ infty} {\ tfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i})}$ . En otras palabras, el IDP es consistente.

Distribución acumulativa inferior (rojo) y superior (azul) para las observaciones {−1,17, 0,44, 1,17, 3,28, 1,44, 1,98}

Elección de la fuerza previa ${\ Displaystyle s}$

El IDP está completamente especificado por ${\ Displaystyle s}$ , que es el único parámetro que queda en el modelo anterior. Dado que el valor de ${\ Displaystyle s}$ determina la rapidez con la que las expectativas posteriores inferiores y superiores convergen al aumentar el número de observaciones, ${\ Displaystyle s}$ se puede elegir para que coincida con una determinada tasa de convergencia. ^[5] El parámetro ${\ Displaystyle s}$ también puede elegirse para tener algunas propiedades frecuentistas deseables (por ejemplo, intervalos creíbles para calibrar intervalos frecuentistas, pruebas de hipótesis para calibrar para el error de Tipo I, etc.), ver Ejemplo: prueba de la mediana

Ejemplo: estimación de la distribución acumulada

Dejar ${\ Displaystyle X_ {1}, \ dots, X_ {n}}$ Ser iid variables aleatorias reales con función de distribución acumulativa. ${\ Displaystyle F (x)}$ .

Desde ${\ Displaystyle F (x) = E [\ mathbb {I} _ {(\ infty, x]}]}$ , dónde ${\ Displaystyle \ mathbb {I} _ {(\ infty, x]}}$ es la función indicadora , podemos usar IDP para derivar inferencias sobre ${\ Displaystyle F (x).}$ La media posterior inferior y superior de ${\ Displaystyle F (x)}$ están

{\ Displaystyle {\ begin {alineado} & {\ underline {\ mathcal {E}}} \ left [F (x) \ mid X_ {1}, \ dots, X_ {n} \ right] = {\ underline { \ mathcal {E}}} [E (\ mathbb {I} _ {(\ infty, x]}) \ mid X_ {1}, \ dots, X_ {n}] \\ = {} & {\ frac { n} {s + n}} {\ frac {\ suma \ límites _ {i = 1} ^ {n} \ mathbb {I} _ {(\ infty, x]} (X_ {i})} {n} } = {\ frac {n} {s + n}} {\ hat {F}} (x), \\ [12pt] & {\ overline {\ mathcal {E}}} \ left [F (x) \ mid X_ {1}, \ dots, X_ {n} \ right] = {\ overline {\ mathcal {E}}} \ left [E (\ mathbb {I} _ {(\ infty, x]}) \ mid X_ {1}, \ dots, X_ {n} \ right] \\ = {} & {\ frac {s} {s + n}} + {\ frac {n} {s + n}} {\ frac { \ sum \ limits _ {i = 1} ^ {n} \ mathbb {I} _ {(\ infty, x]} (X_ {i})} {n}} = {\ frac {s} {s + n }} + {\ frac {n} {s + n}} {\ hat {F}} (x). \ end {alineado}}}

dónde ${\ Displaystyle {\ hat {F}} (x)}$ es la función de distribución empírica . Aquí, para obtener el menor hemos aprovechado el hecho de que ${\ Displaystyle \ inf \ mathbb {I} _ {(\ infty, x]} = 0}$ y para el superior que ${\ Displaystyle \ sup \ mathbb {I} _ {(\ infty, x]} = 1}$ .

Distribuciones beta para la probabilidad inferior (roja) y superior (azul) correspondientes a las observaciones {-1,17, 0,44, 1,17, 3,28, 1,44, 1,98}. El área en [0,0.5] da la probabilidad más baja (0.891) y la más alta (0.9375) de la hipótesis "la mediana es mayor que cero".

Tenga en cuenta que, para cualquier elección precisa de ${\ Displaystyle G_ {0}}$ (p. ej., distribución normal ${\ Displaystyle {\ mathcal {N}} (x; 0,1)}$ ), la expectativa posterior de ${\ Displaystyle F (x)}$ se incluirá entre el límite inferior y superior.

Ejemplo: prueba de la mediana

IDP también se puede utilizar para probar hipótesis, por ejemplo, para probar la hipótesis. ${\ Displaystyle F (0) <0.5}$ , es decir, la mediana de ${\ Displaystyle F}$ es mayor que cero. Considerando la partición ${\ displaystyle (- \ infty, 0], (0, \ infty)}$ y la propiedad del proceso de Dirichlet, se puede demostrar que la distribución posterior de ${\ Displaystyle F (0)}$ es

{\ Displaystyle F (0) \ sim \ mathrm {Beta} (\ alpha _ {0} + n _ {<0}, \ beta _ {0} + n-n _ {<0})}

dónde ${\ Displaystyle n _ {<0}}$ es el número de observaciones que son menores que cero,

{\ Displaystyle \ alpha _ {0} = s \ int _ {- \ infty} ^ {0} dG_ {0}}

y

{\ Displaystyle \ beta _ {0} = s \ int _ {0} ^ {\ infty} dG_ {0}.}

Al explotar esta propiedad, se sigue que

{\ Displaystyle {\ underline {\ mathcal {P}}} [F (0) <0.5 \ mid X_ {1}, \ dots, X_ {n}] = \ int \ limits _ {0} ^ {0.5} \ mathrm {Beta} (\ theta; s + n _ {<0}, n-n _ {<0}) d \ theta = I_ {1/2} (s + n _ {<0}, n-n _ {<0} ),}

{\ Displaystyle {\ overline {\ mathcal {P}}} [F (0) <0.5 \ mid X_ {1}, \ dots, X_ {n}] = \ int \ limits _ {0} ^ {0.5} \ mathrm {Beta} (\ theta; n _ {<0}, s + n-n _ {<0}) d \ theta = I_ {1/2} (n _ {<0}, s + n-n _ {<0} ).}

dónde ${\ Displaystyle I_ {x} (\ alpha, \ beta)}$ es la función beta incompleta regularizada . Así podemos realizar la prueba de hipótesis

{\ Displaystyle {\ underline {\ mathcal {P}}} [F (0) <0.5 \ mid X_ {1}, \ dots, X_ {n}]> 1- \ gamma, ~~ {\ overline {\ mathcal {P}}} [F (0) <0.5 \ mid X_ {1}, \ dots, X_ {n}]> 1- \ gamma,}

(con ${\ Displaystyle 1- \ gamma = 0,95}$ por ejemplo) y luego

si se satisfacen ambas desigualdades podemos declarar que ${\ Displaystyle F (0) <0.5}$ con probabilidad mayor que ${\ Displaystyle 1- \ gamma}$ ;
si solo se satisface una de las desigualdades (que necesariamente tiene que ser la de la superior), estamos en una situación indeterminada, es decir, no podemos decidir;
si ambos no están satisfechos, podemos declarar que la probabilidad de que ${\ Displaystyle F (0) <0.5}$ es menor que la probabilidad deseada de ${\ Displaystyle 1- \ gamma}$ .

IDP devuelve una decisión indeterminada cuando la decisión es dependiente previa (es decir, cuando dependería de la elección de ${\ Displaystyle G_ {0}}$ ).

Explotando la relación entre la función de distribución acumulada de la distribución Beta y la función de distribución acumulada de una variable aleatoria Z de una distribución binomial , donde la "probabilidad de éxito" es py el tamaño de la muestra es n :

{\ Displaystyle F (k; n, p) = \ Pr (Z \ leq k) = I_ {1-p} (nk, k + 1) = 1-I_ {p} (k + 1, nk),}

podemos demostrar que la prueba mediana derivada con el IDP para cualquier elección de ${\ Displaystyle s \ geq 1}$ abarca la prueba del signo frecuentista unilateral como prueba para la mediana. De hecho, se puede verificar que para ${\ Displaystyle s = 1}$ la ${\ Displaystyle p}$ -valor de la prueba de signo es igual a ${\ Displaystyle 1 - {\ underline {\ mathcal {P}}} [F (0) <0.5 \ mid X_ {1}, \ dots, X_ {n}]}$ . Por tanto, si ${\ Displaystyle {\ underline {\ mathcal {P}}} [F (0) <0.5 \ mid X_ {1}, \ dots, X_ {n}]> 0.95}$ entonces el ${\ Displaystyle p}$ -el valor es menor que ${\ Displaystyle 0.05}$ y, por tanto, las dos pruebas tienen el mismo poder.

Aplicaciones del proceso de Dirichlet impreciso

Los procesos de Dirichlet se utilizan con frecuencia en las estadísticas no paramétricas bayesianas. El Proceso de Dirichlet Impreciso se puede emplear en lugar de los procesos de Dirichlet en cualquier aplicación en la que se carece de información previa (por lo tanto, es importante modelar este estado de ignorancia previa).

En este sentido, el Proceso de Dirichlet Impreciso se ha utilizado para pruebas de hipótesis no paramétricas, ver el paquete estadístico del Proceso de Dirichlet Impreciso . Con base en el Proceso de Dirichlet Impreciso, se han derivado versiones bayesianas no paramétricas de casi ignorancia de los siguientes estimadores no paramétricos clásicos: la prueba de suma de rangos de Wilcoxon ^[5] y la prueba de rangos con signo de Wilcoxon. ^[6]

Un modelo bayesiano no paramétrico de casi ignorancia presenta varias ventajas con respecto a un enfoque tradicional para la prueba de hipótesis.

El enfoque bayesiano nos permite formular la prueba de hipótesis como un problema de decisión. Esto significa que podemos verificar la evidencia a favor de la hipótesis nula y no solo rechazarla y tomar decisiones que minimicen la pérdida esperada.
Debido a la casi ignorancia previa no paramétrica, las pruebas basadas en IDP nos permiten comenzar la prueba de hipótesis con supuestos previos muy débiles, mucho en la dirección de dejar que los datos hablen por sí mismos.
Si bien la prueba IDP comparte varias similitudes con un enfoque bayesiano estándar, al mismo tiempo encarna un cambio significativo de paradigma a la hora de tomar decisiones. De hecho, las pruebas basadas en IDP tienen la ventaja de producir un resultado indeterminado cuando la decisión depende de la previa. En otras palabras, la prueba IDP suspende el juicio cuando la opción que minimiza la pérdida esperada cambia dependiendo de la medida base del Proceso de Dirichlet en la que nos enfocamos.
Se ha verificado empíricamente que cuando la prueba IDP es indeterminada, las pruebas frecuentistas se comportan virtualmente como adivinadores aleatorios. Este sorprendente resultado tiene consecuencias prácticas en la prueba de hipótesis. Suponga que estamos tratando de comparar los efectos de dos tratamientos médicos (Y es mejor que X) y que, dados los datos disponibles, la prueba de IDP es indeterminada. En tal situación, la prueba frecuentista siempre emite una respuesta determinada (por ejemplo, puedo decir que Y es mejor que X), pero resulta que su respuesta es completamente aleatoria, como si estuviéramos lanzando una moneda al aire. Por otro lado, la prueba de desplazados internos reconoce la imposibilidad de tomar una decisión en estos casos. Por lo tanto, al decir "No sé", la prueba IDP proporciona una información más rica al analista. El analista podría, por ejemplo, utilizar esta información para recopilar más datos.

Variables categóricas

Para variables categóricas , es decir, cuando ${\ Displaystyle \ mathbb {X}}$ tiene un número finito de elementos, se sabe que el proceso de Dirichlet se reduce a una distribución de Dirichlet . En este caso, el Proceso de Dirichlet Impreciso se reduce al modelo de Dirichlet Impreciso propuesto por Walley ^[7] como modelo para la ignorancia previa (casi) de las oportunidades.

Ver también

Probabilidad imprecisa

Análisis bayesiano robusto

Referencias

^ Ferguson, Thomas (1973). "Análisis bayesiano de algunos problemas no paramétricos" . Annals of Statistics . 1 (2): 209–230. doi : 10.1214 / aos / 1176342360 . Señor 0350949 .
↑ ^a ^b Rubin D (1981). El bootstrap bayesiano. Ana. Stat. 9 130-134
^ Efron B (1979). Métodos de arranque: otra mirada a la navaja. Ana. Stat. 7 1–26
^ Sethuraman, J .; Tiwari, RC (1981). "Convergencia de medidas de Dirichlet e interpretación de su parámetro". Centro de Información Técnica de Defensa .
^ ^a ^b ^c Benavoli, Alessio; Mangili, Francesca; Ruggeri, Fabrizio; Zaffalon, Marco (2014). "Proceso de Dirichlet impreciso con aplicación a la prueba de hipótesis sobre la probabilidad de que X ".>arXiv : 1402.2755 [ math.ST ].
^ Benavoli, Alessio; Mangili, Francesca; Corani, Giorgio; Ruggeri, Fabrizio; Zaffalon, Marco (2014). "Una prueba de rango con signo de Wilcoxon Bayesiano basada en el proceso de Dirichlet". Actas de la 30a Conferencia Internacional sobre Aprendizaje Automático (ICML 2014). Cite journal requiere |journal=( ayuda )
^ Walley, Peter (1991). Razonamiento estadístico con probabilidades imprecisas . Londres: Chapman y Hall. ISBN 0-412-28660-2.

enlaces externos

Implementación de código abierto de pruebas de hipótesis basadas en el IDP
El grupo de probabilidad impreciso en IDSIA

[1] Ferguson, Thomas (1973). "Análisis bayesiano de algunos problemas no paramétricos" . Annals of Statistics . 1 (2): 209–230. doi : 10.1214 / aos / 1176342360 . Señor 0350949 .

[Rubin1981-2] Rubin D (1981). El bootstrap bayesiano. Ana. Stat. 9 130-134

[Efron1979-3] Efron B (1979). Métodos de arranque: otra mirada a la navaja. Ana. Stat. 7 1–26

[4] Sethuraman, J .; Tiwari, RC (1981). "Convergencia de medidas de Dirichlet e interpretación de su parámetro". Centro de Información Técnica de Defensa .

[Benavoliarxiv-5] Benavoli, Alessio; Mangili, Francesca; Ruggeri, Fabrizio; Zaffalon, Marco (2014). "Proceso de Dirichlet impreciso con aplicación a la prueba de hipótesis sobre la probabilidad de que X ".>arXiv : 1402.2755 [ math.ST ].

[6] Benavoli, Alessio; Mangili, Francesca; Corani, Giorgio; Ruggeri, Fabrizio; Zaffalon, Marco (2014). "Una prueba de rango con signo de Wilcoxon Bayesiano basada en el proceso de Dirichlet". Actas de la 30a Conferencia Internacional sobre Aprendizaje Automático (ICML 2014). Cite journal requiere |journal=( ayuda )

[WALLEY1991-7] Walley, Peter (1991). Razonamiento estadístico con probabilidades imprecisas . Londres: Chapman y Hall. ISBN 0-412-28660-2.

[1]