En teoría de probabilidad y estadística, el proceso de Dirichlet (DP) es uno de los modelos no paramétricos bayesianos más populares. Fue introducido por Thomas Ferguson [1] como anterior a las distribuciones de probabilidad.
Un proceso de Dirichlet está completamente definido por sus parámetros: (la distribución base o medida base ) es una distribución arbitraria y(el parámetro de concentración ) es un número real positivo (a menudo se denota como). Según el paradigma bayesiano, estos parámetros deben elegirse en función de la información previa disponible sobre el dominio.
La pregunta es: ¿cómo elegir los parámetros previos? del DP, en particular el de dimensión infinita , en caso de falta de información previa?
Para abordar este problema, el único a priori que se ha propuesto hasta ahora es el DP límite obtenido para , que ha sido introducido bajo el nombre de bootstrap bayesiano por Rubin; [2] de hecho, se puede demostrar que el bootstrap bayesiano es asintóticamente equivalente al bootstrap frecuentista introducido por Bradley Efron . [3] El proceso limitante de Dirichletha sido criticado por diversos motivos. Desde un punto de vista a-priori, la principal crítica es que tomarestá lejos de conducir a un a priori no informativo. [4] Además, a posteriori, asigna probabilidad cero a cualquier conjunto que no incluya las observaciones. [2]
Se ha propuesto el impreciso proceso de Dirichlet [5] para superar estos problemas. La idea básica es arreglar pero no elijas ninguna medida base precisa .
Más precisamente, el proceso de Dirichlet impreciso (IDP) se define de la siguiente manera:
dónde es el conjunto de todas las medidas de probabilidad. En otras palabras, el IDP es el conjunto de todos los procesos de Dirichlet (con un) obtenido dejando que la base mida para abarcar el conjunto de todas las medidas de probabilidad.
Inferencias con el proceso de Dirichlet impreciso
Dejar una distribución de probabilidad en (aquí es un espacio Borel estándar con Borel-campo ) y asumir que . Entonces considere una función acotada de valor real definido en . Es bien sabido que la expectativa de con respecto al proceso de Dirichlet es
Una de las propiedades más notables de los priores de DP es que la distribución posterior de es de nuevo un DP. Dejar ser una muestra independiente e idénticamente distribuida de y , entonces la distribución posterior de dadas las observaciones es
dónde es una medida de probabilidad atómica (delta de Dirac) centrada en . Por tanto, se sigue que Por lo tanto, para cualquier fijo , podemos aprovechar las ecuaciones anteriores para derivar expectativas previas y posteriores.
En el IDP puede abarcar el conjunto de todas las distribuciones . Esto implica que obtendremos una expectativa previa y posterior diferente de para cualquier elección de . Una forma de caracterizar las inferencias para el IDP es calculando los límites superior e inferior para la expectativa de wrt . A priori estos límites son:
el límite inferior (superior) se obtiene mediante una medida de probabilidad que pone toda la masa en el mínimo (superior) de , es decir, con (o respectivamente con ). De las expresiones anteriores de los límites inferior y superior, se puede observar que el rango debajo el IDP es el mismo que el rango original de. En otras palabras, al especificar el IDP, no estamos dando ninguna información previa sobre el valor de la expectativa de. A priori, la PDI es, por tanto, un modelo de (casi) ignorancia previa para.
A posteriori, los desplazados internos pueden aprender de los datos. Los límites posterior inferior y superior para la expectativa de de hecho están dadas por:
Se puede observar que las inferencias posteriores no dependen de . Para definir el IDP, el modelador solo tiene que elegir(el parámetro de concentración). Esto explica el significado del adjetivo cerca en casi ignorancia previa, porque el IDP requiere por parte del modelador la obtención de un parámetro. Sin embargo, este es un problema de elicitación simple para un anterior no paramétrico, ya que solo tenemos que elegir el valor de un escalar positivo (no quedan infinitos parámetros en el modelo IDP).
Finalmente, observe que para , IDP satisface
dónde . En otras palabras, el IDP es consistente.
Elección de la fuerza previa
El IDP está completamente especificado por , que es el único parámetro que queda en el modelo anterior. Dado que el valor de determina la rapidez con la que las expectativas posteriores inferiores y superiores convergen al aumentar el número de observaciones, se puede elegir para que coincida con una determinada tasa de convergencia. [5] El parámetrotambién puede elegirse para tener algunas propiedades frecuentistas deseables (por ejemplo, intervalos creíbles para calibrar intervalos frecuentistas, pruebas de hipótesis para calibrar para el error de Tipo I, etc.), ver Ejemplo: prueba de la mediana
Ejemplo: estimación de la distribución acumulada
Dejar Ser iid variables aleatorias reales con función de distribución acumulativa. .
Desde , dónde es la función indicadora , podemos usar IDP para derivar inferencias sobre La media posterior inferior y superior de están
dónde es la función de distribución empírica . Aquí, para obtener el menor hemos aprovechado el hecho de que y para el superior que .
Tenga en cuenta que, para cualquier elección precisa de (p. ej., distribución normal ), la expectativa posterior de se incluirá entre el límite inferior y superior.
Ejemplo: prueba de la mediana
IDP también se puede utilizar para probar hipótesis, por ejemplo, para probar la hipótesis. , es decir, la mediana de es mayor que cero. Considerando la partición y la propiedad del proceso de Dirichlet, se puede demostrar que la distribución posterior de es
dónde es el número de observaciones que son menores que cero,
- y
Al explotar esta propiedad, se sigue que
dónde es la función beta incompleta regularizada . Así podemos realizar la prueba de hipótesis
(con por ejemplo) y luego
- si se satisfacen ambas desigualdades podemos declarar que con probabilidad mayor que ;
- si solo se satisface una de las desigualdades (que necesariamente tiene que ser la de la superior), estamos en una situación indeterminada, es decir, no podemos decidir;
- si ambos no están satisfechos, podemos declarar que la probabilidad de que es menor que la probabilidad deseada de .
IDP devuelve una decisión indeterminada cuando la decisión es dependiente previa (es decir, cuando dependería de la elección de ).
Explotando la relación entre la función de distribución acumulada de la distribución Beta y la función de distribución acumulada de una variable aleatoria Z de una distribución binomial , donde la "probabilidad de éxito" es py el tamaño de la muestra es n :
podemos demostrar que la prueba mediana derivada con el IDP para cualquier elección de abarca la prueba del signo frecuentista unilateral como prueba para la mediana. De hecho, se puede verificar que para la -valor de la prueba de signo es igual a . Por tanto, si entonces el -el valor es menor que y, por tanto, las dos pruebas tienen el mismo poder.
Aplicaciones del proceso de Dirichlet impreciso
Los procesos de Dirichlet se utilizan con frecuencia en las estadísticas no paramétricas bayesianas. El Proceso de Dirichlet Impreciso se puede emplear en lugar de los procesos de Dirichlet en cualquier aplicación en la que se carece de información previa (por lo tanto, es importante modelar este estado de ignorancia previa).
En este sentido, el Proceso de Dirichlet Impreciso se ha utilizado para pruebas de hipótesis no paramétricas, ver el paquete estadístico del Proceso de Dirichlet Impreciso . Con base en el Proceso de Dirichlet Impreciso, se han derivado versiones bayesianas no paramétricas de casi ignorancia de los siguientes estimadores no paramétricos clásicos: la prueba de suma de rangos de Wilcoxon [5] y la prueba de rangos con signo de Wilcoxon. [6]
Un modelo bayesiano no paramétrico de casi ignorancia presenta varias ventajas con respecto a un enfoque tradicional para la prueba de hipótesis.
- El enfoque bayesiano nos permite formular la prueba de hipótesis como un problema de decisión. Esto significa que podemos verificar la evidencia a favor de la hipótesis nula y no solo rechazarla y tomar decisiones que minimicen la pérdida esperada.
- Debido a la casi ignorancia previa no paramétrica, las pruebas basadas en IDP nos permiten comenzar la prueba de hipótesis con supuestos previos muy débiles, mucho en la dirección de dejar que los datos hablen por sí mismos.
- Si bien la prueba IDP comparte varias similitudes con un enfoque bayesiano estándar, al mismo tiempo encarna un cambio significativo de paradigma a la hora de tomar decisiones. De hecho, las pruebas basadas en IDP tienen la ventaja de producir un resultado indeterminado cuando la decisión depende de la previa. En otras palabras, la prueba IDP suspende el juicio cuando la opción que minimiza la pérdida esperada cambia dependiendo de la medida base del Proceso de Dirichlet en la que nos enfocamos.
- Se ha verificado empíricamente que cuando la prueba IDP es indeterminada, las pruebas frecuentistas se comportan virtualmente como adivinadores aleatorios. Este sorprendente resultado tiene consecuencias prácticas en la prueba de hipótesis. Suponga que estamos tratando de comparar los efectos de dos tratamientos médicos (Y es mejor que X) y que, dados los datos disponibles, la prueba de IDP es indeterminada. En tal situación, la prueba frecuentista siempre emite una respuesta determinada (por ejemplo, puedo decir que Y es mejor que X), pero resulta que su respuesta es completamente aleatoria, como si estuviéramos lanzando una moneda al aire. Por otro lado, la prueba de desplazados internos reconoce la imposibilidad de tomar una decisión en estos casos. Por lo tanto, al decir "No sé", la prueba IDP proporciona una información más rica al analista. El analista podría, por ejemplo, utilizar esta información para recopilar más datos.
Variables categóricas
Para variables categóricas , es decir, cuandotiene un número finito de elementos, se sabe que el proceso de Dirichlet se reduce a una distribución de Dirichlet . En este caso, el Proceso de Dirichlet Impreciso se reduce al modelo de Dirichlet Impreciso propuesto por Walley [7] como modelo para la ignorancia previa (casi) de las oportunidades.
Ver también
Referencias
- ^ Ferguson, Thomas (1973). "Análisis bayesiano de algunos problemas no paramétricos" . Annals of Statistics . 1 (2): 209–230. doi : 10.1214 / aos / 1176342360 . Señor 0350949 .
- ↑ a b Rubin D (1981). El bootstrap bayesiano. Ana. Stat. 9 130-134
- ^ Efron B (1979). Métodos de arranque: otra mirada a la navaja. Ana. Stat. 7 1–26
- ^ Sethuraman, J .; Tiwari, RC (1981). "Convergencia de medidas de Dirichlet e interpretación de su parámetro". Centro de Información Técnica de Defensa .
- ^ Benavoli, Alessio; Mangili, Francesca; Corani, Giorgio; Ruggeri, Fabrizio; Zaffalon, Marco (2014). "Una prueba de rango con signo de Wilcoxon Bayesiano basada en el proceso de Dirichlet". Actas de la 30a Conferencia Internacional sobre Aprendizaje Automático (ICML 2014). Cite journal requiere
|journal=
( ayuda ) - ^ Walley, Peter (1991). Razonamiento estadístico con probabilidades imprecisas . Londres: Chapman y Hall. ISBN 0-412-28660-2.
enlaces externos
- Implementación de código abierto de pruebas de hipótesis basadas en el IDP
- El grupo de probabilidad impreciso en IDSIA