Proceso de Dirichlet


En la teoría de la probabilidad , los procesos de Dirichlet (después de Peter Gustav Lejeune Dirichlet ) son una familia de procesos estocásticos cuyas realizaciones son distribuciones de probabilidad . En otras palabras, un proceso de Dirichlet es una distribución de probabilidad cuyo rango es en sí mismo un conjunto de distribuciones de probabilidad. A menudo se utiliza en la inferencia bayesiana para describir el conocimiento previo sobre la distribución de variables aleatorias: qué tan probable es que las variables aleatorias se distribuyan de acuerdo con una u otra distribución particular.

Se extrae del proceso de Dirichlet . Las cuatro filas usan diferentes alfa (de arriba a abajo: 1, 10, 100 y 1000) y cada fila contiene tres repeticiones del mismo experimento. Como se ve en los gráficos, las extracciones de un proceso de Dirichlet son distribuciones discretas y se vuelven menos concentradas (más dispersas) al aumentar . Los gráficos se generaron utilizando la vista del proceso de rotura de palos del proceso de Dirichlet.

El proceso de Dirichlet está especificado por una distribución base y un número real positivo llamado parámetro de concentración (también conocido como parámetro de escala). La distribución base es el valor esperado del proceso, es decir, el proceso de Dirichlet dibuja distribuciones "alrededor" de la distribución base de la misma manera que una distribución normal dibuja números reales alrededor de su media. Sin embargo, incluso si la distribución base es continua , las distribuciones extraídas del proceso de Dirichlet son casi con seguridad discretas . El parámetro de escala especifica qué tan fuerte es esta discretización: en el límite de, las realizaciones están todas concentradas en un solo valor, mientras que en el límite de las realizaciones se vuelven continuas. Entre los dos extremos, las realizaciones son distribuciones discretas con cada vez menos concentración como aumenta.

El proceso de Dirichlet también puede verse como la generalización de dimensión infinita de la distribución de Dirichlet . De la misma manera que la distribución de Dirichlet es el previo conjugado para la distribución categórica , el proceso de Dirichlet es el previo conjugado para distribuciones discretas infinitas no paramétricas . Una aplicación particularmente importante de los procesos de Dirichlet es como distribución de probabilidad previa en modelos de mezcla infinita .

El proceso de Dirichlet fue introducido formalmente por Thomas Ferguson en 1973. [1] Desde entonces se ha aplicado en la minería de datos y el aprendizaje automático , entre otros para el procesamiento del lenguaje natural , la visión por computadora y la bioinformática .

Los procesos de Dirichlet se utilizan generalmente cuando se modelan datos que tienden a repetir valores anteriores de la forma denominada "rico se vuelve más rico". Concretamente, supongamos que la generación de valores se puede simular mediante el siguiente algoritmo.

Aporte: (una distribución de probabilidad llamada distribución base), (un número real positivo llamado parámetro de escala )
Para :

a) Con probabilidad dibujar de .

b) Con probabilidad colocar , dónde es el número de observaciones previas de .
(Formalmente, dónde denota el número de elementos en el conjunto.)

Al mismo tiempo, otro modelo común de datos es que las observaciones se supone que son independientes e idénticamente distribuidos (iid) de acuerdo con alguna distribución (aleatoria). El objetivo de introducir los procesos de Dirichlet es poder describir el procedimiento descrito anteriormente en este modelo iid.

La las observaciones en el algoritmo no son independientes , ya que tenemos que considerar los resultados anteriores al generar el siguiente valor. Sin embargo, son intercambiables . Este hecho puede demostrarse calculando la distribución de probabilidad conjunta de las observaciones y observando que la fórmula resultante solo depende de quélos valores ocurren entre las observaciones y cuántas repeticiones tiene cada una. Debido a esta intercambiabilidad, se aplica el teorema de representación de Finetti e implica que las observacionesson condicionalmente independientes dada una distribución (latente). Estoes una variable aleatoria en sí misma y tiene una distribución. Esta distribución (sobre distribuciones) se denomina proceso de Dirichlet (). En resumen, esto significa que obtenemos un procedimiento equivalente al algoritmo anterior:

  1. Dibuja una distribución de
  2. Dibujar observaciones independientemente de .

En la práctica, sin embargo, trazar una distribución concreta es imposible, ya que su especificación requiere una cantidad infinita de información. Este es un fenómeno común en el contexto de la estadística no paramétrica bayesiana , donde una tarea típica es aprender distribuciones en espacios funcionales, que involucran efectivamente una infinidad de parámetros. La idea clave es que en muchas aplicaciones las distribuciones de dimensión infinita aparecen solo como un dispositivo computacional intermedio y no son necesarias ni para la especificación inicial de creencias previas ni para el enunciado de la inferencia final.

Dado un conjunto medible S , una distribución de probabilidad base H y un número real positivo , el proceso de Dirichlet es un proceso estocástico cuya ruta muestral (o realización , es decir, una secuencia infinita de variables aleatorias extraídas del proceso) es una distribución de probabilidad sobre S , de modo que se cumple lo siguiente. Para cualquier partición finita medible de S , denotada,

dónde denota la distribución de Dirichlet y la notación significa que la variable aleatoria tiene la distribución .

Hay varias vistas equivalentes del proceso de Dirichlet. Además de la definición formal anterior, el proceso de Dirichlet se puede definir implícitamente a través del teorema de de Finetti como se describe en la primera sección; esto a menudo se denomina proceso de restaurante chino . Una tercera alternativa es el proceso de ruptura de palos , que define el proceso de Dirichlet de manera constructiva escribiendo una distribución muestreada del proceso como, dónde son muestras de la distribución base , es una función indicadora centrada en (cero en todas partes excepto por ) y el están definidos por un esquema recursivo que muestra repetidamente de la distribución beta .

El proceso del restaurante chino

Animación de un proceso de restaurante chino con parámetro de escala . Las tablas se ocultan una vez que los clientes de una mesa ya no se pueden mostrar; sin embargo, cada mesa tiene un número infinito de asientos. (Grabación de una animación interactiva. [2] )

Una metáfora ampliamente utilizada para el proceso de Dirichlet se basa en el llamado proceso de restaurante chino . La metáfora es la siguiente:

Imagínese un restaurante chino en el que entran clientes. Un nuevo cliente se sienta en una mesa con una probabilidad proporcional al número de clientes que ya están sentados allí. Además, un cliente abre una nueva tabla con una probabilidad proporcional al parámetro de escala. Después de ingresar un número infinito de clientes, se obtiene una distribución de probabilidad sobre un número infinito de tablas a elegir. Esta distribución de probabilidad sobre las tablas es una muestra aleatoria de las probabilidades de observaciones extraídas de un proceso de Dirichlet con parámetro de escala..

Si uno asocia extrae de la medida base con cada tabla, la distribución resultante sobre el espacio muestral es una muestra aleatoria de un proceso de Dirichlet. El proceso del restaurante chino está relacionado con el esquema de muestreo de urnas de Pólya, que produce muestras de distribuciones de Dirichlet finitas.

Debido a que los clientes se sientan en una mesa con una probabilidad proporcional al número de clientes que ya están sentados en la mesa, se pueden deducir dos propiedades del DP:

  1. El proceso de Dirichlet exhibe una propiedad que se refuerza a sí mismo: cuanto más a menudo se muestrea un valor dado en el pasado, es más probable que se muestre nuevamente.
  2. Incluso si es una distribución sobre un conjunto incontable , existe una probabilidad distinta de cero de que dos muestras tengan exactamente el mismo valor porque la masa de probabilidad se concentrará en un pequeño número de tablas.

El proceso de rotura de palos

Un tercer enfoque del proceso de Dirichlet es la denominada vista del proceso de rotura de palos. Recuerde que las extracciones de un proceso de Dirichlet son distribuciones sobre un conjunto. Como se señaló anteriormente, la distribución dibujada es discreta con probabilidad 1. En la vista del proceso de ruptura de palos, usamos explícitamente la discreción y damos la función de masa de probabilidad de esta distribución discreta (aleatoria) como:

dónde es la función indicadora que se evalúa a cero en todas partes, excepto para. Dado que esta distribución es aleatoria en sí misma, su función de masa está parametrizada por dos conjuntos de variables aleatorias: las ubicaciones y las probabilidades correspondientes . A continuación, presentamos sin pruebas cuáles son estas variables aleatorias.

Las localizaciones son independientes e idénticamente distribuidos según , la distribución base del proceso de Dirichlet. Las probabilidades se dan mediante un procedimiento que se asemeja a la rotura de un palo de longitud unitaria (de ahí el nombre):

dónde son variables aleatorias independientes con la distribución beta . El parecido con 'romper palos' se puede ver considerandocomo la longitud de un trozo de palo. Comenzamos con una varilla de longitud unitaria y en cada paso rompemos una porción de la varilla restante de acuerdo con y asigne esta pieza rota a . La fórmula puede entenderse observando que después de que los primeros  valores k - 1 tengan sus porciones asignadas, la longitud del resto de la varilla es y esta pieza se rompe según y es asignado a .

El pequeño es decir, se dejará menos palo para los valores subsiguientes (en promedio), produciendo distribuciones más concentradas.

El proceso de rotura de palos es similar a la construcción en la que se toman muestras secuencialmente de distribuciones beta marginales para generar una muestra a partir de una distribución de Dirichlet . Consulte [3] para ver la prueba.

El esquema de la urna de Pólya

Otra forma más de visualizar el proceso de Dirichlet y el proceso del restaurante chino es como un esquema de urna Pólya modificado a veces llamado esquema de muestreo Blackwell-MacQueen . Imagina que empezamos con una urna llena debolas negras. Luego procedemos de la siguiente manera:

  1. Cada vez que necesitamos una observación, sacamos una bola de la urna.
  2. Si la bola es negra, generamos un nuevo color (no negro) uniformemente, etiquetamos una nueva bola de este color, dejamos caer la nueva bola en la urna junto con la bola que dibujamos y devolvemos el color que generamos.
  3. De lo contrario, etiquete una nueva bola con el color de la bola que dibujamos, deje caer la nueva bola en la urna junto con la bola que dibujamos y devuelva el color que observamos.

La distribución resultante sobre los colores es la misma que la distribución sobre las tablas en el proceso del restaurante chino. Además, cuando dibujamos una bola negra, si en lugar de generar un nuevo color, elegimos un valor aleatorio de una distribución base y use ese valor para etiquetar la nueva bola, la distribución resultante sobre las etiquetas será la misma que la distribución sobre los valores en un proceso de Dirichlet.

El Proceso de Dirichlet se puede utilizar como distribución previa para estimar la distribución de probabilidad que genera los datos. En esta sección, consideramos el modelo

La distribución del proceso de Dirichlet satisface la conjugación previa , la consistencia posterior y el teorema de Bernstein-von Mises . [4]

Conjugación previa

En este modelo, la distribución posterior es nuevamente un proceso de Dirichlet. Esto significa que el proceso de Dirichlet es un previo conjugado para este modelo. La distribución posterior está dada por

dónde se define a continuación.

Consistencia posterior

Si adoptamos el punto de vista frecuentista de la probabilidad, creemos que existe una verdadera distribución de probabilidad.que generó los datos. Entonces resulta que el proceso de Dirichlet es consistente en la topología débil , lo que significa que para cada vecindario débil de , la probabilidad posterior de converge a .

Teorema de Bernstein-Von Mises

Para interpretar los conjuntos creíbles como conjuntos de confianza, se necesita un teorema de Bernstein-von Mises . En el caso del proceso de Dirichlet comparamos la distribución posterior con el proceso empírico . Suponer es un -Clase Donador, es decir

por un puente browniano . Supongamos también que existe una función tal que tal que , luego, casi seguro

Esto implica que los conjuntos creíbles que construye son conjuntos de confianza asintóticos, y la inferencia bayesiana basada en el proceso de Dirichlet es asintóticamente también una inferencia frecuentista válida.

Simulación de 1000 observaciones extraídas de un modelo de mezcla de Dirichlet. Cada observación dentro de un grupo se extrae independientemente de la distribución normal multivariante. El grupo significa se extraen de una distribución G que a su vez se extrae de un proceso de Dirichlet con parámetro de concentración y distribución base . Cada fila es una nueva simulación.

Para comprender qué son los procesos de Dirichlet y el problema que resuelven, consideramos el ejemplo de la agrupación de datos . Es una situación común que se asume que los puntos de datos se distribuyen de manera jerárquica, donde cada punto de datos pertenece a un grupo (elegido al azar) y los miembros de un grupo se distribuyen de forma aleatoria dentro de ese grupo.

Ejemplo 1

Por ejemplo, podríamos estar interesados ​​en cómo la gente votará sobre una serie de preguntas en las próximas elecciones. Un modelo razonable para esta situación podría ser clasificar a cada votante como liberal, conservador o moderado y luego modelar el evento en el que un votante dice "Sí" a una pregunta en particular como una variable aleatoria de Bernoulli con la probabilidad dependiendo de qué grupo político pertenecen a. Al observar cómo se emitieron los votos en años anteriores sobre leyes similares, se podría ajustar un modelo predictivo utilizando un algoritmo de agrupamiento simple como k-means . Sin embargo, ese algoritmo requiere conocer de antemano la cantidad de clústeres que generaron los datos. En muchas situaciones, no es posible determinar esto con anticipación, e incluso cuando podemos asumir razonablemente una cantidad de grupos, aún nos gustaría poder verificar esta suposición. Por ejemplo, en el ejemplo de votación anterior, la división en liberales, conservadores y moderados podría no estar lo suficientemente ajustada; Atributos como religión, clase o raza también podrían ser críticos para modelar el comportamiento de los votantes, lo que resulta en más grupos en el modelo.

Ejemplo 2

Como otro ejemplo, podríamos estar interesados ​​en modelar las velocidades de las galaxias usando un modelo simple asumiendo que las velocidades están agrupadas, por ejemplo, asumiendo que cada velocidad se distribuye de acuerdo con la distribución normal. , donde el La observación pertenece a la El cúmulo de galaxias con una velocidad esperada común. En este caso, está lejos de ser obvio cómo determinar a priori cuántos conglomerados (de velocidades comunes) debería haber y cualquier modelo para esto sería altamente sospechoso y debería cotejarse con los datos. Al utilizar un proceso de Dirichlet previo para la distribución de las medias de los conglomerados, evitamos la necesidad de especificar explícitamente con anticipación cuántos conglomerados hay, aunque el parámetro de concentración todavía lo controla implícitamente.

Consideramos este ejemplo con más detalle. Un primer modelo ingenuo es presuponer que existengrupos de velocidades normalmente distribuidas con varianza fija conocida común . Denotando el evento que elLa observación está en el th cluster como podemos escribir este modelo como:

Es decir, asumimos que los datos pertenecen a grupos distintos con medios y eso es la probabilidad previa (desconocida) de que un punto de datos pertenezca al th cluster. Suponemos que no tenemos información inicial que distinga los grupos, que es capturada por el simétrico anterior. Aquídenota la distribución de Dirichlet y denota un vector de longitud donde cada elemento es 1. Además, asignamos distribuciones anteriores independientes e idénticas a cada una de las medias del clúster, donde puede ser cualquier distribución paramétrica con parámetros indicados como . Los hiperparámetros y se toman como constantes fijas conocidas, elegidas para reflejar nuestras creencias previas sobre el sistema. Para comprender la conexión con los procesos previos de Dirichlet, reescribimos este modelo en una forma equivalente pero más sugerente:

En lugar de imaginar que a cada punto de datos se le asigna primero un grupo y luego se extrae de la distribución asociada a ese grupo, ahora pensamos en cada observación asociada con el parámetro extraído de una distribución discreta con apoyo en el medio. Es decir, ahora estamos tratando el como extraído de la distribución aleatoria y nuestra información previa se incorpora al modelo mediante la distribución sobre distribuciones .

"> Reproducir medios
Animación del proceso de agrupamiento de datos unidimensionales utilizando distribuciones gaussianas extraídas de un proceso de Dirichlet. Los histogramas de los grupos se muestran en diferentes colores. Durante el proceso de estimación de parámetros, se crean nuevos clústeres y crecen con los datos. La leyenda muestra los colores del grupo y el número de puntos de datos asignados a cada grupo.

Ahora nos gustaría extender este modelo para que funcione sin especificar previamente un número fijo de clústeres. . Matemáticamente, esto significa que nos gustaría seleccionar una distribución previa aleatoria. donde los valores de los grupos significa se distribuyen de nuevo de forma independiente de acuerdo con y la distribución sobre es simétrico sobre el conjunto infinito de grupos. Esto es exactamente lo que logra el modelo:

Con esto en la mano, podemos comprender mejor los méritos computacionales del proceso de Dirichlet. Supongamos que quisiéramos dibujar observaciones del modelo ingenuo con exactamente racimos. Un algoritmo simple para hacer esto sería dibujar valores de de , una distribución de y luego, para cada observación, muestrear independientemente el grupo con probabilidad y el valor de la observación según . Es fácil ver que este algoritmo no funciona en caso de que permitamos clústeres infinitos porque esto requeriría muestrear un parámetro dimensional infinito.. Sin embargo, todavía es posible muestrear observaciones. Por ejemplo, se puede utilizar la representación de un restaurante chino que se describe a continuación y calcular la probabilidad de que se creen conglomerados usados ​​y un nuevo conglomerado. Esto evita tener que especificar explícitamente. Otras soluciones se basan en un truncamiento de conglomerados: se introduce un límite superior (alto) al número real de conglomerados y los números de conglomerado superiores al límite inferior se tratan como un solo conglomerado.

Ajuste del modelo descrito anteriormente en función de los datos observados significa encontrar la distribución posterior sobre probabilidades de conglomerados y sus medias asociadas. En el caso de dimensión infinita es obviamente imposible escribir el posterior explícitamente. Sin embargo, es posible extraer muestras de este posterior utilizando un muestreador Gibbs modificado . [5] Este es el hecho crítico que hace que el proceso de Dirichlet sea útil para la inferencia .

Los procesos de Dirichlet se utilizan con frecuencia en las estadísticas no paramétricas bayesianas . "No paramétrico" aquí no significa un modelo sin parámetros, sino un modelo en el que las representaciones crecen a medida que se observan más datos. Los modelos bayesianos no paramétricos han ganado una popularidad considerable en el campo del aprendizaje automático debido a la flexibilidad mencionada anteriormente, especialmente en el aprendizaje no supervisado . En un modelo bayesiano no paramétrico, las distribuciones anterior y posterior no son distribuciones paramétricas, sino procesos estocásticos. [6] El hecho de que la distribución de Dirichlet sea una distribución de probabilidad en el simplex de conjuntos de números no negativos que suman uno, lo convierte en un buen candidato para modelar distribuciones sobre distribuciones o distribuciones sobre funciones. Además, la naturaleza no paramétrica de este modelo lo convierte en un candidato ideal para problemas de agrupación en los que se desconoce de antemano el número distinto de agrupaciones. Además, el proceso de Dirichlet también se ha utilizado para desarrollar una combinación de modelos expertos, en el contexto de algoritmos de aprendizaje supervisado (configuración de regresión o clasificación). Por ejemplo, mezclas de expertos en procesos gaussianos, donde el número de expertos requeridos debe inferirse de los datos. [7] [8]

Como las extracciones de un proceso de Dirichlet son discretas, un uso importante es como probabilidad previa en modelos de mezcla infinita . En este caso,es el conjunto paramétrico de distribuciones de componentes. Por lo tanto, el proceso generativo es que se extrae una muestra de un proceso de Dirichlet, y para cada punto de datos, a su vez, se extrae un valor de esta distribución de muestra y se utiliza como distribución de componentes para ese punto de datos. El hecho de que no haya límite para el número de componentes distintos que pueden generarse hace que este tipo de modelo sea apropiado para el caso en el que el número de componentes de la mezcla no está bien definido de antemano. Por ejemplo, el modelo de mezcla infinita de gaussianos, [9] así como los modelos de regresión de mezcla asociados, por ejemplo, [10]

La naturaleza infinita de estos modelos también los presta a aplicaciones de procesamiento de lenguaje natural , donde a menudo es deseable tratar el vocabulario como un conjunto infinito y discreto.

El proceso de Dirichlet también se puede utilizar para pruebas de hipótesis no paramétricas, es decir, para desarrollar versiones bayesianas no paramétricas de las pruebas de hipótesis no paramétricas clásicas, por ejemplo , prueba de signos , prueba de suma de rangos de Wilcoxon , prueba de rangos con signo de Wilcoxon , etc. Por ejemplo, versiones bayesianas no paramétricas de La prueba de suma de rangos de Wilcoxon y la prueba de rangos con signo de Wilcoxon se han desarrollado utilizando el proceso de Dirichlet impreciso , un proceso de Dirichlet de ignorancia anterior. [ cita requerida ]

  • El proceso de Pitman-Yor es una generalización del proceso de Dirichlet para acomodar colas de ley de potencias
  • El proceso de Dirichlet jerárquico amplía el proceso de Dirichlet ordinario para modelar datos agrupados.

  1. ^ Ferguson, Thomas (1973). "Análisis bayesiano de algunos problemas no paramétricos" . Annals of Statistics . 1 (2): 209–230. doi : 10.1214 / aos / 1176342360 . Señor  0350949 .
  2. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/crp.html?parameters=0.5&dp=1#
  3. ^ Paisley, John. Una simple prueba de la construcción rompedora del proceso de Dirichlet. Informe técnico, Universidad de Princeton, Departamento de Ciencias de la Computación, 2010.
  4. ^ Aad van der Vaart , Subhashis Ghosal (2017). Fundamentos de la inferencia no paramétrica bayesiana . Prensa de la Universidad de Cambridge. ISBN 978-0-521-87826-5.
  5. ^ Sudderth, Erik (2006). Modelos gráficos para el reconocimiento y seguimiento de objetos visuales (PDF) (Ph.D.). MIT Press.
  6. ^ Nils Lid Hjort , Chris Holmes, Peter Müller y Stephen G. Walker (2010). No paramétricos bayesianos . Prensa de la Universidad de Cambridge. ISBN 978-0-521-51346-3.CS1 maint: varios nombres: lista de autores ( enlace )
  7. ^ Sotirios P. Chatzis, "Un modelo de proceso Gaussiano variable latente con procesos previos de Pitman-Yor para clasificación multiclase", Neurocomputing, vol. 120, págs. 482-489, noviembre de 2013. [1]
  8. ^ Sotirios P. Chatzis, Yiannis Demiris, "Mezclas no paramétricas de procesos gaussianos con comportamiento de ley de potencia", Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje, vol. 23, no. 12, págs. 1862-1871, diciembre de 2012. [2]
  9. ^ Rasmussen, Carl (2000). "El modelo de mezcla gaussiana infinita" (PDF) . Avances en sistemas de procesamiento de información neuronal . 12 : 554–560.
  10. ^ Sotirios P. Chatzis, Dimitrios Korkinof y Yiannis Demiris, "Un enfoque bayesiano no paramétrico hacia el aprendizaje de robots por demostración", Robótica y sistemas autónomos, vol. 60, no. 6, págs. 789–802, junio de 2012. [3]

  • Introducción a la distribución de Dirichlet y procesos relacionados por Frigyik, Kapila y Gupta
  • Descripción general de Yee Whye Teh de los procesos de Dirichlet
  • Página web del taller NIPS 2003 sobre métodos bayesianos no paramétricos
  • Tutorial NIPS 2005 de Michael Jordan: Métodos bayesianos no paramétricos: procesos de Dirichlet, procesos de restaurantes chinos y todo eso
  • Resumen de Peter Green sobre la construcción de los procesos de Dirichlet
  • Artículo de Peter Green sobre modelos probabilísticos de procesos de Dirichlet con implicaciones para el modelado y análisis estadístico
  • Tutorial UAI 2005 de Zoubin Ghahramani sobre métodos bayesianos no paramétricos
  • Software GIMM para realizar análisis de conglomerados utilizando modelos de mezcla infinita
  • Un ejemplo de juguete de agrupación en clústeres mediante el proceso de Dirichlet. por Zhiyuan Weng