En teoría de probabilidad y estadística , la distribución de Dirichlet-multinomial es una familia de distribuciones de probabilidad multivariadas discretas sobre un soporte finito de números enteros no negativos. También se denomina distribución multinomial compuesta de Dirichlet ( DCM ) o distribución de Pólya multivariada (en honor a George Pólya ). Es una distribución de probabilidad compuesta , donde un vector de probabilidad p se extrae de una distribución de Dirichlet con un vector de parámetros, y una observación extraída de una distribución multinomial con un vector de probabilidad p y un número de intentos n . El vector de parámetros de Dirichlet captura la creencia previa sobre la situación y puede verse como un pseudocontento: observaciones de cada resultado que ocurren antes de que se recopilen los datos reales. La composición corresponde a un esquema de urnas de Pólya . Se encuentra con frecuencia en estadísticas bayesianas , aprendizaje automático , métodos empíricos de Bayes y estadísticas clásicas como una distribución multinomial sobredispersa .
Parámetros | número de ensayos ( entero positivo ) | ||
---|---|---|---|
Apoyo | | ||
PMF | |||
Significar | |||
Diferencia | | ||
MGF | con [1] | ||
CF | | ||
PGF | |
Se reduce a la distribución categórica como un caso especial cuando n = 1. También se aproxima arbitrariamente bien a la distribución multinomial para α grande . El Dirichlet-multinomial es una extensión multivariante de la distribución beta-binomial , ya que las distribuciones multinomial y de Dirichlet son versiones multivariadas de la distribución binomial y las distribuciones beta , respectivamente.
Especificación
Dirichlet-multinomial como distribución compuesta
La distribución de Dirichlet es una distribución conjugada a la distribución multinomial. Este hecho conduce a una distribución de compuestos analíticamente tratable . Para un vector aleatorio de recuentos de categorías, distribuida según una distribución multinomial , la distribución marginal se obtiene integrando en la distribución para p, que se puede considerar como un vector aleatorio siguiendo una distribución de Dirichlet:
que da como resultado la siguiente fórmula explícita:
dónde se define como la suma . Otra forma para esta misma distribución compuesta, escrita de manera más compacta en términos de la función beta , B , es la siguiente:
La última forma enfatiza el hecho de que las categorías de recuento cero pueden ignorarse en el cálculo, un hecho útil cuando el número de categorías es muy grande y escaso (por ejemplo, recuento de palabras en documentos).
Observe que el pdf es la distribución Beta-binomial cuando . También se puede demostrar que se aproxima a la distribución multinomial comose acerca al infinito. El parámetrorige el grado de sobredispersión o explosión en relación con el multinomio. Opciones alternativas para denotar que se encuentran en la literatura son S y A.
Dirichlet-multinomial como modelo de urna
La distribución de Dirichlet-multinomial también se puede motivar mediante un modelo de urna para valores enteros positivos del vector α, conocido como modelo de urna de Polya . Específicamente, imagina una urna que contiene bolas de K colores numeradaspara el i-ésimo color, donde se realizan sorteos aleatorios. Cuando se extrae y se observa una bola al azar, se devuelven a la urna dos bolas del mismo color. Si esto se realiza n veces, entonces la probabilidad de observar el vector aleatoriode recuentos de colores es un multinomio de Dirichlet con parámetros ny α. Si los sorteos aleatorios son con reemplazo simple (no se agregan a la urna bolas por encima de la bola observada), entonces la distribución sigue una distribución multinomial y si los sorteos aleatorios se realizan sin reemplazo, la distribución sigue una distribución hipergeométrica multivariante .
Propiedades
Momentos
Una vez más, deja y deja , entonces el número esperado de veces que se observó el resultado i en n ensayos es
La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida binomialmente beta y, por lo tanto, es
Las entradas fuera de la diagonal son las covarianzas :
para i , j distinto.
Todas las covarianzas son negativas porque para n fijo , un aumento en un componente de un vector de Dirichlet-multinomial requiere una disminución en otro componente.
Esta es una matriz semidefinida positiva K × K de rango K - 1.
Las entradas de la matriz de correlación correspondiente son
El tamaño de la muestra se elimina de esta expresión.
Cada uno de los k componentes por separado tiene una distribución beta-binomial.
El soporte de la distribución de Dirichlet-multinomial es el conjunto
Su número de elementos es
Notación matricial
En notación matricial,
y
con p T = la transposición del vector fila del vector columna p . Dejando
- , podemos escribir alternativamente
El parámetro se conoce como correlación "intraclase" o "intragrupo". Es esta correlación positiva la que da lugar a una sobredispersión en relación con la distribución multinomial.
Agregación
Si
entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma,
Esta propiedad de agregación se puede utilizar para derivar la distribución marginal de mencionado anteriormente.
Función de verosimilitud
Conceptualmente, estamos haciendo N extractos independientes a partir de una distribución categórica con K categorías. Representemos los extractos independientes como variables categóricas aleatorias por . Denotemos el número de veces que una categoría particular ha sido visto ) entre todas las variables categóricas como , y . Entonces, tenemos dos puntos de vista separados sobre este problema:
- Un conjunto de variables categóricas .
- Una única variable con valor vectorial , distribuidos según una distribución multinomial .
El primer caso es un conjunto de variables aleatorias que especifican cada resultado individual , mientras que el segundo es una variable que especifica el número de resultados de cada una de las K categorías. La distinción es importante, ya que los dos casos tienen distribuciones de probabilidad correspondientemente diferentes.
El parámetro de la distribución categórica es dónde es la probabilidad de sacar valor ; es igualmente el parámetro de la distribución multinomial . En lugar de especificardirectamente, le damos una distribución previa conjugada y, por lo tanto, se extrae de una distribución de Dirichlet con vector de parámetro.
Integrando , obtenemos una distribución compuesta. Sin embargo, la forma de la distribución es diferente según el punto de vista que adoptemos.
Para un conjunto de resultados individuales
Distribución conjunta
Para variables categóricas , la distribución conjunta marginal se obtiene integrando:
que da como resultado la siguiente fórmula explícita:
dónde es la función gamma , con
Tenga en cuenta la ausencia del coeficiente multinomial debido a que la fórmula se refiere a la probabilidad de una secuencia de variables categóricas en lugar de una probabilidad en los recuentos dentro de cada categoría.
Aunque las variables no aparecen explícitamente en la fórmula anterior, entran a través de la valores.
Distribución condicional
Otra fórmula útil, particularmente en el contexto del muestreo de Gibbs , pregunta cuál es la densidad condicional de una variable dada es, condicionado a todas las otras variables (que denotaremos ). Resulta tener una forma extremadamente simple:
dónde especifica el número de recuentos de categoría visto en todas las variables que no sean .
Puede resultar útil mostrar cómo derivar esta fórmula. En general, las distribuciones condicionales son proporcionales a las distribuciones conjuntas correspondientes , por lo que simplemente comenzamos con la fórmula anterior para la distribución conjunta de todas las valores y luego elimine cualquier factor que no dependa del particular en cuestión. Para hacer esto, usamos la notación definido anteriormente, y
También usamos el hecho de que
Luego:
En general, no es necesario preocuparse por la constante de normalización al momento de derivar las ecuaciones para distribuciones condicionales. La constante de normalización se determinará como parte del algoritmo de muestreo de la distribución (consulte Distribución categórica # Muestreo ). Sin embargo, cuando la distribución condicional se escribe en la forma simple anterior, resulta que la constante de normalización asume una forma simple:
Por eso
Esta fórmula está estrechamente relacionada con el proceso del restaurante chino , que resulta de tomar el límite como.
En una red bayesiana
En una red bayesiana más grande en la que se producen distribuciones categóricas (o las llamadas "multinomiales") con distribuciones a priori de Dirichlet como parte de una red más grande, todas las distribuciones a priori de Dirichlet pueden colapsarse siempre que los únicos nodos que dependen de ellos sean distribuciones categóricas. El colapso ocurre para cada nodo de distribución de Dirichlet por separado de los demás, y ocurre independientemente de cualquier otro nodo que pueda depender de las distribuciones categóricas. También ocurre independientemente de si las distribuciones categóricas dependen de nodos adicionales a los anteriores de Dirichlet (aunque en tal caso, esos otros nodos deben permanecer como factores condicionantes adicionales). Esencialmente, todas las distribuciones categóricas que dependen de un nodo de distribución de Dirichlet dado se conectan en una única distribución conjunta de Dirichlet-multinomial definida por la fórmula anterior. La distribución conjunta, tal como se define de esta manera, dependerá de los padres de los nodos anteriores de Dirichet integrados, así como de los padres de los nodos categóricos distintos de los nodos anteriores de Dirichlet.
En las siguientes secciones, discutimos las diferentes configuraciones que se encuentran comúnmente en las redes bayesianas. Repetimos la densidad de probabilidad de arriba y la definimos usando el símbolo:
Múltiples priores de Dirichlet con el mismo hiperprior
Imagina que tenemos un modelo jerárquico de la siguiente manera:
En casos como este, tenemos múltiples priors de Dirichet, cada uno de los cuales genera una cierta cantidad de observaciones categóricas (posiblemente un número diferente para cada anterior). El hecho de que todos dependan del mismo hiperprior, incluso si se trata de una variable aleatoria como la anterior, no hace ninguna diferencia. El efecto de integrar un prior de Dirichlet vincula las variables categóricas adjuntas a ese anterior, cuya distribución conjunta simplemente hereda cualquier factor condicionante del anterior de Dirichlet. El hecho de que múltiples prioritarios puedan compartir un hiperprior no hace ninguna diferencia:
dónde es simplemente la colección de variables categóricas dependientes de d .
En consecuencia, la distribución de probabilidad condicional se puede escribir de la siguiente manera:
dónde específicamente significa el número de variables entre el conjunto , Excluyendo en sí mismo, que tiene el valor .
Es necesario contar solo las variables que tienen el valor k que están unidas a la variable en cuestión por tener el mismo anterior. Nosotros no queremos contar cualquier otra variable también tienen el valor k .
Múltiples antecedentes de Dirichlet con el mismo hiperprior, con hijos dependientes
Ahora imagine un modelo jerárquico un poco más complicado de la siguiente manera:
Este modelo es el mismo que el anterior, pero además, cada una de las variables categóricas tiene una variable secundaria que depende de ella. Esto es típico de un modelo mixto .
Nuevamente, en la distribución conjunta, solo las variables categóricas que dependen del mismo a priori están vinculadas en un solo Dirichlet-multinomial:
La distribución condicional de las variables categóricas que dependen únicamente de sus padres y antepasados tendría la misma forma que la anterior en el caso más simple. Sin embargo, en el muestreo de Gibbs es necesario determinar la distribución condicional de un nodo dado dependiente no solo de y antepasados como pero en todos los demás parámetros.
La expresión simplificada para la distribución condicional se deriva arriba simplemente reescribiendo la expresión para la probabilidad conjunta y eliminando los factores constantes. Por lo tanto, la misma simplificación se aplicaría en una expresión de probabilidad conjunta más grande como la de este modelo, compuesta de densidades multinomiales de Dirichlet más factores para muchas otras variables aleatorias que dependen de los valores de las variables categóricas.
Esto produce lo siguiente:
Aquí la densidad de probabilidad de aparece directamente. Para hacer un muestreo aleatorio sobre, calcularíamos las probabilidades no normalizadas para todas las K posibilidades parausando la fórmula anterior, luego normalícelos y proceda normalmente usando el algoritmo descrito en el artículo de distribución categórica .
Hablando correctamente, el factor adicional que aparece en la distribución condicional no se deriva de la especificación del modelo sino directamente de la distribución conjunta. Esta distinción es importante cuando se consideran modelos en los que un nodo dado con un padre anterior a Dirichlet tiene varios hijos dependientes, particularmente cuando esos hijos dependen unos de otros (por ejemplo, si comparten un padre que está colapsado). Esto se discute más a continuación.
Múltiples antecedentes de Dirichlet con membresía previa cambiante
Ahora imagina que tenemos un modelo jerárquico como sigue:
Aquí tenemos una situación complicada en la que tenemos varios antecedentes de Dirichlet como antes y un conjunto de variables categóricas dependientes, pero la relación entre los antecedentes y las variables dependientes no es fija, a diferencia de antes. En cambio, la elección de cuál antes de su uso depende de otra variable categórica aleatoria. Esto ocurre, por ejemplo, en modelos temáticos y, de hecho, los nombres de las variables anteriores están destinados a corresponder a los de la asignación de Dirichlet latente . En este caso, el conjunto es un conjunto de palabras, cada una de las cuales se extrae de una de las temas posibles, donde cada tema es un Dirichlet anterior sobre un vocabulario de palabras posibles, especificando la frecuencia de diferentes palabras en el tema. Sin embargo, la pertenencia al tema de una palabra determinada no es fija; más bien, se determina a partir de un conjunto de variables latentes . Hay una variable latente por palabra, una-variable categórica dimensional que especifica el tema al que pertenece la palabra.
En este caso, todas las variables que dependen de un antecedente dado están vinculadas (es decir, correlacionadas ) en un grupo, como antes; específicamente, todas las palabras que pertenecen a un tema dado están vinculadas. En este caso, sin embargo, la pertenencia al grupo cambia, ya que las palabras no se fijan a un tema determinado, sino que el tema depende del valor de una variable latente asociada con la palabra. Sin embargo, la definición de la densidad multinomial de Dirichlet no depende en realidad del número de variables categóricas en un grupo (es decir, el número de palabras en el documento generadas a partir de un tema determinado), sino solo de la cantidad de variables en el grupo tiene un valor dado (es decir, entre todos los tokens de palabras generados a partir de un tema determinado, cuántos de ellos son una palabra determinada). Por lo tanto, todavía podemos escribir una fórmula explícita para la distribución conjunta:
Aquí usamos la notación para denotar el número de tokens de palabra cuyo valor es el símbolo de palabra v y que pertenecen al tema k .
La distribución condicional todavía tiene la misma forma:
Aquí nuevamente, solo las variables categóricas para las palabras que pertenecen a un tema dado están vinculadas (aunque esta vinculación dependerá de las asignaciones de las variables latentes) y, por lo tanto, el recuento de palabras debe estar solo sobre las palabras generadas por un tema dado. De ahí el símbolo, que es el recuento de palabras tokens que tienen el símbolo de palabra v , pero solo entre las generadas por el tema k , y excluyendo la palabra en sí cuya distribución se describe.
(La razón por la que es necesario excluir la palabra en sí, y por qué incluso tiene sentido, es que en un contexto de muestreo de Gibbs , volvemos a muestrear repetidamente los valores de cada variable aleatoria, después de haber analizado y muestreado todas las variables anteriores. La variable ya tendrá un valor, y debemos excluir este valor existente de los diversos recuentos que utilizamos).
Un ejemplo combinado: modelos de temas de LDA
Ahora mostramos cómo combinar algunos de los escenarios anteriores para demostrar cómo Gibbs muestrear un modelo del mundo real, específicamente un modelo de tema de asignación de Dirichlet latente suavizado (LDA) .
El modelo es el siguiente:
Básicamente, combinamos los tres escenarios anteriores: tenemos variables categóricas que dependen de múltiples antecedentes que comparten un hiperprior; tenemos variables categóricas con hijos dependientes (la variable latente identidades temáticas); y tenemos variables categóricas con membresía cambiante en múltiples prioritarios que comparten un hiperprior. En el modelo LDA estándar, las palabras se observan completamente y, por lo tanto, nunca necesitamos volver a muestrearlas. (Sin embargo, el muestreo de Gibbs sería igualmente posible si solo se observaran algunas o ninguna de las palabras. En tal caso, querríamos inicializar la distribución sobre las palabras de alguna manera razonable, por ejemplo, a partir de la salida de algún proceso que genera oraciones , como un modelo de traducción automática , para que las distribuciones de variables latentes posteriores resultantes tengan algún sentido).
Usando las fórmulas anteriores, podemos escribir las probabilidades condicionales directamente:
Aquí hemos definido los recuentos de manera más explícita para separar claramente los recuentos de palabras y los recuentos de temas:
Como en el escenario anterior con variables categóricas con hijos dependientes, la probabilidad condicional de esos hijos dependientes aparece en la definición de probabilidad condicional de los padres. En este caso, cada variable latente tiene solo una palabra secundaria dependiente, por lo que solo aparece uno de esos términos. (Si hubiera varios hijos dependientes, todos tendrían que aparecer en la probabilidad condicional del padre, independientemente de si hubo superposición entre diferentes padres y los mismos hijos, es decir, independientemente de si los hijos dependientes de un padre determinado también tienen otros padres. En un caso en el que un niño tiene varios padres, la probabilidad condicional para ese niño aparece en la definición de probabilidad condicional de cada uno de sus padres).
La definición anterior especifica solo la probabilidad condicional no normalizada de las palabras, mientras que la probabilidad condicional del tema requiere la probabilidad real (es decir, normalizada). Por lo tanto, tenemos que normalizar sumando todos los símbolos de palabras:
dónde
También vale la pena señalar otro punto en detalle, que se refiere al segundo factor anterior en la probabilidad condicional. Recuerde que la distribución condicional en general se deriva de la distribución conjunta y se simplifica eliminando términos que no dependen del dominio del condicional (la parte del lado izquierdo de la barra vertical). Cuando un nodo tiene hijos dependientes, habrá uno o más factores en la distribución conjunta que dependen de . Por lo general, hay un factor para cada nodo dependiente y tiene la misma función de densidad que la distribución que aparece en la definición matemática. Sin embargo, si un nodo dependiente también tiene otro padre (un copadre), y ese copadre está colapsado, entonces el nodo se volverá dependiente de todos los demás nodos que comparten ese copadre, y en lugar de múltiples términos para cada uno de estos nodos, la distribución conjunta tendrá un solo término conjunto. Tenemos exactamente esa situación aquí. Aunque tiene un solo hijo , ese niño tiene un co-padre de Dirichlet que hemos colapsado, lo que induce un multinomio de Dirichlet en todo el conjunto de nodos .
Ocurre en este caso que esta cuestión no causa mayores problemas, precisamente por la relación uno a uno entre y . Podemos reescribir la distribución conjunta de la siguiente manera:
donde en el set (es decir, el conjunto de nodos Excluyendo ), ninguno de los nodos tiene como padre. Por lo tanto, puede eliminarse como factor condicionante (línea 2), lo que significa que todo el factor puede eliminarse de la distribución condicional (línea 3).
Un segundo ejemplo: agrupación de documentos Naive Bayes
Aquí hay otro modelo, con un conjunto diferente de problemas. Esta es una implementación de un modelo Naive Bayes no supervisado para la agrupación de documentos. Es decir, nos gustaría clasificar los documentos en varias categorías (p. Ej., " Spam " o "no spam", o "artículo de revista científica", "artículo de periódico sobre finanzas", "artículo de periódico sobre política", "carta de amor"). basado en contenido textual. Sin embargo, aún no conocemos la categoría correcta de ningún documento; en cambio, queremos agrupar ellas basadas en similitudes mutuos. (Por ejemplo, un conjunto de artículos científicos tenderá a ser similar entre sí en el uso de palabras, pero muy diferente de un conjunto de cartas de amor). Este es un tipo de aprendizaje no supervisado . (La misma técnica se puede utilizar para realizar un aprendizaje semi-supervisado , es decir, cuando conocemos la categoría correcta de alguna fracción de los documentos y nos gustaría usar este conocimiento para ayudar a agrupar los documentos restantes).
El modelo es el siguiente:
En muchos sentidos, este modelo es muy similar al modelo de temas de LDA descrito anteriormente, pero asume un tema por documento en lugar de un tema por palabra, con un documento que consta de una mezcla de temas. Esto se puede ver claramente en el modelo anterior, que es idéntico al modelo LDA excepto que solo hay una variable latente por documento en lugar de una por palabra. Una vez más, asumimos que estamos colapsando todos los antecedentes de Dirichlet.
La probabilidad condicional de una palabra dada es casi idéntica al caso LDA. Una vez más, todas las palabras generadas por el mismo Dirichlet anterior son interdependientes. En este caso, esto significa las palabras de todos los documentos que tienen una etiqueta determinada; de nuevo, esto puede variar según las asignaciones de etiquetas, pero lo único que nos importa es el recuento total. Por eso:
dónde
Sin embargo, existe una diferencia crítica en la distribución condicional de las variables latentes para las asignaciones de etiquetas, que es que una variable de etiqueta dada tiene varios nodos secundarios en lugar de solo uno, en particular, los nodos para todas las palabras en el documento de la etiqueta. Esto se relaciona estrechamente con la discusión anterior sobre el factorque se deriva de la distribución conjunta. En este caso, la distribución conjunta debe tomarse sobre todas las palabras en todos los documentos que contienen una asignación de etiqueta igual al valor de, y tiene el valor de una distribución de Dirichlet-multinomial. Además, no podemos reducir esta distribución conjunta a una distribución condicional sobre una sola palabra. Más bien, podemos reducirlo solo a una distribución condicional conjunta más pequeña sobre las palabras en el documento para la etiqueta en cuestión y, por lo tanto, no podemos simplificarlo usando el truco anterior que produce una simple suma de recuento esperado y anterior. Aunque de hecho es posible reescribirlo como un producto de tales sumas individuales, el número de factores es muy grande y no es claramente más eficiente que calcular directamente la probabilidad de distribución multinomial de Dirichlet.
Distribuciones relacionadas
La versión unidimensional de la distribución de Dirichlet-multinomial se conoce como distribución Beta-binomial .
La distribución de Dirichlet-multinomial tiene una relación con la distribución binomial negativa análoga a la relación de la distribución multinomial con la distribución de Poisson . [2]
Usos
La distribución Dirichlet-multinomial se utiliza en la clasificación y agrupación automatizada de documentos , genética , economía , modelado de combate y marketing cuantitativo.
Ver también
- Distribución beta-binomial
- Proceso de restaurante chino
- Proceso de Dirichlet
- Distribución de Dirichlet generalizada
- Estimador de Krichevsky-Trofimov
- Distribución multinomial negativa de Dirichlet
Referencias
Citas
- ↑ a b c Glüsenkamp, T. (2018). "Tratamiento probabilístico de la incertidumbre del tamaño finito de los datos ponderados de Monte Carlo". EPJ Plus . 133 (6): 218. arXiv : 1712.01293 . Código bibliográfico : 2018EPJP..133..218G . doi : 10.1140 / epjp / i2018-12042-x . S2CID 125665629 .
- ^ Teorema 1 de Zhou, M. (2018). "Análisis de factor binomial negativo bayesiano no paramétrico" . Análisis bayesiano . 13 (4): 1065–1093. doi : 10.1214 / 17-BA1070 .
Fuentes
- Elkan, C. (2006) Agrupación de documentos con una aproximación de familia exponencial de la distribución multinomial del compuesto de Dirichlet . ICML, 289-296.
- Johnson, NL, Kotz, S. y Balakrishnan, N. (1997) Distribuciones multivariadas discretas (Vol. 165). Nueva York: Wiley.
- Kvam, P. y Day, D. (2001) La distribución de Polya multivariante en el modelado de combate. Logística de investigación naval, 48, 1-17.
- Madsen, RE, Kauchak, D. y Elkan, C. (2005) Modelado de la ráfaga de palabras mediante la distribución de Dirichlet . ICML, 545–552.
- Minka, T. (2003) Estimación de una distribución de Dirichlet . Informe técnico de Microsoft Research. Incluye código de Matlab para ajustar distribuciones a datos.
- Mosimann, JE (1962) Sobre la distribución multinomial compuesta, la distribución β multivariada y las correlaciones entre proporciones . Biometrika, 49 (1–2), 65–82.
- Wagner, U. y Taudes, A. (1986) A Multivariate Polya Model of Brand Choice and Purchase Incidence. Marketing Science, 5 (3), 219–244.