En teoría de probabilidad y estadística , una distribución categórica (también llamada distribución de Bernoulli generalizada , distribución multinoulli [1] ) es una distribución de probabilidad discreta que describe los posibles resultados de una variable aleatoria que puede tomar una de las K categorías posibles, con la probabilidad de cada categoría especificada por separado. No existe un orden subyacente innato de estos resultados, pero a menudo se adjuntan etiquetas numéricas para facilitar la descripción de la distribución (por ejemplo, 1 a K ). La distribución categórica K -dimensional es la distribución más general sobre unEvento de vía K ; cualquier otra distribución discreta sobre un espacio muestral de tamaño K es un caso especial. Los parámetros que especifican las probabilidades de cada resultado posible están limitados solo por el hecho de que cada uno debe estar en el rango de 0 a 1, y todos deben sumar 1.
Parámetros | número de categorías ( entero ) probabilidades de eventos | ||
---|---|---|---|
Apoyo | |||
PMF | (1)
| ||
Modo |
La distribución categórica es la generalización de la distribución de Bernoulli para una variable aleatoria categórica , es decir, para una variable discreta con más de dos resultados posibles, como el lanzamiento de un dado . Por otro lado, la distribución categórica es un caso especial de la distribución multinomial , ya que da las probabilidades de resultados potenciales de un solo dibujo en lugar de varios dibujos.
Terminología
Ocasionalmente, la distribución categórica se denomina "distribución discreta". Sin embargo, esto se refiere propiamente no a una familia particular de distribuciones sino a una clase general de distribuciones .
En algunos campos, como el aprendizaje automático y el procesamiento del lenguaje natural , las distribuciones categóricas y multinomiales se combinan, y es común hablar de una "distribución multinomial" cuando una "distribución categórica" sería más precisa. [2] Este uso impreciso se debe al hecho de que a veces es conveniente expresar el resultado de una distribución categórica como un vector "1 de K " (un vector con un elemento que contiene un 1 y todos los demás elementos que contienen un 0) en lugar de como un número entero en el rango de 1 a K ; de esta forma, una distribución categórica equivale a una distribución multinomial para una sola observación (ver más abajo).
Sin embargo, la combinación de distribuciones categóricas y multinomiales puede generar problemas. Por ejemplo, en una distribución Dirichlet-multinomial , que surge comúnmente en los modelos de procesamiento del lenguaje natural (aunque generalmente no con este nombre) como resultado de un muestreo de Gibbs colapsado donde las distribuciones de Dirichlet se colapsan fuera de un modelo bayesiano jerárquico , es muy importante distinguir categórico de multinomial. La distribución conjunta de las mismas variables con la misma distribución de Dirichlet-multinomial tiene dos formas diferentes dependiendo de si se caracteriza como una distribución cuyo dominio está sobre nodos categóricos individuales o sobre recuentos de nodos de estilo multinomial en cada categoría particular (similar a la distinción entre un conjunto de nodos distribuidos por Bernoulli y un único nodo distribuido binomialmente ). Ambas formas tienen funciones de masa de probabilidad (PMF) de aspecto muy similar , que hacen referencia a recuentos de nodos de estilo multinomial en una categoría. Sin embargo, el PMF de estilo multinomial tiene un factor adicional, un coeficiente multinomial , que es una constante igual a 1 en el PMF de estilo categórico. Confundir los dos puede conducir fácilmente a resultados incorrectos en entornos donde este factor adicional no es constante con respecto a las distribuciones de interés. El factor es frecuentemente constante en los condicionales completos usados en el muestreo de Gibbs y las distribuciones óptimas en los métodos variacionales .
Formular distribuciones
Una distribución categórica es una distribución de probabilidad discreta cuyo espacio muestral es el conjunto de k elementos identificados individualmente. Es la generalización de la distribución de Bernoulli para una variable aleatoria categórica .
En una formulación de la distribución, el espacio muestral se toma como una secuencia finita de números enteros. Los enteros exactos utilizados como etiquetas no son importantes; pueden ser {0, 1, ..., k - 1} o {1, 2, ..., k } o cualquier otro conjunto arbitrario de valores. En las siguientes descripciones, usamos {1, 2, ..., k } por conveniencia, aunque esto no está de acuerdo con la convención para la distribución de Bernoulli , que usa {0, 1}. En este caso, la función de masa de probabilidad f es:
dónde , representa la probabilidad de ver elemento i y.
Otra formulación que parece más compleja pero que facilita las manipulaciones matemáticas es la siguiente, utilizando el corchete de Iverson : [3]
dónde evalúa a 1 si , 0 en caso contrario. Hay varias ventajas de esta formulación, por ejemplo:
- Es más fácil escribir la función de verosimilitud de un conjunto de variables categóricas independientes distribuidas de manera idéntica .
- Conecta la distribución categórica con la distribución multinomial relacionada .
- Muestra por qué la distribución de Dirichlet es la previa conjugada de la distribución categórica y permite calcular la distribución posterior de los parámetros.
Sin embargo, otra formulación hace explícita la conexión entre las distribuciones categóricas y multinomiales al tratar la distribución categórica como un caso especial de la distribución multinomial en la que el parámetro n de la distribución multinomial (el número de elementos muestreados) se fija en 1. En esta formulación , el espacio muestral se puede considerar como el conjunto de vectores aleatorios x codificados en 1 de K [4] de dimensión k que tienen la propiedad de que exactamente un elemento tiene el valor 1 y los otros el valor 0. El elemento particular que tiene el valor 1 indica qué categoría se ha elegido. La función de masa de probabilidad f en esta formulación es:
dónde representa la probabilidad de ver elemento i y. Esta es la formulación adoptada por Bishop . [4] [nota 1]
Propiedades
- La distribución está completamente dada por las probabilidades asociadas con cada número i :, i = 1, ..., k , donde. Los posibles conjuntos de probabilidades son exactamente los del estándar ( k - 1 ) {\ Displaystyle (k-1)} -simplex dimensional ; para k = 2 esto se reduce a las posibles probabilidades de que la distribución de Bernoulli sea 1-simplex,
- La distribución es un caso especial de una "distribución de Bernoulli multivariante" [5] en la que exactamente una de las k 0-1 variables toma el valor uno.
- Dejar ser la realización de una distribución categórica. Defina el vector aleatorio Y como compuesto por los elementos:
- donde I es la función del indicador . Entonces Y tiene una distribución que es un caso especial de la distribución multinomial con parámetro . La suma de independientes e idénticamente distribuidas tales variables aleatorias Y construidas a partir de una distribución categórica con parámetro se distribuye multinomialmente con parámetros y
- La distribución previa conjugada de una distribución categórica es una distribución de Dirichlet . [2] Consulte la sección siguiente para obtener más información.
- La estadística suficiente de n observaciones independientes es el conjunto de recuentos (o, de manera equivalente, proporción) de observaciones en cada categoría, donde el número total de ensayos (= n ) es fijo.
- La función indicadora de una observación que tiene un valor i , equivalente a la función de corchetes de Iversono el delta de Kronecker funciónse distribuye Bernoulli con el parámetro
Inferencia bayesiana usando conjugado previo
En las estadísticas bayesianas , la distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (y también la distribución multinomial ). Esto significa que en un modelo que consiste en un punto de datos que tiene una distribución categórica con un vector de parámetro desconocido p , y (en el estilo bayesiano estándar) elegimos tratar este parámetro como una variable aleatoria y darle una distribución previa definida usando una distribución de Dirichlet , entonces la distribución posterior del parámetro, después de incorporar el conocimiento obtenido de los datos observados, también es un Dirichlet. De manera intuitiva, en tal caso, a partir de lo que se conoce sobre el parámetro antes de observar el punto de datos, el conocimiento se puede actualizar en base al punto de datos, produciendo una nueva distribución de la misma forma que la anterior. Como tal, el conocimiento de un parámetro se puede actualizar sucesivamente incorporando nuevas observaciones una a la vez, sin encontrarse con dificultades matemáticas.
Formalmente, esto se puede expresar de la siguiente manera. Dado un modelo
entonces se cumple lo siguiente: [2]
Esta relación se utiliza en las estadísticas bayesianas para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocontentos , es decir, como representando el número de observaciones en cada categoría que ya hemos visto. Luego, simplemente agregamos los recuentos de todas las nuevas observaciones (el vector c ) para derivar la distribución posterior.
La intuición adicional proviene del valor esperado de la distribución posterior (ver el artículo sobre la distribución de Dirichlet ):
Esto dice que la probabilidad esperada de ver una categoría i entre las diversas distribuciones discretas generadas por la distribución posterior es simplemente igual a la proporción de ocurrencias de esa categoría que se ven realmente en los datos, incluidos los pseudocontentos en la distribución anterior. Esto tiene mucho sentido intuitivo: si, por ejemplo, hay tres categorías posibles, y la categoría 1 se ve en los datos observados el 40% del tiempo, uno esperaría en promedio ver la categoría 1 el 40% del tiempo en la distribución posterior también.
(Esta intuición ignora el efecto de la distribución previa. Además, la posterior es una distribución sobre distribuciones . La distribución posterior en general describe el parámetro en cuestión, y en este caso el parámetro en sí es una distribución de probabilidad discreta, es decir, la distribución categórica real distribución que generó los datos. Por ejemplo, si 3 categorías en la proporción 40: 5: 55 están en los datos observados, ignorar el efecto de la distribución anterior, el parámetro verdadero, es decir, la distribución subyacente verdadera que generó nuestros datos observados - se esperaría que tuviera el valor promedio de (0.40,0.05,0.55), que es de hecho lo que revela el posterior. Sin embargo, la verdadera distribución podría ser (0.35,0.07,0.58) o (0.42,0.04,0.54) o Varias otras posibilidades cercanas. La cantidad de incertidumbre involucrada aquí se especifica por la varianza de la parte posterior, que está controlada por el número total de observaciones: cuantos más datos se observan, menos incertidumbre sobre el verdadero parámetro.)
(Técnicamente, el parámetro anterior en realidad debería verse como una representación observaciones previas de categoría . Luego, el parámetro posterior actualizado representa observaciones posteriores. Esto refleja el hecho de que una distribución de Dirichlet contiene una forma completamente plana, esencialmente, una distribución uniforme sobre el símplex de los posibles valores de p . Lógicamente, una distribución plana de este tipo representa una ignorancia total, que no corresponde a observaciones de ningún tipo. Sin embargo, la actualización matemática del posterior funciona bien si ignoramos eltérmino y simplemente piense en el vector α como que representa directamente un conjunto de pseudocuentas. Además, hacer esto evita el problema de interpretar valores inferiores a 1.)
Estimación MAP
La estimación máxima a posteriori del parámetro p en el modelo anterior es simplemente la moda de la distribución de Dirichlet posterior , es decir, [2]
En muchas aplicaciones prácticas, la única forma de garantizar la condición que es establecer por todo i .
Probabilidad marginal
En el modelo anterior, la probabilidad marginal de las observaciones (es decir, la distribución conjunta de las observaciones, con el parámetro anterior marginado ) es una distribución de Dirichlet-multinomial : [2]
Esta distribución juega un papel importante en los modelos bayesianos jerárquicos , porque cuando se hace inferencia sobre dichos modelos utilizando métodos como el muestreo de Gibbs o el Bayes variacional , las distribuciones previas de Dirichlet a menudo quedan marginadas. Consulte el artículo sobre esta distribución para obtener más detalles.
Distribución predictiva posterior
La distribución predictiva posterior de una nueva observación en el modelo anterior es la distribución que una nueva observación tomaría dado el set de N observaciones categóricas. Como se muestra en el artículo de distribución de Dirichlet-multinomial , tiene una forma muy simple: [2]
Existen varias relaciones entre esta fórmula y las anteriores:
- La probabilidad predictiva posterior de ver una categoría en particular es la misma que la proporción relativa de observaciones previas en esa categoría (incluidas las pseudoobservaciones de la anterior). Esto tiene sentido lógico: intuitivamente, esperaríamos ver una categoría particular de acuerdo con la frecuencia ya observada de esa categoría.
- La probabilidad predictiva posterior es la misma que el valor esperado de la distribución posterior. Esto se explica más a continuación.
- Como resultado, esta fórmula se puede expresar simplemente como "la probabilidad predictiva posterior de ver una categoría es proporcional al recuento total observado de esa categoría", o como "el recuento esperado de una categoría es el mismo que el recuento total observado de la categoría ", donde" recuento observado "se toma para incluir las pseudoobservaciones del previo.
La razón de la equivalencia entre la probabilidad predictiva posterior y el valor esperado de la distribución posterior de p es evidente con el reexamen de la fórmula anterior. Como se explica en el artículo de distribución predictiva posterior , la fórmula para la probabilidad predictiva posterior tiene la forma de un valor esperado tomado con respecto a la distribución posterior:
La línea crucial de arriba es la tercera. El segundo se deriva directamente de la definición de valor esperado. La tercera línea es particular de la distribución categórica y se deriva del hecho de que, específicamente en la distribución categórica, el valor esperado de ver un valor particular i está directamente especificado por el parámetro asociado p i . La cuarta línea es simplemente una reescritura de la tercera en una notación diferente, usando la notación más arriba para una expectativa tomada con respecto a la distribución posterior de los parámetros.
Observe los puntos de datos uno por uno y cada vez considere su probabilidad predictiva antes de observar el punto de datos y actualizar el posterior. Para cualquier punto de datos dado, la probabilidad de que ese punto asuma una categoría dada depende del número de puntos de datos que ya están en esa categoría. En este escenario, si una categoría tiene una alta frecuencia de ocurrencia, entonces es más probable que nuevos puntos de datos se unan a esa categoría, enriqueciendo aún más la misma categoría. Este tipo de escenario a menudo se denomina modelo de apego preferencial (o modelo de "rico se vuelve más rico"). Esto modela muchos procesos del mundo real y, en tales casos, las elecciones realizadas por los primeros puntos de datos tienen una influencia enorme en el resto de los puntos de datos.
Distribución condicional posterior
En el muestreo de Gibbs , normalmente se necesita extraer de distribuciones condicionales en redes Bayes multivariables donde cada variable está condicionada a todas las demás. En las redes que incluyen variables categóricas con priors de Dirichlet (por ejemplo, modelos de mezcla y modelos que incluyen componentes de mezcla), las distribuciones de Dirichlet a menudo se "colapsan" (se margina ) de la red, lo que introduce dependencias entre los distintos nodos categóricos que dependen de un anterior dado. (específicamente, su distribución conjunta es una distribución de Dirichlet-multinomial ). Una de las razones para hacer esto es que, en tal caso, la distribución de un nodo categórico dados los demás es exactamente la distribución predictiva posterior de los nodos restantes.
Es decir, para un conjunto de nodos , si el nodo en cuestión se denota como y el resto como , luego
dónde es el número de nodos que tienen la categoría i entre los nodos distintos del nodo n .
Muestreo
Hay varios métodos , pero la forma más común de muestrear a partir de una distribución categórica utiliza un tipo de muestreo por transformación inversa :
Suponga que una distribución se expresa como "proporcional a" alguna expresión, con una constante de normalización desconocida . Antes de tomar muestras, se preparan algunos valores de la siguiente manera:
- Calcule el valor no normalizado de la distribución para cada categoría.
- Súmalos y divide cada valor por esta suma, para normalizarlos .
- Imponga algún tipo de orden en las categorías (por ejemplo, mediante un índice que va de 1 a k , donde k es el número de categorías).
- Convierta los valores en una función de distribución acumulativa (CDF) reemplazando cada valor con la suma de todos los valores anteriores. Esto se puede hacer en el tiempo O (k) . El valor resultante para la primera categoría será 0.
Luego, cada vez que sea necesario muestrear un valor:
- Elija un número distribuido uniformemente entre 0 y 1.
- Localice el mayor número en el CDF cuyo valor sea menor o igual al número que acaba de elegir. Esto se puede hacer en el tiempo O (log (k)) , mediante búsqueda binaria .
- Devuelve la categoría correspondiente a este valor CDF.
Si es necesario extraer muchos valores de la misma distribución categórica, el siguiente enfoque es más eficiente. Extrae n muestras en O (n) tiempo (asumiendo que se utiliza una aproximación O (1) para extraer valores de la distribución binomial [6] ).
function draw_categorical (n) // donde n es el número de muestras a extraer de la distribución categórica r = 1 s = 0 para i de 1 a k // donde k es el número de categorías v = extraer de una distribución binomial (n, p [i] / r) // donde p [i] es la probabilidad de la categoría i para j de 1 av z [s ++] = i // donde z es una matriz en la que se almacenan los resultados n = n - v r = r - p [i] mezclar (reordenar aleatoriamente) los elementos en z volver z
Muestreo a través de la distribución de Gumbel
En el aprendizaje automático es típico parametrizar la distribución categórica, a través de una representación sin restricciones en , cuyos componentes vienen dados por:
dónde es cualquier constante real. Dada esta representación,se puede recuperar usando la función softmax , que luego se puede muestrear usando las técnicas descritas anteriormente. Sin embargo, existe un método de muestreo más directo que utiliza muestras de la distribución de Gumbel . [7] Dejaser k extracciones independientes de la distribución estándar de Gumbel, entonces
será una muestra de la distribución categórica deseada. (Sies una muestra de la distribución uniforme estándar , entonces es una muestra de la distribución estándar de Gumbel).
Ver también
- Variable categórica
Distribuciones relacionadas
- Distribución de Dirichlet
- Distribución multinomial
- Distribución de Bernoulli
- Distribución de Dirichlet-multinomial
Notas
- ^ Sin embargo, Bishop no usa explícitamente el término distribución categórica.
Referencias
- ^ Murphy, KP (2012). Aprendizaje automático: una perspectiva probabilística , p. 35. Prensa del MIT. ISBN 0262018020 .
- ^ a b c d e f Minka, T. (2003) Inferencia bayesiana, entropía y distribución multinomial . Informe técnico de Microsoft Research.
- ^ Minka, T. (2003), op. cit. Minka usa la función delta de Kronecker , similar pero menos general que el corchete de Iverson .
- ^ a b Bishop, C. (2006) Reconocimiento de patrones y aprendizaje automático , Springer. ISBN 0-387-31073-8 .
- ^ Johnson, NL, Kotz, S., Balakrishnan, N. (1997) Distribuciones multivariadas discretas , Wiley. ISBN 0-471-12844-9 ( pág.105 )
- ^ Agresti, A., Introducción al análisis de datos categóricos, Wiley-Interscience, 2007, ISBN 978-0-471-22618-5 , págs.25
- ^ Adams, Ryan. "El truco de Gumbel-Max para distribuciones discretas" .