Distribución multinomial

En la teoría de la probabilidad , la distribución multinomial es una generalización de la distribución binomial . Por ejemplo, modela la probabilidad de conteos para cada lado de un dado de lados k que se lanza n veces. Para n ensayos independientes , cada uno de los cuales conduce a un éxito para exactamente una de las k categorías, y cada categoría tiene una probabilidad de éxito fija dada, la distribución multinomial da la probabilidad de cualquier combinación particular de números de éxitos para las diversas categorías.

Multinomial
Parámetros	${\ Displaystyle n> 0}$ número de ensayos ( entero ) ${\ Displaystyle p_ {1}, \ ldots, p_ {k}}$ probabilidades de eventos ${\ Displaystyle \ Sigma p_ {i} = 1}$ )
Apoyo	${\ Displaystyle x_ {i} \ in \ {0, \ dots, n \}, \, \, \, \, i \ in \ {1, \ dots, k \}, \, {\ textrm {con} } \ sum _ {i} x_ {i} = n}$ ${\ Displaystyle \!}$
PMF	${\ Displaystyle {\ frac {n!} {x_ {1}! \ cdots x_ {k}!}} p_ {1} ^ {x_ {1}} \ cdots p_ {k} ^ {x_ {k}}}$
Significar	${\ Displaystyle \ operatorname {E} (X_ {i}) = np_ {i}}$
Diferencia	${\ Displaystyle \ operatorname {Var} (X_ {i}) = np_ {i} (1-p_ {i})}$ ${\ Displaystyle \ operatorname {Cov} (X_ {i}, X_ {j}) = - np_ {i} p_ {j} ~~ (i \ neq j)}$
Entropía	${\ Displaystyle - \ log (n!) - n \ sum _ {i = 1} ^ {k} p_ {i} \ log (p_ {i}) + \ sum _ {i = 1} ^ {k} \ suma _ {x_ {i} = 0} ^ {n} {\ binom {n} {x_ {i}}} p_ {i} ^ {x_ {i}} (1-p_ {i}) ^ {n- x_ {i}} \ log (x_ {i}!)}$
MGF	${\ Displaystyle {\ biggl (} \ sum _ {i = 1} ^ {k} p_ {i} e ^ {t_ {i}} {\ biggr)} ^ {n}}$
CF	${\ Displaystyle \ left (\ sum _ {j = 1} ^ {k} p_ {j} e ^ {it_ {j}} \ right) ^ {n}}$ dónde ${\ Displaystyle i ^ {2} = - 1}$
PGF	${\ Displaystyle {\ biggl (} \ sum _ {i = 1} ^ {k} p_ {i} z_ {i} {\ biggr)} ^ {n} {\ text {para}} (z_ {1}, \ ldots, z_ {k}) \ in \ mathbb {C} ^ {k}}$

Cuando k es 2 y n es 1, la distribución multinomial es la distribución de Bernoulli . Cuando k es 2 y n es mayor que 1, es la distribución binomial . Cuando k es mayor que 2 y n es 1, es la distribución categórica .

La distribución de Bernoulli modela el resultado de un único ensayo de Bernoulli . En otras palabras, modela si lanzar una moneda (posiblemente sesgada ) una vez resultará en un éxito (obtener una cara) o un fracaso (obtener una cruz). La distribución binomial generaliza esto al número de caras al realizar n lanzamientos independientes (ensayos de Bernoulli) de la misma moneda. La distribución multinomial modela el resultado de n experimentos, donde el resultado de cada ensayo tiene una distribución categórica , como lanzar un dado de lados k n veces.

Sea k un número finito fijo. Matemáticamente, tenemos k posibles resultados mutuamente excluyentes, con las correspondientes probabilidades p ₁ , ..., p _k , y n ensayos independientes. Dado que los k resultados son mutuamente excluyentes y uno debe ocurrir, tenemos p _i ≥ 0 para i = 1, ..., k y ${\ Displaystyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$ . Entonces, si las variables aleatorias X _i indican el número de veces que se observa el resultado número i en los n ensayos, el vector X = ( X ₁ , ..., X _k ) sigue una distribución multinomial con parámetros n y p , donde p = ( p ₁ , ..., p _k ). Si bien los ensayos son independientes, sus resultados X son dependientes porque deben sumarse an.

En algunos campos, como el procesamiento del lenguaje natural , las distribuciones categóricas y multinomiales son sinónimos y es común hablar de una distribución multinomial cuando en realidad se trata de una distribución categórica . Esto se debe al hecho de que a veces es conveniente expresar el resultado de una distribución categórica como un vector "1 de K" (un vector con un elemento que contiene un 1 y todos los demás elementos que contienen un 0) en lugar de un número entero. en el rango ${\ Displaystyle 1 \ dots K}$ ; de esta forma, una distribución categórica equivale a una distribución multinomial en un solo ensayo.

Especificación

Función de probabilidad

Supongamos que uno hace un experimento de extraer n bolas de k colores diferentes de una bolsa, reemplazando las bolas extraídas después de cada sorteo. Las bolas del mismo color son equivalentes. Denote la variable que es el número de bolas extraídas de color i ( i = 1, ..., k ) como X _i , y denote como p _i la probabilidad de que una extracción dada sea de color i . La función de masa de probabilidad de esta distribución multinomial es:

{\ Displaystyle {\ begin {alineado} f (x_ {1}, \ ldots, x_ {k}; n, p_ {1}, \ ldots, p_ {k}) & {} = \ Pr (X_ {1} = x_ {1} {\ text {y}} \ puntos {\ text {y}} X_ {k} = x_ {k}) \\ & {} = {\ begin {cases} {\ displaystyle {n! \ over x_ {1}! \ cdots x_ {k}!} p_ {1} ^ {x_ {1}} \ times \ cdots \ times p_ {k} ^ {x_ {k}}}, \ quad & {\ texto {cuando}} \ sum _ {i = 1} ^ {k} x_ {i} = n \\\\ 0 & {\ text {de lo contrario,}} \ end {casos}} \ end {alineado}}}

para enteros no negativos x ₁ , ..., x _k .

La función de masa de probabilidad se puede expresar usando la función gamma como:

{\ Displaystyle f (x_ {1}, \ dots, x_ {k}; p_ {1}, \ ldots, p_ {k}) = {\ frac {\ Gamma (\ sum _ {i} x_ {i} + 1)} {\ prod _ {i} \ Gamma (x_ {i} +1)}} \ prod _ {i = 1} ^ {k} p_ {i} ^ {x_ {i}}.}

Esta forma muestra su parecido con la distribución de Dirichlet , que es su anterior conjugado .

Visualización

Como rebanadas del triángulo de Pascal generalizado

Así como se puede interpretar la distribución binomial como cortes unidimensionales (normalizados) (1D) del triángulo de Pascal , también se puede interpretar la distribución multinomial como cortes 2D (triangulares) de la pirámide de Pascal , o 3D / 4D / + (pirámide- en forma) rebanadas de análogos de dimensiones superiores del triángulo de Pascal. Esto revela una interpretación del rango de la distribución: "pirámides" equiláteras discretizadas en una dimensión arbitraria, es decir, un simplex con una cuadrícula. ^{[ cita requerida ]}

Como coeficientes polinomiales

De manera similar, al igual que se puede interpretar la distribución binomial como los coeficientes polinomiales de ${\ Displaystyle (p + (1-p)) ^ {n}}$ cuando se expande, se puede interpretar la distribución multinomial como los coeficientes de ${\ Displaystyle (p_ {1} + p_ {2} + p_ {3} + \ cdots + p_ {k}) ^ {n}}$ cuando se expande. (Tenga en cuenta que al igual que la distribución binomial, los coeficientes deben sumar 1.) Este es el origen del nombre " distribución multinomial ".

Propiedades

El número esperado de veces que se observó el resultado i en n ensayos es

{\ Displaystyle \ operatorname {E} (X_ {i}) = np_ {i}. \,}

La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida binomialmente y, por lo tanto, es

{\ Displaystyle \ operatorname {Var} (X_ {i}) = np_ {i} (1-p_ {i}). \,}

Las entradas fuera de la diagonal son las covarianzas :

{\ Displaystyle \ operatorname {Cov} (X_ {i}, X_ {j}) = - np_ {i} p_ {j} \,}

para i , j distinto.

Todas las covarianzas son negativas porque para n fijo , un aumento en un componente de un vector multinomial requiere una disminución en otro componente.

Cuando estas expresiones se combinan en una matriz con el elemento i, j ${\ Displaystyle \ operatorname {cov} (X_ {i}, X_ {j}),}$ el resultado es una matriz de covarianza semidefinida positiva k × k de rango k - 1. En el caso especial donde k = n y donde p _i son todos iguales, la matriz de covarianza es la matriz de centrado .

Las entradas de la matriz de correlación correspondiente son

{\ Displaystyle \ rho (X_ {i}, X_ {i}) = 1.}

{\ Displaystyle \ rho (X_ {i}, X_ {j}) = {\ frac {\ operatorname {Cov} (X_ {i}, X_ {j})} {\ sqrt {\ operatorname {Var} (X_ { i}) \ operatorname {Var} (X_ {j})}}} = {\ frac {-p_ {i} p_ {j}} {\ sqrt {p_ {i} (1-p_ {i}) p_ { j} (1-p_ {j})}}} = - {\ sqrt {\ frac {p_ {i} p_ {j}} {(1-p_ {i}) (1-p_ {j})}} }.}

Tenga en cuenta que el tamaño de la muestra se elimina de esta expresión.

Cada uno de los k componentes por separado tiene una distribución binomial con parámetros n y p _i , para el valor apropiado del subíndice i .

El soporte de la distribución multinomial es el conjunto

{\ Displaystyle \ {(n_ {1}, \ dots, n_ {k}) \ in \ mathbb {N} ^ {k} \ mid n_ {1} + \ cdots + n_ {k} = n \}. \ ,}

Su número de elementos es

{\ displaystyle {n + k-1 \ elija k-1}.}

Notación matricial

En notación matricial,

{\ Displaystyle \ operatorname {E} (\ mathbf {X}) = n \ mathbf {p}, \,}

y

{\ Displaystyle \ operatorname {Var} (\ mathbf {X}) = n \ lbrace \ operatorname {diag} (\ mathbf {p}) - \ mathbf {p} \ mathbf {p} ^ {\ rm {T}} \ rbrace, \,}

con $p T$ = la transposición del vector fila del vector columna $p$ .

Ejemplo

Suponga que en una elección a tres bandas para un país grande, el candidato A recibió el 20% de los votos, el candidato B recibió el 30% de los votos y el candidato C recibió el 50% de los votos. Si se seleccionan seis votantes al azar, ¿cuál es la probabilidad de que haya exactamente un partidario del candidato A, dos partidarios del candidato B y tres partidarios del candidato C en la muestra?

Nota: Dado que asumimos que la población votante es grande, es razonable y permisible pensar que las probabilidades no cambian una vez que se selecciona un votante para la muestra. Técnicamente hablando, esto es un muestreo sin reemplazo, por lo que la distribución correcta es la distribución hipergeométrica multivariante , pero las distribuciones convergen a medida que la población crece.

{\ Displaystyle \ Pr (A = 1, B = 2, C = 3) = {\ frac {6!} {1! 2! 3!}} (0.2 ^ {1}) (0.3 ^ {2}) ( 0,5 ^ {3}) = 0,135}

Muestreo de una distribución multinomial

Primero, reordene los parámetros ${\ Displaystyle p_ {1}, \ ldots, p_ {k}}$ de manera que se clasifiquen en orden descendente (esto es solo para acelerar el cálculo y no es estrictamente necesario). Ahora, para cada prueba, dibuje una variable auxiliar X de una distribución uniforme (0, 1). El resultado resultante es el componente

{\ Displaystyle j = \ min \ left \ {j '\ in \ {1, \ dots, k \}: \ left (\ sum _ {i = 1} ^ {j'} p_ {i} \ right) - X \ geq 0 \ right \}.}

{ X _j = 1, X _k = 0 para k ≠ j } es una observación de la distribución multinomial con ${\ Displaystyle p_ {1}, \ ldots, p_ {k}}$ y n = 1. Una suma de repeticiones independientes de este experimento es una observación de una distribución multinomial con n igual al número de tales repeticiones.

Para simular a partir de una distribución multinomial

Se pueden utilizar varios métodos para simular a partir de una distribución multinomial. Una solución muy simple es usar un generador de números pseudoaleatorios uniforme en (0,1). Primero, dividimos el intervalo (0,1) en k subintervalos iguales en longitud a las probabilidades de las k categorías. Luego, generamos n números pseudoaleatorios independientes para determinar en cuál de los k intervalos ocurren y contamos el número de ocurrencias en cada intervalo.

Ejemplo

Si tenemos:

Categorias	1	2	3	4	5	6
Probabilidades	0,15	0,20	0,30	0,16	0,12	0,07
Límites superiores de subintervalos	0,15	0,35	0,65	0,81	0,93	1,00

Luego, con un software como Excel, podemos usar la siguiente receta:

Células :	Ai	Bi	Ci	...	Soldado americano
Fórmulas:	Rand ()	= Si ($ Ai <0.15; 1; 0)	= Si (Y ($ Ai> = 0.15; $ Ai <0.35); 1; 0)	...	= Si ($ Ai> = 0.93; 1; 0)

Después de eso, usaremos funciones como SumIf para acumular los resultados observados por categoría y calcular la matriz de covarianza estimada para cada muestra simulada.

Otra forma es utilizar un generador de números aleatorios discretos. En ese caso, las categorías deben etiquetarse o volverse a etiquetar con valores numéricos.

En los dos casos, el resultado es una distribución multinomial con k categorías. Esto es equivalente, con una distribución aleatoria continua, a simular k distribuciones normales estandarizadas independientes, o una distribución multinormal N (0, I) que tiene k componentes idénticamente distribuidos y estadísticamente independientes.

Dado que los recuentos de todas las categorías deben sumar el número de ensayos, los recuentos de las categorías siempre tienen una correlación negativa. ^[1]

Pruebas de equivalencia para distribuciones multinomiales

El objetivo de las pruebas de equivalencia es establecer el acuerdo entre una distribución multinomial teórica y las frecuencias de conteo observadas. La distribución teórica puede ser una distribución multinomial completamente especificada o una familia paramétrica de distribuciones multinomiales.

Dejar ${\ Displaystyle q}$ denotar una distribución multinomial teórica y dejar ${\ Displaystyle p}$ ser una verdadera distribución subyacente. Las distribuciones ${\ Displaystyle p}$ y ${\ Displaystyle q}$ se consideran equivalentes si ${\ Displaystyle d (p, q) <\ varepsilon}$ por una distancia ${\ Displaystyle d}$ y un parámetro de tolerancia ${\ Displaystyle \ varepsilon> 0}$ . El problema de la prueba de equivalencia es ${\ Displaystyle H_ {0} = \ {d (p, q) \ geq \ varepsilon \}}$ versus ${\ Displaystyle H_ {1} = \ {d (p, q) <\ varepsilon \}}$ . La verdadera distribución subyacente ${\ Displaystyle p}$ es desconocido. En cambio, las frecuencias de conteo ${\ Displaystyle p_ {n}}$ se observan, donde ${\ Displaystyle n}$ es un tamaño de muestra. Una prueba de equivalencia utiliza ${\ Displaystyle p_ {n}}$ rechazar ${\ Displaystyle H_ {0}}$ . Si ${\ Displaystyle H_ {0}}$ puede rechazarse entonces la equivalencia entre ${\ Displaystyle p}$ y ${\ Displaystyle q}$ se muestra a un nivel de significancia dado. La prueba de equivalencia para la distancia euclidiana se puede encontrar en el libro de texto de Wellek (2010). ^[2] La prueba de equivalencia para la distancia de variación total se desarrolla en Ostrovski (2017). ^[3] La prueba de equivalencia exacta para la distancia acumulada específica se propone en Frey (2009). ^[4]

La distancia entre la verdadera distribución subyacente ${\ Displaystyle p}$ y una familia de distribuciones multinomiales ${\ Displaystyle {\ mathcal {M}}}$ es definido por ${\ Displaystyle d (p, {\ mathcal {M}}) = \ min _ {h \ in {\ mathcal {M}}} d (p, h)}$ . Entonces el problema de la prueba de equivalencia viene dado por ${\ Displaystyle H_ {0} = \ {d (p, {\ mathcal {M}}) \ geq \ varepsilon \}}$ y ${\ Displaystyle H_ {1} = \ {d (p, {\ mathcal {M}}) <\ varepsilon \}}$ . La distancia ${\ Displaystyle d (p, {\ mathcal {M}})}$ generalmente se calcula mediante optimización numérica. Las pruebas para este caso se han desarrollado recientemente en Ostrovski (2018). ^[5]

Distribuciones relacionadas

Cuando k = 2, la distribución multinomial es la distribución binomial .
Distribución categórica , la distribución de cada ensayo; para k = 2, esta es la distribución de Bernoulli .
La distribución de Dirichlet es el conjugado previo del multinomio en la estadística bayesiana .
Distribución de Dirichlet-multinomial .
Modelo beta-binomial .
Distribución multinomial negativa
Principio de Hardy-Weinberg (es una distribución trinomial con probabilidades ${\ Displaystyle (\ theta ^ {2}, 2 \ theta (1- \ theta), (1- \ theta) ^ {2})}$ )

Referencias

Citas

^ "1.7 - La distribución multinomial | STAT 504" . onlinecourses.science.psu.edu . Consultado el 11 de septiembre de 2016 .
^ Wellek, Stefan (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman y Hall / CRC. ISBN 978-1439808184.
^ Ostrovski, Vladimir (mayo de 2017). "Prueba de equivalencia de distribuciones multinomiales". Estadísticas y letras de probabilidad . 124 : 77–82. doi : 10.1016 / j.spl.2017.01.004 . S2CID 126293429 .Enlace web oficial (se requiere suscripción) . Enlace web alternativo y gratuito .
^ Frey, Jesse (marzo de 2009). "Una prueba multinomial exacta de equivalencia". La Revista Canadiense de Estadísticas . 37 : 47–59. doi : 10.1002 / cjs.10000 .Enlace web oficial (se requiere suscripción) .
^ Ostrovski, Vladimir (marzo de 2018). "Prueba de equivalencia a familias de distribuciones multinomiales con aplicación al modelo de independencia". Estadísticas y letras de probabilidad . 139 : 61–66. doi : 10.1016 / j.spl.2018.03.014 . S2CID 126261081 .Enlace web oficial (se requiere suscripción) . Enlace web alternativo y gratuito .

Fuentes

Evans, Morton; Hastings, Nicholas; Pavo real, Brian (2000). Distribuciones estadísticas (3ª ed.). Nueva York: Wiley. pp. 134 -136. ISBN 0-471-37124-6.
Weisstein, Eric W. "Distribución multinomial" . MathWorld . Wolfram Research .

[1] "1.7 - La distribución multinomial | STAT 504" . onlinecourses.science.psu.edu . Consultado el 11 de septiembre de 2016 .

[2] Wellek, Stefan (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman y Hall / CRC. ISBN 978-1439808184.

[3] Ostrovski, Vladimir (mayo de 2017). "Prueba de equivalencia de distribuciones multinomiales". Estadísticas y letras de probabilidad . 124 : 77–82. doi : 10.1016 / j.spl.2017.01.004 . S2CID 126293429 .Enlace web oficial (se requiere suscripción) . Enlace web alternativo y gratuito .

[4] Frey, Jesse (marzo de 2009). "Una prueba multinomial exacta de equivalencia". La Revista Canadiense de Estadísticas . 37 : 47–59. doi : 10.1002 / cjs.10000 .Enlace web oficial (se requiere suscripción) .

[5] Ostrovski, Vladimir (marzo de 2018). "Prueba de equivalencia a familias de distribuciones multinomiales con aplicación al modelo de independencia". Estadísticas y letras de probabilidad . 139 : 61–66. doi : 10.1016 / j.spl.2018.03.014 . S2CID 126261081 .Enlace web oficial (se requiere suscripción) . Enlace web alternativo y gratuito .

[1]