En estadística , la prueba multinomial es la prueba de la hipótesis nula de que los parámetros de una distribución multinomial son iguales a valores especificados. Se utiliza para datos categóricos; ver Read y Cressie. [1]
Comenzando con una muestra de elementos, cada uno de los cuales se ha observado que cae en uno de los categorías. Es posible definircomo el número observado de elementos en cada celda. Por eso.
A continuación, definiendo un vector de parámetros , dónde :. Estos son los valores de los parámetros bajo la hipótesis nula .
La probabilidad exacta de la configuración observada bajo la hipótesis nula está dada por
La probabilidad de significancia para la prueba es la probabilidad de ocurrencia del conjunto de datos observado, o de un conjunto de datos menos probable que el observado, si la hipótesis nula es verdadera. Usando una prueba exacta , esto se calcula como
donde la suma varía entre todos los resultados tan probables o menos probables que los observados. En la práctica, esto se vuelve computacionalmente oneroso a medida que y aumentar, por lo que probablemente solo valga la pena utilizar pruebas exactas para muestras pequeñas. Para muestras más grandes, las aproximaciones asintóticas son lo suficientemente precisas y fáciles de calcular.
Una de estas aproximaciones es la razón de verosimilitud . Se puede definir una hipótesis alternativa bajo la cual cada valor se reemplaza por su estimación de máxima verosimilitud . La probabilidad exacta de la configuración observada bajo la hipótesis alternativa está dada por
El logaritmo natural de la razón entre estas dos probabilidades multiplicado por es entonces el estadístico para la prueba de razón de verosimilitud
- [ aclaración necesaria ]
Si la hipótesis nula es verdadera, entonces como aumenta, la distribución de converge a la de chi-cuadrado congrados de libertad. Sin embargo, se sabe desde hace mucho tiempo (por ejemplo, Lawley 1956) que para tamaños de muestra finitos, los momentos deson mayores que los de chi-cuadrado, lo que aumenta la probabilidad de errores de tipo I (falsos positivos). La diferencia entre los momentos de chi-cuadrado y los del estadístico de prueba son una función de. Williams (1976) demostró que el primer momento se puede igualar en la medida de lo posible. si la estadística de prueba se divide por un factor dado por
En el caso especial donde la hipótesis nula es que todos los valores son iguales a (es decir, estipula una distribución uniforme), esto simplifica a
Posteriormente, Smith et al. (1981) derivó un factor de división que coincide con el primer momento en cuanto a. Para el caso de valores iguales de, este factor es
La hipótesis nula también se puede probar mediante la prueba de chi-cuadrado de Pearson
dónde es el número esperado de casos en la categoría bajo la hipótesis nula. Esta estadística también converge a una distribución chi-cuadrado con grados de libertad cuando la hipótesis nula es verdadera, pero lo hace desde abajo, por así decirlo, en lugar de desde arriba como lo hace, por lo que puede ser preferible a la versión sin corregir de para pequeñas muestras. [ cita requerida ]
Referencias
- Lawley, DN (1956). "Un método general de aproximación a la distribución de criterios de razón de verosimilitud". Biometrika . 43 : 295-303. doi : 10.1093 / biomet / 43.3-4.295 .
- Smith, PJ, Rae, DS, Manderscheid, RW y Silbergeld, S. (1981). "Aproximación de los momentos y la distribución de la estadística de razón de verosimilitud para la bondad de ajuste multinomial". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 76 (375): 737–740. doi : 10.2307 / 2287541 . JSTOR 2287541 .CS1 maint: varios nombres: lista de autores ( enlace )
- Williams, DA (1976). "Pruebas de razón de verosimilitud mejoradas para tablas de contingencia completas". Biometrika . 63 : 33–37. doi : 10.1093 / biomet / 63.1.33 .