Prueba de chi-cuadrado de Pearson

La prueba de chi-cuadrado de Pearson ( ) es una prueba estadística que se aplica a conjuntos de datos categóricos para evaluar la probabilidad de que cualquier diferencia observada entre los conjuntos haya surgido por casualidad. Es el más utilizado de muchas pruebas de chi-cuadrado (p. Ej., Yates , razón de verosimilitud , prueba combinada en series de tiempo , etc.): procedimientos estadísticos cuyos resultados se evalúan por referencia a la distribución de chi-cuadrado . Sus propiedades fueron investigadas por primera vez por Karl Pearson en 1900. ^[1] En contextos donde es importante mejorar la distinción entre el estadístico de prueba ${\ Displaystyle \ chi ^ {2}}$ y su distribución, se utilizan nombres similares a la prueba o estadística de χ cuadrado de Pearson .

Prueba una hipótesis nula que establece que la distribución de frecuencia de ciertos eventos observados en una muestra es consistente con una distribución teórica particular. Los eventos considerados deben ser mutuamente excluyentes y tener probabilidad total 1. Un caso común para esto es donde los eventos cubren cada uno un resultado de una variable categórica . Un ejemplo simple es la hipótesis de que un dado ordinario de seis caras es "justo" (es decir, es igualmente probable que ocurran los seis resultados).

La prueba de chi-cuadrado de Pearson se utiliza para evaluar tres tipos de comparación: bondad de ajuste , homogeneidad e independencia .

En este caso, las observaciones se dividen entre celdas. Una aplicación simple es probar la hipótesis de que, en la población general, los valores ocurrirían en cada celda con la misma frecuencia. La "frecuencia teórica" para cualquier celda (bajo la hipótesis nula de una distribución uniforme discreta ) se calcula así como ${\ Displaystyle N}$ ${\ Displaystyle n}$

y la reducción en los grados de libertad es , teóricamente, porque las frecuencias observadas están obligadas a sumar . ${\ Displaystyle p = 1}$ ${\ Displaystyle O_ {i}}$ ${\ Displaystyle N}$

Al probar si las observaciones son variables aleatorias cuya distribución pertenece a una determinada familia de distribuciones, las "frecuencias teóricas" se calculan utilizando una distribución de esa familia ajustada de alguna manera estándar. La reducción de los grados de libertad se calcula como , donde es el número de parámetros utilizados para ajustar la distribución. Por ejemplo, cuando la comprobación de una de tres parámetros distribución gamma generalizada , y, cuando la comprobación de una distribución normal (donde los parámetros son la desviación media y estándar), y, cuando la comprobación de una distribución de Poisson (donde el parámetro es el valor esperado), . Por lo tanto, habrá grados de libertad, donde está el número de categorías. ${\ Displaystyle p = s + 1}$ ${\ Displaystyle s}$ ${\ Displaystyle p = 4}$ ${\ Displaystyle p = 3}$ ${\ Displaystyle p = 2}$ ${\ displaystyle np}$ ${\ Displaystyle n}$

Distribución chi-cuadrado , que muestra X ² en el eje xy valor P en el eje y.