Prueba de chi-cuadrado


Una prueba de chi-cuadrado (también chi-cuadrado o prueba de χ 2 ) es una prueba de hipótesis estadística que es válida para realizar cuando la estadística de la prueba se distribuye en chi-cuadrado bajo la hipótesis nula , específicamente la prueba de chi-cuadrado de Pearson y sus variantes. La prueba chi-cuadrado de Pearson se usa para determinar si existe una diferencia estadísticamente significativa entre las frecuencias esperadas y las frecuencias observadas en una o más categorías de una tabla de contingencia .

En las aplicaciones estándar de esta prueba, las observaciones se clasifican en clases mutuamente excluyentes. Si la hipótesis nula de que no hay diferencias entre las clases de la población es verdadera, la estadística de prueba calculada a partir de las observaciones sigue una distribución de frecuencia χ 2 . El propósito de la prueba es evaluar la probabilidad de que las frecuencias observadas supongan que la hipótesis nula es verdadera.

Las estadísticas de prueba que siguen una distribución χ 2 ocurren cuando las observaciones son independientes. También hay pruebas de χ 2 para probar la hipótesis nula de independencia de un par de variables aleatorias con base en las observaciones de los pares.

Las pruebas de chi-cuadrado a menudo se refieren a pruebas para las cuales la distribución de la estadística de prueba se aproxima a la distribución de χ 2 asintóticamente , lo que significa que la distribución de muestreo (si la hipótesis nula es verdadera) de la estadística de prueba se aproxima cada vez más a una distribución de chi-cuadrado. medida que aumenta el tamaño de la muestra .

En el siglo XIX, los métodos analíticos estadísticos se aplicaron principalmente en el análisis de datos biológicos y era costumbre que los investigadores supusieran que las observaciones seguían una distribución normal , como Sir George Airy y el profesor Merriman , cuyos trabajos fueron criticados por Karl Pearson en su artículo de 1900 . . [1]

A fines del siglo XIX, Pearson notó la existencia de un sesgo significativo dentro de algunas observaciones biológicas. Para modelar las observaciones independientemente de si son normales o sesgadas, Pearson, en una serie de artículos publicados entre 1893 y 1916, [2] [3] [4] [5] ideó la distribución de Pearson , una familia de distribuciones de probabilidad continuas, que incluye la distribución normal y muchas distribuciones sesgadas, y propuso un método de análisis estadístico que consiste en utilizar la distribución de Pearson para modelar la observación y realizar una prueba de bondad de ajuste para determinar qué tan bien se ajusta realmente el modelo a las observaciones.


Distribución de chi-cuadrado , que muestra χ 2 en el eje x y el valor p (probabilidad de la cola derecha) en el eje y .