Prueba de chi-cuadrado

χ 2

en el eje x y el valor p (probabilidad de la cola derecha) en el eje y .

Una prueba de chi-cuadrado , también escrita como prueba de $χ 2$ , es una prueba de hipótesis estadística que es válida para realizar cuando el estadístico de prueba es chi-cuadrado distribuido bajo la hipótesis nula , específicamente la prueba de chi-cuadrado de Pearson y variantes de la misma. La prueba de chi-cuadrado de Pearson se utiliza para determinar si existe una diferencia estadísticamente significativa entre las frecuencias esperadas y las frecuencias observadas en una o más categorías de una tabla de contingencia .

En las aplicaciones estándar de esta prueba, las observaciones se clasifican en clases mutuamente excluyentes. Si la hipótesis nula de que no hay diferencias entre las clases en la población es cierta, el estadístico de prueba calculado a partir de las observaciones sigue una distribución de frecuencia $χ 2$ . El propósito de la prueba es evaluar qué tan probable sería que las frecuencias observadas asumieran que la hipótesis nula es verdadera.

Los estadísticos de prueba que siguen una distribución $χ 2$ ocurren cuando las observaciones son independientes. También hay pruebas de $χ 2$ para probar la hipótesis nula de independencia de un par de variables aleatorias basadas en observaciones de los pares.

Las pruebas de chi-cuadrado a menudo se refieren a pruebas para las cuales la distribución del estadístico de prueba se aproxima a la distribución $χ 2$ asintóticamente , lo que significa que la distribución muestral (si la hipótesis nula es verdadera) del estadístico de prueba se aproxima cada vez más a una distribución de chi-cuadrado. a medida que aumentan los tamaños de las muestras .

Historia

En el siglo XIX, los métodos analíticos estadísticos se aplicaron principalmente en el análisis de datos biológicos y era habitual que los investigadores asumieran que las observaciones seguían una distribución normal , como Sir George Airy y el profesor Merriman , cuyos trabajos fueron criticados por Karl Pearson en su artículo de 1900. . ^[1]

A finales del siglo XIX, Pearson notó la existencia de un sesgo significativo en algunas observaciones biológicas. Para modelar las observaciones independientemente de que sean normales o sesgadas, Pearson, en una serie de artículos publicados entre 1893 y 1916, ^[2]^[3]^[4]^[5] ideó la distribución de Pearson , una familia de distribuciones de probabilidad continua, que incluye la distribución normal y muchas distribuciones sesgadas, y propuso un método de análisis estadístico que consiste en utilizar la distribución de Pearson para modelar la observación y realizar una prueba de bondad de ajuste para determinar qué tan bien el modelo realmente se ajusta a las observaciones.

Prueba de chi-cuadrado de Pearson

En 1900, Pearson publicó un artículo ^[1] sobre la prueba $χ 2$ que se considera uno de los fundamentos de las estadísticas modernas. ^[6] En este artículo, Pearson investigó una prueba de bondad de ajuste.

Suponga que $n$ observaciones en una muestra aleatoria de una población se clasifican en $k$ clases mutuamente excluyentes con números observados respectivos $x i$ (para $i = 1,2,\dots, k$ ), y una hipótesis nula da la probabilidad $p i de$ que una observación caiga en la $i$ ésima clase. Entonces tenemos los números esperados $m i = np i$ para todo $i$ , donde

{\ Displaystyle {\ begin {alineado} & \ sum _ {i = 1} ^ {k} {p_ {i}} = 1 \\ [8pt] & \ sum _ {i = 1} ^ {k} {m_ {i}} = n \ sum _ {i = 1} ^ {k} {p_ {i}} = n = \ sum _ {i = 1} ^ {k} {x_ {i}} \ end {alineado} }}

Pearson propuso que, bajo la circunstancia de que la hipótesis nula sea correcta, como $n \to \infty$ la distribución límite de la cantidad dada a continuación es la distribución $χ 2$ .

{\ Displaystyle X ^ {2} = \ sum _ {i = 1} ^ {k} {\ frac {(x_ {i} -m_ {i}) ^ {2}} {m_ {i}}} = \ suma _ {i = 1} ^ {k} {{\ frac {x_ {i} ^ {2}} {m_ {i}}} - n}}

Pearson se ocupó primero del caso en el que los números esperados $m i$ son números conocidos lo suficientemente grandes en todas las celdas suponiendo que cada $x i$ puede tomarse como distribuida normalmente , y llegó al resultado de que, en el límite a medida que $n se$ vuelve grande, $X 2$ sigue el $χ 2$ distribución con $k - 1$ grados de libertad.

Sin embargo, Pearson consideró a continuación el caso en el que los números esperados dependían de los parámetros que debían estimarse a partir de la muestra y sugirió que, con la notación de $m i$ siendo los números esperados verdaderos y $m' i$ siendo los números esperados estimados, la diferencia

{\ Displaystyle X ^ {2} - {X '} ^ {2} = \ sum _ {i = 1} ^ {k} {\ frac {x_ {i} ^ {2}} {m_ {i}}} - \ sum _ {i = 1} ^ {k} {\ frac {x_ {i} ^ {2}} {m '_ {i}}}}

normalmente será positivo y lo suficientemente pequeño como para omitirlo. En una conclusión, Pearson argumentó que si consideramos que $X' 2$ también se distribuye como una distribución $χ 2$ con $k - 1$ grados de libertad, el error en esta aproximación no afectaría las decisiones prácticas. Esta conclusión provocó cierta controversia en las aplicaciones prácticas y no se resolvió durante 20 años hasta los artículos de Fisher de 1922 y 1924. ^[7]^[8]

Otros ejemplos de pruebas de chi-cuadrado

Una estadística de prueba que sigue exactamente una distribución de chi-cuadrado es la prueba de que la varianza de una población distribuida normalmente tiene un valor dado basado en una varianza muestral . Tales pruebas son poco comunes en la práctica porque generalmente se desconoce la verdadera varianza de la población. Sin embargo, existen varias pruebas estadísticas en las que la distribución de chi-cuadrado es aproximadamente válida:

Prueba exacta de Fisher

Para obtener una prueba exacta utilizada en lugar de la prueba de chi-cuadrado de 2 × 2 para la independencia, consulte la prueba exacta de Fisher .

Prueba binomial

Para obtener una prueba exacta utilizada en lugar de la prueba de chi-cuadrado de 2 × 1 para la bondad de ajuste, consulte Prueba binomial .

Otras pruebas de chi-cuadrado

Prueba de chi-cuadrado de Cochran-Mantel-Haenszel .
Prueba de McNemar , utilizada en determinadas tablas de 2 × 2 con emparejamiento
Prueba de aditividad de Tukey
La prueba de baúl en el análisis de series de tiempo , prueba de la presencia de autocorrelación
Pruebas de razón de verosimilitud en modelos estadísticos generales , para probar si existe evidencia de la necesidad de pasar de un modelo simple a uno más complicado (donde el modelo simple está anidado dentro del complicado).

Corrección de Yates para la continuidad

El uso de la distribución chi-cuadrado para interpretar el estadístico chi-cuadrado de Pearson requiere suponer que la probabilidad discreta de las frecuencias binomiales observadas en la tabla se puede aproximar mediante la distribución chi-cuadrado continua . Esta suposición no es del todo correcta e introduce algún error.

Para reducir el error en la aproximación, Frank Yates sugirió una corrección por continuidad que ajusta la fórmula para la prueba de chi-cuadrado de Pearson restando 0.5 de la diferencia absoluta entre cada valor observado y su valor esperado en una tabla de contingencia de 2 × 2 . ^[9] Esto reduce el valor de chi-cuadrado obtenido y, por lo tanto, aumenta su valor p .

Prueba de chi-cuadrado para la varianza en una población normal

Si se toma una muestra de tamaño $n$ de una población que tiene una distribución normal , entonces hay un resultado (ver distribución de la varianza de la muestra ) que permite realizar una prueba de si la varianza de la población tiene un valor predeterminado. Por ejemplo, un proceso de fabricación podría haber estado en condición estable durante un largo período, lo que permitió determinar un valor para la varianza esencialmente sin error. Suponga que se está probando una variante del proceso, lo que da lugar a una pequeña muestra de $n$ elementos de producto cuya variación se va a probar. El estadístico de prueba $T$ en este caso, podría establecerse como la suma de cuadrados de la media de la muestra, dividida por el valor nominal de la varianza (es decir, el valor que se probará como sostenido). Entonces $T$ tiene una distribución chi-cuadrado con $n - 1$ grados de libertad . Por ejemplo, si el tamaño de la muestra es 21, la región de aceptación para $T$ con un nivel de significancia del 5% está entre 9,59 y 34,17.

Ejemplo de prueba de chi-cuadrado para datos categóricos

Supongamos que hay una ciudad de 1.000.000 de habitantes, con cuatro barrios: $A$ , $B$ , $C$ , y $D$ . Se toma una muestra aleatoria de 650 residentes de la ciudad y su ocupación se registra como "cuello blanco", "cuello azul" o "sin cuello" . La hipótesis nula es que el barrio de residencia de cada persona es independiente de la clasificación ocupacional de la persona. Los datos se tabulan como:

	$A$	$B$	$C$	$D$	total
de cuello blanco	90	60	104	95	349
Collar azul	30	50	51	20	151
Sin cuello	30	40	45	35	150
Total	150	150	200	150	650

Tomemos el ejemplo que viven en el barrio de $A$ , 150, para estimar qué proporción de todo el millón vivo en el barrio de $A$ . Del mismo modo tomamos 349 / 650 para estimar qué proporción del millón son trabajadores de cuello blanco. Suponiendo la independencia bajo la hipótesis, deberíamos "esperar" que el número de trabajadores administrativos en el barrio $A$ sea

{\ Displaystyle 150 \ times {\ frac {349} {650}} \ approx 80.54}

Luego, en esa "celda" de la tabla, tenemos

{\ Displaystyle {\ frac {\ left ({\ text {observado}} - {\ text {esperado}} \ right) ^ {2}} {\ text {esperado}}} = {\ frac {\ left (90 -80.54 \ right) ^ {2}} {80.54}} \ approx 1.11}

La suma de estas cantidades en todas las celdas es la estadística de prueba; en este caso ,. Bajo la hipótesis nula, esta suma tiene aproximadamente una distribución chi-cuadrado cuyo número de grados de libertad es ${\ Displaystyle \ aproximadamente 24,6}$

({\text{number of rows}}-1)({\text{number of columns}}-1)=(3-1)(4-1)=6

Si el estadístico de prueba es improbablemente grande de acuerdo con esa distribución chi-cuadrado, entonces se rechaza la hipótesis nula de independencia.

Un tema relacionado es una prueba de homogeneidad. Suponga que en lugar de dar a todos los residentes de cada uno de los cuatro vecindarios la misma posibilidad de ser incluidos en la muestra, decidimos de antemano cuántos residentes de cada vecindario incluir. Entonces, cada residente tiene las mismas posibilidades de ser elegido que todos los residentes del mismo vecindario, pero los residentes de diferentes vecindarios tendrían diferentes probabilidades de ser elegido si los cuatro tamaños de muestra no son proporcionales a las poblaciones de los cuatro vecindarios. En tal caso, estaríamos probando la "homogeneidad" en lugar de la "independencia". La pregunta es si las proporciones de obreros, obreros y sin cuello en los cuatro vecindarios son las mismas. Sin embargo, la prueba se realiza de la misma manera.

Aplicaciones

En el criptoanálisis , la prueba de chi-cuadrado se utiliza para comparar la distribución de texto plano y (posiblemente) texto cifrado descifrado . El valor más bajo de la prueba significa que el descifrado fue exitoso con alta probabilidad. ^[10]^[11] Este método se puede generalizar para resolver problemas criptográficos modernos. ^[12]

En bioinformática , la prueba de chi-cuadrado se usa para comparar la distribución de ciertas propiedades de genes (p. Ej., Contenido genómico, tasa de mutación, agrupación de redes de interacción, etc.) que pertenecen a diferentes categorías (p. Ej., Genes de enfermedades, genes esenciales, genes en un cierto cromosoma, etc.). ^[13]^[14]

Ver también

Mesa de contingencia
Nomograma de prueba de chi-cuadrado
Prueba G
Estimación mínima de chi-cuadrado
Estadísticas no paramétricas
Prueba de Wald
Intervalo de puntuación de Wilson

Referencias

↑ a b Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . Revista Filosófica . Serie 5. 50 (302): 157-175. doi : 10.1080 / 14786440009463897 .
^ Pearson, Karl (1893). "Contribuciones a la teoría matemática de la evolución [resumen]" . Actas de la Royal Society . 54 : 329–333. doi : 10.1098 / rspl.1893.0079 . JSTOR 115538 .
^ Pearson, Karl (1895). "Contribuciones a la teoría matemática de la evolución, II: Variación sesgada en material homogéneo" . Transacciones filosóficas de la Royal Society . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P . doi : 10.1098 / rsta.1895.0010 . JSTOR 90649 .
^ Pearson, Karl (1901). "Contribuciones matemáticas a la teoría de la evolución, X: Suplemento de una memoria sobre variación sesgada" . Philosophical Transactions de la Royal Society A . 197 (287–299): 443–459. Código Bibliográfico : 1901RSPTA.197..443P . doi : 10.1098 / rsta.1901.0023 . JSTOR 90841 .
^ Pearson, Karl (1916). "Contribuciones matemáticas a la teoría de la evolución, XIX: Segundo suplemento de una memoria sobre variación sesgada" . Philosophical Transactions de la Royal Society A . 216 (538–548): 429–457. Código bibliográfico : 1916RSPTA.216..429P . doi : 10.1098 / rsta.1916.0009 . JSTOR 91092 .
^ Cochran, William G. (1952). "La prueba de Chi-cuadrado de bondad de ajuste" . Los Anales de Estadística Matemática . 23 (3): 315–345. doi : 10.1214 / aoms / 1177729380 . JSTOR 2236678 .
^ Fisher, Ronald A. (1922). "Sobre la interpretación de χ 2 de tablas de contingencia y el cálculo de P" . Revista de la Royal Statistical Society . 85 (1): 87–94. doi : 10.2307 / 2340521 . JSTOR 2340521 .
^ Fisher, Ronald A. (1924). "Las condiciones bajo las cuales $χ$ $2$ mide la discrepancia entre observación e hipótesis". Revista de la Royal Statistical Society . 87 (3): 442–450. JSTOR 2341149 .
^ Yates, Frank (1934). "Tabla de contingencia que involucra números pequeños y la prueba de $χ$ $2$ ". Suplemento de la Revista de la Royal Statistical Society . 1 (2): 217–235. doi : 10.2307 / 2983604 . JSTOR 2983604 .
^ "Estadística de chi-cuadrado" . Criptografía práctica . Archivado desde el original el 18 de febrero de 2015 . Consultado el 18 de febrero de 2015 .
^ "Uso de Chi al cuadrado para descifrar códigos" . Recursos de matemáticas del IB . Escuela Internacional Británica de Phuket.
↑ Ryabko, B. Ya .; Stognienko, VS; Shokin, Yu. I. (2004). "Una nueva prueba de aleatoriedad y su aplicación a algunos problemas criptográficos" (PDF) . Revista de Planificación e Inferencia Estadística . 123 (2): 365–376. doi : 10.1016 / s0378-3758 (03) 00149-6 . Consultado el 18 de febrero de 2015 .
^ Feldman, I .; Rzhetsky, A .; Vitkup, D. (2008). "Propiedades de la red de genes que albergan mutaciones de enfermedades hereditarias" . PNAS . 105 (11): 4323–432. Código bibliográfico : 2008PNAS..105.4323F . doi : 10.1073 / pnas.0701722105 . PMC 2393821 . PMID 18326631 .
^ "pruebas de chi-cuadrado" (PDF) . Archivado desde el original (PDF) el 29 de junio de 2018 . Consultado el 29 de junio de 2018 .

Otras lecturas

Weisstein, Eric W. "Prueba de chi-cuadrado" . MathWorld .
Corder, GW; Foreman, DI (2014), Estadísticas no paramétricas: un enfoque paso a paso , Nueva York: Wiley, ISBN 978-1118840313
Greenwood, Cindy ; Nikulin, MS (1996), A guide to chi-square testing , Nueva York: Wiley, ISBN 0-471-55779-X
Nikulin, MS (1973), "Prueba de chi-cuadrado para la normalidad", Actas de la Conferencia Internacional de Vilnius sobre Teoría de la Probabilidad y Estadística Matemática , 2 , págs. 119-122
Bagdonavicius, V .; Nikulin, MS (2011), "Prueba de bondad de ajuste de chi-cuadrado para datos censurados a la derecha" , The International Journal of Applied Mathematics and Statistics , págs. 30–50^{[ se necesita cita completa ]}

[Pearson1900-1] Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . Revista Filosófica . Serie 5. 50 (302): 157-175. doi : 10.1080 / 14786440009463897 .

[Pearson1893-2] Pearson, Karl (1893). "Contribuciones a la teoría matemática de la evolución [resumen]" . Actas de la Royal Society . 54 : 329–333. doi : 10.1098 / rspl.1893.0079 . JSTOR 115538 .

[Pearson1895-3] Pearson, Karl (1895). "Contribuciones a la teoría matemática de la evolución, II: Variación sesgada en material homogéneo" . Transacciones filosóficas de la Royal Society . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P . doi : 10.1098 / rsta.1895.0010 . JSTOR 90649 .

[Pearson1901-4] Pearson, Karl (1901). "Contribuciones matemáticas a la teoría de la evolución, X: Suplemento de una memoria sobre variación sesgada" . Philosophical Transactions de la Royal Society A . 197 (287–299): 443–459. Código Bibliográfico : 1901RSPTA.197..443P . doi : 10.1098 / rsta.1901.0023 . JSTOR 90841 .

[Pearson1916-5] Pearson, Karl (1916). "Contribuciones matemáticas a la teoría de la evolución, XIX: Segundo suplemento de una memoria sobre variación sesgada" . Philosophical Transactions de la Royal Society A . 216 (538–548): 429–457. Código bibliográfico : 1916RSPTA.216..429P . doi : 10.1098 / rsta.1916.0009 . JSTOR 91092 .

[Cochran1952-6] Cochran, William G. (1952). "La prueba de Chi-cuadrado de bondad de ajuste" . Los Anales de Estadística Matemática . 23 (3): 315–345. doi : 10.1214 / aoms / 1177729380 . JSTOR 2236678 .

[Fisher1922-7] Fisher, Ronald A. (1922). "Sobre la interpretación de χ 2 de tablas de contingencia y el cálculo de P" . Revista de la Royal Statistical Society . 85 (1): 87–94. doi : 10.2307 / 2340521 . JSTOR 2340521 .

[Fisher1924-8] Fisher, Ronald A. (1924). "Las condiciones bajo las cuales $χ$ $2$ mide la discrepancia entre observación e hipótesis". Revista de la Royal Statistical Society . 87 (3): 442–450. JSTOR 2341149 .

[Yates-9] Yates, Frank (1934). "Tabla de contingencia que involucra números pequeños y la prueba de $χ$ $2$ ". Suplemento de la Revista de la Royal Statistical Society . 1 (2): 217–235. doi : 10.2307 / 2983604 . JSTOR 2983604 .

[practicalcrypto-10] "Estadística de chi-cuadrado" . Criptografía práctica . Archivado desde el original el 18 de febrero de 2015 . Consultado el 18 de febrero de 2015 .

[ibmath-11] "Uso de Chi al cuadrado para descifrar códigos" . Recursos de matemáticas del IB . Escuela Internacional Británica de Phuket.

[elsevier-12] Ryabko, B. Ya .; Stognienko, VS; Shokin, Yu. I. (2004). "Una nueva prueba de aleatoriedad y su aplicación a algunos problemas criptográficos" (PDF) . Revista de Planificación e Inferencia Estadística . 123 (2): 365–376. doi : 10.1016 / s0378-3758 (03) 00149-6 . Consultado el 18 de febrero de 2015 .

[pnas-bics-13] Feldman, I .; Rzhetsky, A .; Vitkup, D. (2008). "Propiedades de la red de genes que albergan mutaciones de enfermedades hereditarias" . PNAS . 105 (11): 4323–432. Código bibliográfico : 2008PNAS..105.4323F . doi : 10.1073 / pnas.0701722105 . PMC 2393821 . PMID 18326631 .

[chi-bics-14] "pruebas de chi-cuadrado" (PDF) . Archivado desde el original (PDF) el 29 de junio de 2018 . Consultado el 29 de junio de 2018 .

[1]

Control de autoridad
Bibliotecas nacionales	Estados Unidos
Otro	Microsoft académico