La prueba exacta de Fisher es una prueba de significación estadística utilizada en el análisis de tablas de contingencia . [1] [2] [3] Aunque en la práctica se emplea cuando los tamaños de muestra son pequeños, es válido para todos los tamaños de muestra. Lleva el nombre de su inventor, Ronald Fisher , y pertenece a una clase de pruebas exactas , así llamado porque la importancia de la desviación de una hipótesis nula (p. Ej., Valor P ) se puede calcular con exactitud, en lugar de depender de una aproximación. que se vuelve exacta en el límite a medida que el tamaño de la muestra crece hasta el infinito, como ocurre con muchas pruebas estadísticas.
Se dice que Fisher ideó la prueba luego de un comentario de Muriel Bristol , quien afirmó ser capaz de detectar si el té o la leche se agregaron primero a su taza. Probó su afirmación en el experimento de " dama probando té ". [4]
Propósito y alcance
La prueba es útil para datos categóricos que resultan de clasificar objetos de dos formas diferentes; se utiliza para examinar la importancia de la asociación (contingencia) entre los dos tipos de clasificación. Entonces, en el ejemplo original de Fisher, un criterio de clasificación podría ser si primero se puso leche o té en la taza; la otra podría ser si Bristol piensa que se puso primero la leche o el té. Queremos saber si estas dos clasificaciones están asociadas, es decir, si Bristol realmente puede decir si primero se vertió leche o té. La mayoría de los usos de la prueba de Fisher implican, como este ejemplo, una tabla de contingencia de 2 × 2. El valor p de la prueba se calcula como si los márgenes de la tabla fueran fijos, es decir, como si, en el ejemplo de la degustación de té, Bristol conociera el número de tazas con cada tratamiento (primero la leche o el té) y, por lo tanto, proporcionaría conjeturas. con el número correcto en cada categoría. Como señala Fisher, esto conduce bajo una hipótesis nula de independencia a una distribución hipergeométrica de los números en las celdas de la tabla.
Con muestras grandes, se puede utilizar una prueba de chi-cuadrado (o mejor aún, una prueba G ) en esta situación. Sin embargo, el valor de significancia que proporciona es solo una aproximación, porque la distribución de muestreo del estadístico de prueba que se calcula es solo aproximadamente igual a la distribución teórica de chi-cuadrado. La aproximación es inadecuada cuando los tamaños de muestra son pequeños o los datos están distribuidos de manera muy desigual entre las celdas de la tabla, lo que da como resultado que los recuentos de celdas pronosticados en la hipótesis nula (los “valores esperados”) sean bajos. La regla general para decidir si la aproximación de chi-cuadrado es suficientemente buena es que la prueba de chi-cuadrado no es adecuada cuando los valores esperados en cualquiera de las celdas de una tabla de contingencia están por debajo de 5, o por debajo de 10 cuando solo hay un grado de libertad (ahora se sabe que esta regla es demasiado conservadora [5] ). De hecho, para datos pequeños, escasos o desequilibrados, los valores p exactos y asintóticos pueden ser bastante diferentes y pueden llevar a conclusiones opuestas con respecto a la hipótesis de interés. [6] [7] En contraste, la prueba exacta de Fisher es, como su nombre lo indica, exacta siempre que el procedimiento experimental mantenga fijos los totales de filas y columnas y, por lo tanto, se puede utilizar independientemente de las características de la muestra. Resulta difícil calcular con muestras grandes o tablas bien equilibradas, pero afortunadamente estas son exactamente las condiciones en las que la prueba de chi-cuadrado es apropiada.
Para cálculos manuales, la prueba solo es factible en el caso de una tabla de contingencia de 2 × 2. Sin embargo, el principio de la prueba puede extenderse al caso general de una tabla m × n , [8] [9] y algunos paquetes estadísticos proporcionan un cálculo (a veces utilizando un método de Monte Carlo para obtener una aproximación) para el caso más general. . [10]
Ejemplo
Por ejemplo, una muestra de adolescentes podría dividirse en hombres y mujeres, por un lado, y aquellos que están y no están estudiando actualmente para un examen de estadística, por el otro. Hipotetizamos, por ejemplo, que la proporción de individuos que estudian es mayor entre las mujeres que entre los hombres, y queremos probar si alguna diferencia de proporciones que observamos es significativa. Los datos pueden verse así:
Hombres | Mujeres | Total de filas | |
---|---|---|---|
Estudiando | 1 | 9 | 10 |
No estudiar | 11 | 3 | 14 |
Total de la columna | 12 | 12 | 24 |
La pregunta que nos hacemos sobre estos datos es: sabiendo que 10 de estos 24 adolescentes están estudiando, y que 12 de los 24 son mujeres, y asumiendo la hipótesis nula de que hombres y mujeres tienen la misma probabilidad de estudiar, ¿cuál es la probabilidad de que estos 10 ¿Los adolescentes que estudian estarían tan desigualmente distribuidos entre mujeres y hombres? Si tuviéramos que elegir a 10 de los adolescentes al azar, ¿cuál es la probabilidad de que 9 o más de ellos estén entre las 12 mujeres y solo 1 o menos entre los 12 hombres?
Antes de continuar con la prueba de Fisher, primero introducimos algunas notaciones. Nosotros representamos a las células por las letras a, b, c y d , llamar a los totales a través de filas y columnas totales marginales , y representan el total de n . Entonces la tabla ahora se ve así:
Hombres | Mujeres | Total de filas | |
---|---|---|---|
Estudiando | a | B | a + b |
No estudia | C | D | c + d |
Total de la columna | a + c | b + d | a + b + c + d (= n) |
Fisher demostró que condicional a los márgenes de la tabla, a se distribuye como una distribución hipergeométrica con a + c se extrae de una población con a + b éxitos y c + d fracasos. La probabilidad de obtener tal conjunto de valores viene dada por:
dónde es el coeficiente binomial y el símbolo! indica el operador factorial . Esto se puede ver de la siguiente manera. Si los totales marginales (es decir, , , y ) se conocen, solo queda un grado de libertad: el valor, por ejemplo, de basta con deducir los demás valores. Ahora, es la probabilidad de que elementos son positivos en una selección aleatoria (sin reemplazo) de elementos de un conjunto más grande que contiene elementos en total de los cuales son positivos, que es precisamente la definición de la distribución hipergeométrica.
Con los datos anteriores (utilizando la primera de las formas equivalentes), esto da:
La fórmula anterior da la probabilidad hipergeométrica exacta de observar esta disposición particular de los datos, asumiendo los totales marginales dados, en la hipótesis nula de que los hombres y las mujeres tienen la misma probabilidad de ser estudiosos. Para decirlo de otra manera, si asumimos que la probabilidad de que un hombre sea un estudiante es, la probabilidad de que una mujer sea estudiante también es , y asumimos que tanto hombres como mujeres ingresan a nuestra muestra independientemente de si son o no estudiosos, entonces esta fórmula hipergeométrica da la probabilidad condicional de observar los valores a, b, c, d en las cuatro celdas, condicionalmente en los marginales observados (es decir, asumiendo que se dan los totales de filas y columnas que se muestran en los márgenes de la tabla). Esto sigue siendo cierto incluso si los hombres ingresan a nuestra muestra con diferentes probabilidades que las mujeres. El requisito es simplemente que las dos características de clasificación, género y estudioso (o no), no estén asociadas.
Por ejemplo, suponga que conocemos las probabilidades con tal que (estudiante masculino, no estudiante masculino, estudiante femenino, no estudiante femenino) tenían probabilidades respectivas para cada individuo encontrado bajo nuestro procedimiento de muestreo. Entonces aún, si tuviéramos que calcular la distribución de las entradas de celda condicionales dadas marginales, obtendríamos la fórmula anterior en la que ninguno ni ocurre. Por lo tanto, podemos calcular la probabilidad exacta de cualquier disposición de los 24 adolescentes en las cuatro celdas de la tabla, pero Fisher demostró que para generar un nivel de significancia, necesitamos considerar solo los casos en los que los totales marginales son los mismos que en el observado. tabla, y entre ellos, sólo los casos en los que la disposición es tan extrema como la disposición observada, o más. ( La prueba de Barnard relaja esta restricción en un conjunto de totales marginales). En el ejemplo, hay 11 casos de este tipo. De estos, sólo uno es más extremo en la misma dirección que nuestros datos; se parece a esto:
Hombres | Mujeres | Total de filas | |
---|---|---|---|
Estudiando | 0 | 10 | 10 |
No estudia | 12 | 2 | 14 |
Total de la columna | 12 | 12 | 24 |
Para esta tabla (con proporciones de estudio extremadamente desiguales) la probabilidad es .
Para calcular la importancia de los datos observados, es decir, la probabilidad total de observar datos como extremos o más extremos si la hipótesis nula es cierta, tenemos que calcular los valores de p para ambas tablas y sumarlos. Esto da una prueba de una cola , con p aproximadamente 0,001346076 + 0,000033652 = 0,001379728. Por ejemplo, en el entorno de cálculo estadístico R , este valor se puede obtener como fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value
. Este valor puede interpretarse como la suma de la evidencia proporcionada por los datos observados, o cualquier tabla más extrema, para la hipótesis nula (que no hay diferencia en las proporciones de estudiantes entre hombres y mujeres). Cuanto menor sea el valor de p , mayor será la evidencia para rechazar la hipótesis nula; así que aquí la evidencia es fuerte de que los hombres y las mujeres no tienen la misma probabilidad de ser estudiosos.
Para una prueba de dos colas también debemos considerar tablas que son igualmente extremas, pero en la dirección opuesta. Desafortunadamente, la clasificación de las tablas según sean o no "tan extremas" es problemática. Un enfoque utilizado por la fisher.test
función en R es calcular el valor p sumando las probabilidades de todas las tablas con probabilidades menores o iguales a las de la tabla observada. En el ejemplo aquí, el valor p de dos lados es el doble del valor de un lado, pero en general estos pueden diferir sustancialmente para tablas con recuentos pequeños, a diferencia del caso de las estadísticas de prueba que tienen una distribución de muestreo simétrica.
Como se señaló anteriormente, la mayoría de los paquetes estadísticos modernos calcularán la significancia de las pruebas de Fisher, en algunos casos incluso donde la aproximación de chi-cuadrado también sería aceptable. Los cálculos reales realizados por los paquetes de software estadístico, por regla general, diferirán de los descritos anteriormente, porque las dificultades numéricas pueden resultar de los grandes valores tomados por los factoriales. Un enfoque computacional simple, algo mejor, se basa en una función gamma o una función log-gamma, pero los métodos para el cálculo preciso de probabilidades hipergeométricas y binomiales siguen siendo un área de investigación activa.
Controversias
A pesar de que la prueba de Fisher da valores p exactos, algunos autores han argumentado que es conservadora, es decir, que su tasa de rechazo real está por debajo del nivel de significancia nominal. [11] [12] [13] La aparente contradicción surge de la combinación de una estadística discreta con niveles de significancia fijos. [14] [15] Para ser más precisos, considere la siguiente propuesta para una prueba de significancia al nivel del 5%: rechace la hipótesis nula para cada tabla a la que la prueba de Fisher asigna un valor p igual o menor al 5%. Debido a que el conjunto de todas las tablas es discreto, es posible que no haya una tabla para la que se logre la igualdad. Si es el valor p más grande menor al 5% que realmente puede ocurrir para alguna tabla, entonces la prueba propuesta prueba efectivamente en el -nivel. Para tamaños de muestra pequeños,podría ser significativamente inferior al 5%. [11] [12] [13] Si bien este efecto ocurre para cualquier estadística discreta (no solo en tablas de contingencia o para la prueba de Fisher), se ha argumentado que el problema se agrava por el hecho de que la prueba de Fisher condiciona los marginales. [16] Para evitar el problema, muchos autores desaconsejan el uso de niveles de significancia fijos cuando se trata de problemas discretos. [14] [15]
La decisión de condicionar al margen de la mesa también es controvertida. [17] [18] Los valores p derivados de la prueba de Fisher provienen de la distribución que condiciona los totales del margen. En este sentido, la prueba es exacta solo para la distribución condicional y no para la tabla original donde los totales de los márgenes pueden cambiar de un experimento a otro. Es posible obtener un valor p exacto para la tabla 2 × 2 cuando los márgenes no se mantienen fijos. La prueba de Barnard , por ejemplo, permite márgenes aleatorios. Sin embargo, algunos autores [14] [15] [18] (incluido, más tarde, el propio Barnard) [14] han criticado la prueba de Barnard basada en esta propiedad. Argumentan que el total de éxito marginal es una estadística auxiliar (casi [15] ) , que no contiene (casi) información sobre la propiedad probada.
Se puede demostrar que el acto de condicionar la tasa de éxito marginal de una tabla de 2 × 2 ignora cierta información en los datos sobre la razón de probabilidades desconocida. [19] El argumento de que los totales marginales son (casi) auxiliares implica que la función de probabilidad apropiada para hacer inferencias sobre esta razón de probabilidades debe estar condicionada a la tasa de éxito marginal. [19] Si esta información perdida es importante para propósitos de inferencia es la esencia de la controversia. [19]
Alternativas
Se ha desarrollado una prueba exacta alternativa, la prueba exacta de Barnard , y los proponentes [¿ según quién? ] sugieren que este método es más poderoso, particularmente en tablas de 2 × 2. [20] Además, la prueba de Boschloo es una prueba exacta que es uniformemente más poderosa que la prueba exacta de Fisher por construcción. [21] Otra alternativa es utilizar estimaciones de máxima verosimilitud para calcular un valor p a partir de las distribuciones binomiales o multinomiales exactas y rechazar o no rechazar en función del valor p . [ cita requerida ]
Para datos categóricos estratificados, se debe utilizar la prueba de Cochran-Mantel-Haenszel en lugar de la prueba de Fisher.
Choi y col. [19] proponen un valor p derivado de la prueba de razón de verosimilitud basada en la distribución condicional de la razón de probabilidades dada la tasa de éxito marginal. Este valor p es inferencialmente consistente con las pruebas clásicas de datos distribuidos normalmente, así como con las razones de verosimilitud y los intervalos de soporte basados en esta función de verosimilitud condicional. También es fácilmente computable. [22]
Ver también
- Juicio de Bernoulli
- Prueba de Boschloo
Referencias
- ^ Fisher, RA (1922). "Sobre la interpretación de χ 2 de las tablas de contingencia y el cálculo de P" . Revista de la Royal Statistical Society . 85 (1): 87–94. doi : 10.2307 / 2340521 . JSTOR 2340521 .
- ^ Fisher, RA (1954). Métodos estadísticos para investigadores . Oliver y Boyd. ISBN 0-05-002170-2.
- ^ Agresti, Alan (1992). "Una encuesta de inferencia exacta para tablas de contingencia". Ciencia estadística . 7 (1): 131-153. CiteSeerX 10.1.1.296.874 . doi : 10.1214 / ss / 1177011454 . JSTOR 2246001 .
- ^ Fisher, Sir Ronald A. (1956) [ El diseño de experimentos (1935)]. "Matemáticas de una dama degustando té" . En James Roy Newman (ed.). El mundo de las matemáticas, volumen 3 . Publicaciones de Courier Dover. ISBN 978-0-486-41151-4.
- ^ Larntz, Kinley (1978). "Comparaciones de muestras pequeñas de niveles exactos para estadísticas de bondad de ajuste de chi-cuadrado". Revista de la Asociación Estadounidense de Estadística . 73 (362): 253–263. doi : 10.2307 / 2286650 . JSTOR 2286650 .
- ^ Mehta, Cyrus R; Patel, Nitin R; Tsiatis, Anastasios A (1984). "Prueba de significación exacta para establecer la equivalencia de tratamiento con datos categóricos ordenados". Biometría . 40 (3): 819–825. doi : 10.2307 / 2530927 . JSTOR 2530927 . PMID 6518249 .
- ^ Mehta, CR 1995. Prueba exacta de SPSS 6.1 para Windows. Englewood Cliffs, Nueva Jersey: Prentice Hall.
- ^ Mehta CR; Patel NR (1983). "Un algoritmo de red para realizar la prueba exacta de Fisher en tablas de contingencia r X c ". Revista de la Asociación Estadounidense de Estadística . 78 (382): 427–434. doi : 10.2307 / 2288652 . JSTOR 2288652 .
- ^ mathworld.wolfram.com Página que da la fórmula para la forma general de la prueba exacta de Fisher paratablas de contingencia m × n
- ^ Cyrus R. Mehta; Nitin R. Patel (1986). "ALGORITMO 643: FEXACTO: una subrutina FORTRAN para la prueba exacta de Fisher en tablas de contingencia r × c no ordenadas". ACM Trans. Matemáticas. Softw . 12 (2): 154-161. doi : 10.1145 / 6497.214326 .
- ^ a b Liddell, Douglas (1976). "Pruebas prácticas de tablas de contingencia 2 × 2". El estadístico . 25 (4): 295-304. doi : 10.2307 / 2988087 . JSTOR 2988087 .
- ^ a b Berkson, Joseph (1978). "En desprestigio de la prueba exacta". Revista de Planificación e Inferencia Estadística . 2 : 27–42. doi : 10.1016 / 0378-3758 (78) 90019-8 .
- ^ a b D'Agostino, RB; Chase, W. y Belanger, A. (1988). "La idoneidad de algunos procedimientos comunes para probar la igualdad de dos proporciones binomiales independientes". El estadístico estadounidense . 42 (3): 198–202. doi : 10.2307 / 2685002 . JSTOR 2685002 .
- ^ a b c d Yates, F. (1984). "Pruebas de significación para tablas de contingencia 2 × 2 (con discusión)". Revista de la Sociedad Real de Estadística, Serie A . 147 (3): 426–463. doi : 10.2307 / 2981577 . JSTOR 2981577 .
- ^ a b c d Little, Roderick JA (1989). "Prueba de la igualdad de dos proporciones binomiales independientes". El estadístico estadounidense . 43 (4): 283–288. doi : 10.2307 / 2685390 . JSTOR 2685390 .
- ^ Mehta, Cyrus R .; Senchaudhuri, Pralay (4 de septiembre de 2003). "Pruebas exactas condicionales versus incondicionales para comparar dos binomios" (PDF) . Consultado el 20 de noviembre de 2009 .
- ^ Barnard, GA (1945). "Una nueva prueba para tablas 2 × 2" . Naturaleza . 156 (3954): 177. doi : 10.1038 / 156177a0 .
- ^ a b Fisher (1945). "Una nueva prueba para tablas 2 × 2". Naturaleza . 156 (3961): 388. doi : 10.1038 / 156388a0 .; Barnard, GA (1945). "Una nueva prueba para tablas 2 × 2". Naturaleza . 156 (3974): 783–784. doi : 10.1038 / 156783b0 .
- ^ a b c d Choi L, Blume JD, Dupont WD (2015). "Aclarar los fundamentos de la inferencia estadística con tablas de 2 × 2" . PLoS ONE . 10 (4): e0121263. doi : 10.1371 / journal.pone.0121263 . PMC 4388855 . PMID 25849515 .
- ^ Berger RL (1994). "Comparación de potencia de pruebas incondicionales exactas para comparar dos proporciones binomiales". Instituto de Estadística Serie Mimeo No. 2266 : 1-19.
- ^ RD Boschloo (1970). "Nivel de significancia condicional elevado para la tabla de 2 x 2 al probar la igualdad de dos probabilidades". Statistica Neerlandica . 24 : 1-35. doi : 10.1111 / j.1467-9574.1970.tb00104.x .
- ^ Choi, Leena (2011). "ProfileLikelihood: perfil de probabilidad de un parámetro en modelos estadísticos de uso común; 2011. Paquete R versión 1.1" .Ver también: Estadísticas de razón de verosimilitud para tablas 2 x 2 Archivado el 4 de junio de 2016 en Wayback Machine (calculadora en línea).
enlaces externos
- Calcule la prueba exacta de Fisher en línea
- Estadísticas de razón de verosimilitud para tablas 2X2