En las pruebas de significación estadística, una prueba de una cola y una prueba de dos colas son formas alternativas de calcular la significación estadística de un parámetro inferido de un conjunto de datos, en términos de una estadística de prueba . Una prueba de dos colas es apropiada si el valor estimado es mayor o menor que un cierto rango de valores, por ejemplo, si un examinado puede obtener una puntuación por encima o por debajo de un rango específico de puntuaciones. Este método se utiliza para hipótesis nulas.pruebas y si el valor estimado existe en las áreas críticas, se acepta la hipótesis alternativa sobre la hipótesis nula. Una prueba de una cola es apropiada si el valor estimado puede desviarse del valor de referencia en una sola dirección, izquierda o derecha, pero no en ambas. Un ejemplo puede ser si una máquina produce más del uno por ciento de productos defectuosos. En esta situación, si el valor estimado existe en una de las áreas críticas unilaterales, dependiendo de la dirección de interés (mayor o menor que), se acepta la hipótesis alternativa sobre la hipótesis nula. Los nombres alternativos son de un solo lado y de dos ladospruebas; la terminología "cola" se utiliza porque las porciones extremas de las distribuciones, donde las observaciones conducen al rechazo de la hipótesis nula, son pequeñas y, a menudo, "cola" hacia cero como en la distribución normal , coloreadas en amarillo o "curva de campana", representada a la derecha y coloreada en verde.
Aplicaciones
Las pruebas de una cola se utilizan para distribuciones asimétricas que tienen una sola cola, como la distribución chi-cuadrado , que son comunes en la medición de bondad de ajuste , o para un lado de una distribución que tiene dos colas, como la normal. distribución , que es común en la estimación de la ubicación; esto corresponde a especificar una dirección. Las pruebas de dos colas solo son aplicables cuando hay dos colas, como en la distribución normal, y corresponden a considerar cualquier dirección como significativa. [1] [2]
En el enfoque de Ronald Fisher , la hipótesis nula H 0 se rechazará cuando el valor p del estadístico de prueba sea suficientemente extremo (en relación con la distribución muestral del estadístico de prueba ) y, por lo tanto, se considere improbable que sea el resultado del azar. Esto generalmente se hace comparando el valor p resultante con el nivel de significancia especificado, denotado por, al calcular la significancia estadística de un parámetro . En una prueba de una cola, "extremo" se decide de antemano como si significa "suficientemente pequeño" o "suficientemente grande"; los valores en la otra dirección se consideran no significativos. Se puede informar que la probabilidad de cola izquierda o derecha como el valor p de una cola, que en última instancia corresponde a la dirección en la que el estadístico de prueba se desvía de H 0. [3] En una prueba de dos colas, "extremo" significa " ya sea suficientemente pequeño o suficientemente grande ", y los valores en cualquier dirección se consideran significativos. [4] Para una estadística de prueba dada, hay una única prueba de dos colas y dos pruebas de una cola, una para cada dirección. Cuando se proporciona un nivel de significancia, las regiones críticas existirían en los dos extremos de la distribución con un área de cada uno para una prueba de dos colas. Alternativamente, la región crítica existiría únicamente en el extremo de una cola con un área depara una prueba de una cola. Para un nivel de significancia dado en una prueba de dos colas para un estadístico de prueba, las pruebas de una cola correspondientes para el mismo estadístico de prueba se considerarán dos veces más significativas (la mitad del valor p ) si los datos están en la dirección especificada por la prueba, o no es significativo en absoluto ( p -valor anterior) si los datos están en la dirección opuesta a la región crítica especificada por la prueba.
Por ejemplo, si lanzar una moneda al aire , probar si está sesgada hacia las caras es una prueba de una sola cola, y obtener datos de "todas las caras" se consideraría altamente significativo, mientras que obtener datos de "todas las cruces" no sería significativo en todos ( p = 1). Por el contrario, probar si está sesgado en cualquier dirección es una prueba de dos colas, y tanto "todas las caras" como "todas las cruces" se considerarían datos muy significativos. En las pruebas médicas, mientras uno está generalmente interesado en si un tratamiento produce resultados que son mejores que el azar, lo que sugiere una prueba de una cola; un peor resultado también es interesante para el campo científico, por lo tanto, se debe usar una prueba de dos colas que corresponda en cambio a probar si el tratamiento da como resultado resultados diferentes al azar, mejores o peores. [5] En el experimento arquetípico de una dama probando té , Fisher probó si la dama en cuestión era mejor que la casualidad para distinguir dos tipos de preparación de té, no si su habilidad era diferente de la casualidad, y por lo tanto utilizó una prueba de una cola.
Ejemplo de lanzamiento de monedas
En el lanzamiento de una moneda, la hipótesis nula es una secuencia de ensayos de Bernoulli con probabilidad de 0.5, que produce una variable aleatoria X que es 1 para cara y 0 para cruz, y una estadística de prueba común es la media muestral (del número de caras)Si se prueba si la moneda está sesgada hacia las caras, se usaría una prueba de una cola; solo una gran cantidad de caras sería significativa. En ese caso, un conjunto de datos de cinco cabezas (HHHHH), con una media muestral de 1, tiene un probabilidad de que ocurra, (5 giros consecutivos con 2 resultados - ((1/2) ^ 5 = 1/32). Esto habría y sería significativo (rechazando la hipótesis nula) si la prueba fuera analizada a un nivel de significancia de (el nivel de significancia correspondiente al límite de corte). Sin embargo, si se prueba si la moneda está sesgada hacia cara o cruz, se usaría una prueba de dos colas, y un conjunto de datos de cinco caras (media de la muestra 1) es tan extremo como un conjunto de datos de cinco colas (media de la muestra 0 ). Como resultado, el valor p sería y esto no sería significativo (sin rechazar la hipótesis nula) si la prueba fuera analizada a un nivel de significancia de .
Historia
El valor p fue introducido por Karl Pearson [6] en la prueba de chi-cuadrado de Pearson , donde definió P (notación original) como la probabilidad de que el estadístico estuviera en un nivel dado o por encima de él. Esta es una definición de una cola, y la distribución chi-cuadrado es asimétrica, solo asume valores positivos o cero, y tiene solo una cola, la superior. Mide la bondad de ajuste de los datos con una distribución teórica, donde cero corresponde a la concordancia exacta con la distribución teórica; Por tanto, el valor p mide la probabilidad de que el ajuste sea tan malo o peor.
La distinción entre pruebas de una cola y de dos colas fue popularizada por Ronald Fisher en el influyente libro Statistical Methods for Research Workers , [7] donde la aplicó especialmente a la distribución normal , que es una distribución simétrica con dos colas iguales. La distribución normal es una medida común de ubicación, en lugar de bondad de ajuste, y tiene dos colas, correspondientes a la estimación de ubicación por encima o por debajo de la ubicación teórica (p. Ej., Media de la muestra comparada con la media teórica). En el caso de una distribución simétrica como la distribución normal, el valor p de una cola es exactamente la mitad del valor p de dos colas : [7]
A veces se introduce cierta confusión por el hecho de que en algunos casos deseamos conocer la probabilidad de que la desviación, que se sabe que es positiva, supere un valor observado, mientras que en otros casos la probabilidad requerida es que una desviación, que es igualmente frecuentemente positiva y negativo, excederá un valor observado; la última probabilidad es siempre la mitad de la primera.
Fisher enfatizó la importancia de medir la cola, el valor observado de la estadística de prueba y todo lo más extremo, en lugar de simplemente la probabilidad de un resultado específico en sí, en su The Design of Experiments (1935). [8] Explica esto porque un conjunto específico de datos puede ser poco probable (en la hipótesis nula), pero es probable que los resultados sean más extremos, por lo que, vistos desde esta perspectiva, los datos específicos, pero no extremos, improbables no deben considerarse significativos.
Ensayos específicos
Si el resultado sigue una de Student t -distribución en la hipótesis nula - que es común en el que la variable subyacente sigue una distribución normal con factor de escala desconocida, entonces la prueba se conoce como una cola o de dos colas t -test . Si la prueba se realiza utilizando la media y la varianza de la población real, en lugar de una estimación de una muestra, se llamaría prueba Z de una o dos colas .
Las tablas estadísticas para ty para Z proporcionan valores críticos para pruebas de una y dos colas. Es decir, proporcionan los valores críticos que cortan una región completa en uno u otro extremo de la distribución de muestreo, así como los valores críticos que cortan las regiones (de la mitad del tamaño) en ambos extremos de la distribución de muestreo.
Ver también
- Prueba de diferencias pareadas , cuando se comparan dos muestras
Referencias
- ^ Mundry, R .; Fischer, J. (1998). "El uso de programas estadísticos para pruebas no paramétricas de muestras pequeñas a menudo conduce a valores de P incorrectos: ejemplos de comportamiento animal". Comportamiento animal . 56 (1): 256–259. doi : 10.1006 / anbe.1998.0756 . PMID 9710485 .
- ^ Pillemer, DB (1991). "Pruebas de hipótesis de una contra dos colas en la investigación educativa contemporánea". Investigador educativo . 20 (9): 13-17. doi : 10.3102 / 0013189X020009013 .
- ^ Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005. págs. 389–390. ISBN 9781852338961. OCLC 262680588 .CS1 maint: otros ( enlace )
- ^ John E. Freund , (1984) Modern Elementary Statistics , sexta edición. Prentice Hall. ISBN 0-13-593525-3 (Sección "Inferencias sobre medias", capítulo "Pruebas de significancia", página 289.)
- ^ JM Bland, DG Bland (BMJ, 1994) Notas de estadísticas: pruebas de significación de uno y dos lados
- ^ Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . Revista Filosófica . Serie 5. 50 (302): 157-175. doi : 10.1080 / 14786440009463897 .
- ^ a b Fisher, Ronald (1925). Métodos estadísticos para investigadores . Edimburgo: Oliver y Boyd. ISBN 0-05-002170-2.
- ^ Fisher, Ronald A. (1971) [1935]. El diseño de experimentos (9ª ed.). Macmillan. ISBN 0-02-844690-9.