Una estadística de prueba es una estadística (una cantidad derivada de la muestra ) que se utiliza en la prueba de hipótesis estadísticas . [1] Una prueba de hipótesis se especifica típicamente en términos de una estadística de prueba, considerada como un resumen numérico de un conjunto de datos que reduce los datos a un valor que se puede utilizar para realizar la prueba de hipótesis. En general, un estadístico de prueba se selecciona o define de tal manera que cuantifique, dentro de los datos observados, comportamientos que distinguirían la hipótesis nula de la alternativa , cuando se prescribe dicha alternativa, o que caracterizarían la hipótesis nula si existe ninguna hipótesis alternativa expresada explícitamente.
Una propiedad importante de un estadístico de prueba es que su distribución muestral bajo la hipótesis nula debe ser calculable, ya sea de manera exacta o aproximada, lo que permite calcular los valores p . Una estadística de prueba comparte algunas de las mismas cualidades de una estadística descriptiva , y muchas estadísticas se pueden utilizar como estadísticas de prueba y estadísticas descriptivas. Sin embargo, una estadística de prueba está diseñada específicamente para su uso en pruebas estadísticas, mientras que la principal cualidad de una estadística descriptiva es que es fácilmente interpretable. Algunas estadísticas descriptivas informativas, como el rango de la muestra , no son buenas estadísticas de prueba, ya que es difícil determinar su distribución muestral.
Dos pruebas estadísticas ampliamente utilizados son el estadístico t y la prueba F .
Ejemplo
Suponga que la tarea consiste en probar si una moneda es justa (es decir, tiene las mismas probabilidades de producir cara o cruz). Si la moneda se lanza 100 veces y se registran los resultados, los datos sin procesar se pueden representar como una secuencia de 100 caras y cruces. Si hay interés en la probabilidad marginal de obtener una cola, solo se debe registrar el número T de los 100 giros que produjeron una cola. Pero T también se puede utilizar como estadística de prueba de una de estas dos formas:
- la distribución muestral exacta de T bajo la hipótesis nula es la distribución binomial con parámetros 0.5 y 100.
- el valor de T se puede comparar con su valor esperado bajo la hipótesis nula de 50, y dado que el tamaño de la muestra es grande, se puede usar una distribución normal como una aproximación a la distribución muestral para T o para el estadístico de prueba revisado T - 50.
Usando una de estas distribuciones de muestreo, es posible calcular un valor p de una o dos colas para la hipótesis nula de que la moneda es justa. Tenga en cuenta que la estadística de prueba en este caso reduce un conjunto de 100 números a un único resumen numérico que se puede utilizar para realizar pruebas.
Estadísticas de prueba comunes
Las pruebas de una muestra son apropiadas cuando una muestra se compara con la población a partir de una hipótesis. Las características de la población se conocen a partir de la teoría o se calculan a partir de la población.
Las pruebas de dos muestras son apropiadas para comparar dos muestras, típicamente muestras experimentales y de control de un experimento controlado científicamente.
Las pruebas emparejadas son apropiadas para comparar dos muestras en las que es imposible controlar variables importantes. En lugar de comparar dos conjuntos, los miembros se emparejan entre muestras para que la diferencia entre los miembros se convierta en la muestra. Normalmente, la media de las diferencias se compara con cero. El escenario de ejemplo común para cuando una prueba de diferencias pareada es apropiada es cuando a un solo conjunto de sujetos de prueba se les aplica algo y la prueba está destinada a verificar un efecto.
Las pruebas Z son apropiadas para comparar medias en condiciones estrictas con respecto a la normalidad y una desviación estándar conocida.
Una prueba t es apropiada para comparar medias en condiciones relajadas (se supone menos).
Las pruebas de proporciones son análogas a las pruebas de medias (la proporción del 50%).
Las pruebas de chi-cuadrado utilizan los mismos cálculos y la misma distribución de probabilidad para diferentes aplicaciones:
- Las pruebas de chi-cuadrado para la varianza se utilizan para determinar si una población normal tiene una varianza especificada. La hipótesis nula es que sí.
- Las pruebas de independencia de chi-cuadrado se utilizan para decidir si dos variables están asociadas o son independientes. Las variables son categóricas en lugar de numéricas. Se puede utilizar para decidir si ser zurdo está correlacionado con la altura (o no). La hipótesis nula es que las variables son independientes. Los números usados en el cálculo son las frecuencias de ocurrencia observadas y esperadas (de tablas de contingencia ).
- Las pruebas de bondad de ajuste de chi-cuadrado se utilizan para determinar la idoneidad del ajuste de las curvas a los datos. La hipótesis nula es que el ajuste de la curva es adecuado. Es común determinar las formas de las curvas para minimizar el error cuadrático medio, por lo que es apropiado que el cálculo de bondad de ajuste sume los errores cuadráticos.
Las pruebas F (análisis de varianza, ANOVA) se utilizan comúnmente para decidir si los agrupamientos de datos por categoría son significativos. Si la varianza de los puntajes de las pruebas de los zurdos en una clase es mucho menor que la varianza de toda la clase, entonces puede ser útil estudiar a los zurdos como grupo. La hipótesis nula es que dos varianzas son iguales, por lo que la agrupación propuesta no es significativa.
En la siguiente tabla, los símbolos utilizados se definen en la parte inferior de la tabla. Se pueden encontrar muchas otras pruebas en otros artículos . Existen pruebas de que las estadísticas de prueba son apropiadas. [2]
Nombre | Fórmula | Supuestos o notas | |||
---|---|---|---|---|---|
Prueba z de una muestra | (Población normal o n grande) y σ conocida. ( z es la distancia de la media en relación con la desviación estándar de la media ). Para distribuciones no normales, es posible calcular una proporción mínima de una población que cae dentro de k desviaciones estándar para cualquier k (ver: desigualdad de Chebyshev ). | ||||
Prueba z de dos muestras | Se conocen la población normal y las observaciones independientes y σ 1 y σ 2 [ aclaración necesaria ] | ||||
Prueba t de una muestra |
| (Población normal o n grande) y desconocido | |||
Paired t -test |
| (Población normal de diferencias o n grande) y desconocido | |||
Prueba t combinada de dos muestras , varianzas iguales | (Poblaciones normales o n 1 + n 2 > 40) y observaciones independientes y σ 1 = σ 2 desconocido | ||||
Prueba t no agrupada de dos muestras , varianzas desiguales ( prueba t de Welch ) | (Poblaciones normales o n 1 + n 2 > 40) y observaciones independientes y σ 1 ≠ σ 2 tanto desconocido | ||||
Prueba z de una proporción | n . p 0 > 10 y n (1 - p 0 )> 10 y es un SRS (aleatorio simple de la muestra), ver las notas . | ||||
Prueba z de dos proporciones, combinada para |
| n 1 p 1 > 5 y n 1 (1 - p 1 )> 5 y n 2 p 2 > 5 y n 2 (1 - p 2 )> 5 y observaciones independientes, ver notas . | |||
Prueba z de dos proporciones, no agrupada para | n 1 p 1 > 5 y n 1 (1 - p 1 )> 5 y n 2 p 2 > 5 y n 2 (1 - p 2 )> 5 y observaciones independientes, ver notas . | ||||
Prueba de chi-cuadrado para la varianza | df = n-1 • Población normal | ||||
Prueba de chi-cuadrado para bondad de ajuste | df = k - 1 - # parámetros estimados , y uno de estos debe mantenerse. • Todos los recuentos esperados son al menos 5. [4] • Todos los recuentos esperados son> 1 y no más del 20% de los recuentos esperados son inferiores a 5 [5] | ||||
Prueba F de dos muestras para la igualdad de varianzas | Poblaciones normales Dispongay rechazar H 0 para[6] | ||||
Prueba t de regresión de | Rechazar H 0 para[7] * Reste 1 para la intersección; k términos contienen variables independientes. | ||||
En general, el subíndice 0 indica un valor tomado de la hipótesis nula , H 0 , que debe usarse tanto como sea posible para construir su estadístico de prueba. ... Definiciones de otros símbolos:
|
Ver también
- Distribución nula
- Prueba de razón de verosimilitud
- Lema de Neyman-Pearson
- = coeficiente de determinación
- Suficiencia (estadísticas)
Referencias
- ^ Berger, RL; Casella, G. (2001). Inferencia estadística , Duxbury Press, segunda edición (p. 374)
- ^ Loveland, Jennifer L. (2011). Justificación matemática de las pruebas de hipótesis introductorias y desarrollo de materiales de referencia (M.Sc. (Matemáticas)). Universidad del Estado de Utah . Consultado el 30 de abril de 2013 .Resumen: "La atención se centró en el enfoque de Neyman-Pearson para la prueba de hipótesis. Un breve desarrollo histórico del enfoque de Neyman-Pearson es seguido por pruebas matemáticas de cada una de las pruebas de hipótesis cubiertas en el material de referencia". Las demostraciones no hacen referencia a los conceptos introducidos por Neyman y Pearson, sino que muestran que las estadísticas de prueba tradicionales tienen las distribuciones de probabilidad que se les atribuyen, de modo que los cálculos de significancia asumiendo que esas distribuciones son correctos. La información de la tesis también se publica en mathnstats.com a partir de abril de 2013.
- ^ a b Manual del NIST: prueba t de dos muestras para medias iguales
- ^ Steel, RGD y Torrie, JH, Principios y procedimientos de estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 350.
- ^ Weiss, Neil A. (1999). Estadísticas introductorias (5ª ed.). págs. 802 . ISBN 0-201-59877-9.
- ^ Manual del NIST: Prueba F para la igualdad de dos desviaciones estándar (probar las desviaciones estándar de la misma manera que probar las varianzas)
- ^ Steel, RGD y Torrie, JH, Principios y procedimientos de estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 288.)