Distribución nula

En la prueba de hipótesis estadística , la distribución nula es la distribución de probabilidad del estadístico de prueba cuando la hipótesis nula es verdadera. ^[1] Por ejemplo, en una prueba F , la distribución nula es un F-distribución . ^{[2] La} distribución nula es una herramienta que los científicos utilizan a menudo cuando realizan experimentos. La distribución nula es la distribución de dos conjuntos de datos bajo una hipótesis nula. Si los resultados de los dos conjuntos de datos no están fuera de los parámetros de los resultados esperados, se dice que la hipótesis nula es verdadera.

Distribución nula y alternativa

Ejemplos de aplicación [ editar ]

La hipótesis nula suele ser parte de un experimento. La hipótesis nula intenta demostrar que entre dos conjuntos de datos, no existe una diferencia estadística entre los resultados de hacer una cosa y los de hacer otra diferente. Como ejemplo de esto, un científico podría estar tratando de demostrar que las personas que caminan dos millas al día tienen corazones más sanos que las personas que caminan menos de dos millas al día. El científico usaría la hipótesis nula para probar la salud de los corazones de las personas que caminaban dos millas por día contra la salud de los corazones de las personas que caminaban menos de dos millas por día. Si no hubiera diferencia entre su frecuencia cardíaca, entonces el científico podría decir que las estadísticas de la prueba seguirían la distribución nula.Luego, los científicos podrían determinar que si había una diferencia significativa, eso significa que la prueba sigue la distribución alternativa.

Obteniendo la distribución nula [ editar ]

En el procedimiento de prueba de hipótesis , que uno necesita para formar la distribución conjunta de pruebas estadísticas para llevar a cabo las pruebas de control y errores de tipo I . Sin embargo, a menudo se desconoce la distribución real y se debe utilizar una distribución nula adecuada para representar los datos. Por ejemplo, las pruebas de medias de una muestra y dos muestras pueden usar estadísticos t que tienen una distribución nula de Gauss, mientras que los estadísticos F , que prueban k grupos de medias de población, que tienen una distribución nula cuadrática gaussiana. ^[3] La distribución nula se define como las distribuciones asintóticas de estadísticos de prueba transformados por cuantiles nulos, basados en la distribución nula marginal. ^[4]Durante la práctica, las estadísticas de prueba de la distribución nula a menudo se desconocen, ya que se basan en la distribución de generación de datos desconocidos. Los procedimientos de remuestreo, como el bootstrap no paramétrico o basado en modelos , pueden proporcionar estimadores consistentes para las distribuciones nulas. La elección incorrecta de la distribución nula tiene una influencia significativa sobre el error de tipo I y las propiedades de potencia en el proceso de prueba. Otro enfoque para obtener la distribución nula de las estadísticas de prueba es utilizar los datos para generar una estimación de distribución nula.

Distribución nula con un tamaño de muestra grande [ editar ]

La distribución nula juega un papel crucial en las pruebas a gran escala. El tamaño de muestra grande nos permite implementar una distribución nula empírica más realista. Se puede generar el nulo empírico utilizando un algoritmo de ajuste MLE . ^[5] Bajo un marco bayesiano , los estudios a gran escala permiten poner la distribución nula en un contexto probabilístico con sus contrapartes no nulas. Cuando el tamaño de la muestra nes grande, como más de 10,000, los valores nulos empíricos utilizan los propios datos de un estudio para estimar una distribución nula apropiada. El supuesto importante es que debido a la gran proporción de casos nulos (> 0,9), los datos pueden mostrar la distribución nula en sí. El nulo teórico puede fallar en algunos casos, lo que no es completamente incorrecto pero necesita un ajuste en consecuencia. En los conjuntos de datos a gran escala, es fácil encontrar las desviaciones de los datos del marco matemático ideal, por ejemplo, muestras independientes e idénticamente distribuidas (iid). Además, la correlación entre las unidades de muestreo y las covariables no observadas puede conducir a una distribución nula teórica incorrecta. ^[6]Los métodos de permutación se utilizan con frecuencia en pruebas múltiples para obtener una distribución nula empírica generada a partir de datos. Los métodos empíricos nulos se introdujeron con el algoritmo de emparejamiento central en el artículo de Efron . ^[7]

Se deben considerar varios puntos usando el método de permutación. Los métodos de permutación no son adecuados para unidades de muestreo correlacionadas, ya que el proceso de muestreo de permutación implica independencia y requiere suposiciones de iid. Además, la literatura mostró que la distribución de permutación converge a N (0,1) rápidamente a medida que n se vuelve grande. En algunos casos, las técnicas de permutación y los métodos empíricos se pueden combinar usando permutación nula reemplazar N (0,1) en el algoritmo empírico. ^[8]

Referencias [ editar ]

^ Staley, Kent W. Una introducción a la filosofía de la ciencia . 2014. p. 142. ISBN 9780521112499.
^ Jackson, Sally Ann . Factores aleatorios en ANOVA . 1994. p. 38. ISBN 9780803950900.
^ Dudoit, S. y MJ Van Der Laan . "Múltiples procedimientos de prueba con aplicaciones a la genómica. 2008".
^ Van Der Laan, Mark J. Y Alan E. Hubbard. "Distribución nula basada en funciones de cuantiles en pruebas múltiples basadas en remuestreos". Aplicaciones estadísticas en genética y biología molecular 5.1 (2006): 1199.
^ Efron, Bradley y Trevor Hastie . Inferencia estadística de la era informática. Prensa de la Universidad de Cambridge, 2016.
^ Efron, Bradley . Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción. Prensa de la Universidad de Cambridge, 2012.
^ Efron, Bradley . "Prueba de hipótesis simultánea a gran escala: la elección de una hipótesis nula". Revista de la Asociación Estadounidense de Estadística 99.465 (2004): 96-104.
^ Efron, Bradley . Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción. Prensa de la Universidad de Cambridge, 2012.

[1] Staley, Kent W. Una introducción a la filosofía de la ciencia . 2014. p. 142. ISBN 9780521112499.

[2] Jackson, Sally Ann . Factores aleatorios en ANOVA . 1994. p. 38. ISBN 9780803950900.

[3] Dudoit, S. y MJ Van Der Laan . "Múltiples procedimientos de prueba con aplicaciones a la genómica. 2008".

[4] Van Der Laan, Mark J. Y Alan E. Hubbard. "Distribución nula basada en funciones de cuantiles en pruebas múltiples basadas en remuestreos". Aplicaciones estadísticas en genética y biología molecular 5.1 (2006): 1199.

[5] Efron, Bradley y Trevor Hastie . Inferencia estadística de la era informática. Prensa de la Universidad de Cambridge, 2016.

[6] Efron, Bradley . Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción. Prensa de la Universidad de Cambridge, 2012.

[7] Efron, Bradley . "Prueba de hipótesis simultánea a gran escala: la elección de una hipótesis nula". Revista de la Asociación Estadounidense de Estadística 99.465 (2004): 96-104.

[8] Efron, Bradley . Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción. Prensa de la Universidad de Cambridge, 2012.

[1]