De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La bondad de ajuste de un modelo estadístico describe qué tan bien se ajusta a un conjunto de observaciones. Las medidas de bondad de ajuste suelen resumir la discrepancia entre los valores observados y los valores esperados según el modelo en cuestión. Estas medidas se pueden usar en la prueba de hipótesis estadísticas , por ejemplo, para probar la normalidad de los residuos , para probar si dos muestras se extraen de distribuciones idénticas (ver prueba de Kolmogorov-Smirnov ), o si las frecuencias de los resultados siguen una distribución específica (ver chi-cuadrado de Pearson prueba ). En el análisis de varianza , uno de los componentes en los que se divide la varianza puede ser unSuma de cuadrados por falta de ajuste .

Ajuste de distribuciones [ editar ]

Para evaluar si una distribución dada es adecuada para un conjunto de datos, se pueden utilizar las siguientes pruebas y sus medidas de ajuste subyacentes:

  • Criterio de información bayesiano
  • Prueba de Kolmogorov-Smirnov
  • Criterio de Cramér – von Mises
  • Prueba de Anderson-Darling
  • Prueba de Shapiro-Wilk
  • Prueba de chi-cuadrado
  • Criterio de información de Akaike
  • Prueba de Hosmer-Lemeshow
  • Prueba de Kuiper
  • Discrepancia de Stein kernelizada [1] [2]
  • Pruebas Z K , Z C y Z A de Zhang [3]
  • Prueba de Moran

Análisis de regresión [ editar ]

En el análisis de regresión , los siguientes temas se relacionan con la bondad de ajuste:

  • Coeficiente de determinación (la medida R cuadrado de bondad de ajuste);
  • Suma de cuadrados por falta de ajuste ;
  • Chi cuadrado reducido
  • Validación de regresión
  • Criterio Cp de Mallows

Datos categóricos [ editar ]

Los siguientes son ejemplos que surgen en el contexto de datos categóricos .

Prueba de chi-cuadrado de Pearson [ editar ]

La prueba de chi-cuadrado de Pearson utiliza una medida de bondad de ajuste que es la suma de las diferencias entre las frecuencias de resultado observadas y esperadas (es decir, el recuento de observaciones), cada una al cuadrado y dividida por la expectativa:

dónde:

O i = un recuento observado para bin i
E i = un recuento esperado para bin i , afirmado por la hipótesis nula .

La frecuencia esperada se calcula mediante:

dónde:

F = la función de distribución acumulativa para la distribución de probabilidad que se está probando.
Y u = el límite superior para la clase i ,
Y l = el límite inferior para la clase i , y
N = el tamaño de la muestra

El valor resultante se puede comparar con una distribución chi-cuadrado para determinar la bondad del ajuste. La distribución chi-cuadrado tiene ( k - c ) grados de libertad , donde k es el número de celdas no vacías yc es el número de parámetros estimados (incluidos los parámetros de ubicación y escala y los parámetros de forma) para la distribución más uno. Por ejemplo, para una distribución de Weibull de 3 parámetros , c = 4.

Ejemplo: frecuencias iguales de hombres y mujeres [ editar ]

Por ejemplo, para probar la hipótesis de que se ha extraído una muestra aleatoria de 100 personas de una población en la que hombres y mujeres son iguales en frecuencia, el número observado de hombres y mujeres se compararía con las frecuencias teóricas de 50 hombres y 50 mujeres. . Si hubiera 44 hombres en la muestra y 56 mujeres, entonces

Si la hipótesis nula es cierta (es decir, se eligen hombres y mujeres con la misma probabilidad en la muestra), el estadístico de prueba se extraerá de una distribución chi-cuadrado con un grado de libertad . Aunque uno podría esperar dos grados de libertad (uno para hombres y mujeres), debemos tener en cuenta que el número total de hombres y mujeres está restringido (100) y, por lo tanto, solo hay un grado de libertad (2-1 ). En otras palabras, si se conoce el recuento de hombres, se determina el recuento de mujeres y viceversa.

La consulta de la distribución chi-cuadrado para 1 grado de libertad muestra que la probabilidad de observar esta diferencia (o una diferencia más extrema que esta) si los hombres y las mujeres son igualmente numerosos en la población es de aproximadamente 0,23. Esta probabilidad es más alta que los criterios convencionales de significancia estadística (.001-.05), por lo que normalmente no rechazaríamos la hipótesis nula de que el número de hombres en la población es el mismo que el número de mujeres (es decir, consideraríamos nuestra muestra dentro del rango de lo que esperaríamos para una proporción 50/50 hombre / mujer).

Nótese el supuesto de que el mecanismo que ha generado la muestra es aleatorio, en el sentido de una selección aleatoria independiente con la misma probabilidad, aquí 0.5 tanto para hombres como para mujeres. Si, por ejemplo, cada uno de los 44 hombres seleccionados trajo un compañero masculino, y cada una de las 56 mujeres trajo un compañero femenino, cada uno aumentará en un factor de 4, mientras que cada uno aumentará en un factor de 2. El valor de la la estadística se duplicará a 2,88. Conociendo este mecanismo subyacente, por supuesto, deberíamos estar contando pares. En general, el mecanismo, si no es razonablemente aleatorio, no se conocerá. En consecuencia, la distribución a la que debe referirse la estadística de prueba puede ser muy diferente de la chi-cuadrado. [4]

Caso binomial [ editar ]

Un experimento binomial es una secuencia de ensayos independientes en los que los ensayos pueden dar como resultado uno de dos resultados, éxito o fracaso. Hay n ensayos, cada uno con probabilidad de éxito, denotado por p . Siempre que np i  ≫ 1 para cada i (donde i  = 1, 2, ...,  k ), entonces

Esto tiene aproximadamente una distribución chi-cuadrado con k  - 1 grados de libertad. El hecho de que haya k  - 1 grados de libertad es una consecuencia de la restricción . Sabemos que hay k recuentos de células observados, sin embargo, una vez que  se conoce cualquier k - 1, el restante se determina de forma única. Básicamente, se puede decir que solo hay k  - 1 recuentos de células libremente determinados, por lo tanto, k  - 1 grados de libertad.

Prueba G [ editar ]

Las pruebas G sonpruebas de razón de verosimilitud de significación estadística que se utilizan cada vez más en situaciones en las que anteriormente se recomendaban las pruebas de chi-cuadrado de Pearson. [5]

La fórmula general para G es

donde y son iguales que para la prueba de chi-cuadrado, denota el logaritmo natural y la suma se toma sobre todas las celdas no vacías. Además, el recuento total observado debe ser igual al recuento total esperado:

donde es el número total de observaciones.

Las pruebas G se han recomendado al menos desde la edición de 1981 del popular libro de texto de estadística de Robert R. Sokal y F. James Rohlf . [6]

Ver también [ editar ]

  • Todos los modelos están mal
  • Desviación (estadísticas) (relacionado con GLM )
  • Sobreajuste
  • Validación del modelo estadístico
  • Estimador de Theil-Sen

Referencias [ editar ]

  1. ^ Liu, Qiang; Lee, Jason; Jordan, Michael (20 de junio de 2016). "Una discrepancia de Stein kernelizada para pruebas de bondad de ajuste" . Actas de la 33a Conferencia Internacional sobre Aprendizaje Automático . La 33ª Conferencia Internacional de Aprendizaje Automático. Nueva York, Nueva York, EE. UU.: Proceedings of Machine Learning Research. págs. 276–284.
  2. ^ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 de junio de 2016). "Una prueba de kernel de bondad de ajuste" . Actas de la 33a Conferencia Internacional sobre Aprendizaje Automático . La 33ª Conferencia Internacional sobre Machine Learning. Nueva York, Nueva York, EE. UU.: Proceedings of Machine Learning Research. págs. 2606–2615.
  3. ^ Zhang, Jin (2002). "Potentes pruebas de bondad de ajuste basadas en la razón de verosimilitud" (PDF) . JR Stat. Soc. B . 64 : 281-294 . Consultado el 5 de noviembre de 2018 .
  4. ^ Maindonald, JH; Braun, WJ (2010). Análisis de datos y gráficos utilizando R. Un enfoque basado en ejemplos (Tercera ed.). Nueva York: Cambridge University Press. pp.  116 -118. ISBN 978-0-521-76293-9.
  5. ^ McDonald, JH (2014). "Prueba G de bondad de ajuste". Manual de estadísticas biológicas (tercera edición). Baltimore, Maryland: Sparky House Publishing. págs. 53–58.
  6. ^ Sokal, RR; Rohlf, FJ (1981). Biometría: los principios y la práctica de la estadística en la investigación biológica (Segunda ed.). WH Freeman . ISBN 0-7167-2411-1.

Lectura adicional [ editar ]

  • Huber-Carol, C .; Balakrishnan, N .; Nikulin, MS; Mesbah, M., eds. (2002), Pruebas de bondad de ajuste y validez del modelo , Springer
  • Ingster, Yu. I.; Suslina, IA (2003), Prueba de bondad de ajuste no paramétrica bajo modelos gaussianos , Springer
  • Rayner, JCW; Thas, O .; Mejor, DJ (2009), Pruebas suaves de bondad de ajuste (2a ed.), Wiley
  • Vexlera, Albert; Gurevich, Gregory (2010), "Razones de verosimilitud empírica aplicadas a las pruebas de bondad de ajuste basadas en la entropía de la muestra", Estadística computacional y análisis de datos , 54 : 531–545, doi : 10.1016 / j.csda.2009.09.025