En estadística , se utiliza una ecuación de estimación generalizada (GEE) para estimar los parámetros de un modelo lineal generalizado con una posible correlación desconocida entre los resultados. [1] [2]
Las estimaciones de los parámetros del GEE son consistentes incluso cuando la estructura de covarianza está mal especificada, en condiciones de regularidad leve. El enfoque del GEE es estimar la respuesta promedio sobre la población (efectos "promediados de la población") en lugar de los parámetros de regresión que permitirían predecir el efecto de cambiar una o más covariables en un individuo dado. Los GEE se suelen utilizar junto con el error estándar de Huber-White.estimaciones, también conocidas como estimaciones de "error estándar robusto" o "varianza sándwich". En el caso de un modelo lineal con una estructura de varianza de independencia de trabajo, estos se conocen como estimadores de "error estándar consistente de heterocedasticidad". De hecho, el GEE unificó varias formulaciones independientes de estos estimadores de error estándar en un marco general.
Los GEE pertenecen a una clase de técnicas de regresión que se denominan semiparamétricas porque se basan en la especificación de solo los dos primeros momentos . Son una alternativa popular al modelo mixto lineal generalizado basado en la probabilidad , que es más sensible a la especificación de la estructura de varianza. [3] Se utilizan comúnmente en grandes estudios epidemiológicos , especialmente en estudios de cohortes de múltiples sitios , porque pueden manejar muchos tipos de dependencia no medida entre resultados.
Formulación
Dado un modelo medio por tema y tiempo eso depende de los parámetros de regresión y estructura de varianza, , la ecuación de estimación se forma mediante: [4]
Los parametros se estiman resolviendo y normalmente se obtienen mediante el algoritmo de Newton-Raphson . La estructura de la varianza se elige para mejorar la eficiencia de las estimaciones de los parámetros. El hessiano de la solución a los GEE en el espacio de parámetros se puede utilizar para calcular estimaciones robustas del error estándar. El término "estructura de varianza" se refiere a la forma algebraica de la matriz de covarianza entre los resultados, Y, en la muestra. Ejemplos de especificaciones de estructura de varianza incluyen independencia, intercambiable, autorregresiva, estacionaria dependiente de m y no estructurada. La forma más popular de inferencia sobre los parámetros de regresión GEE es la prueba de Wald que utiliza errores estándar ingenuos o robustos, aunque la prueba Score también es válida y preferible cuando es difícil obtener estimaciones de información bajo la hipótesis alternativa. La prueba de razón de verosimilitud no es válida en este escenario porque las ecuaciones de estimación no son necesariamente ecuaciones de verosimilitud. La selección del modelo se puede realizar con el equivalente GEE del Criterio de información de Akaike (AIC), la Cuasiligencia según el Criterio del modelo de independencia (QIC). [5]
Relación con el método generalizado de los momentos
La ecuación de estimación generalizada es un caso especial del método generalizado de momentos (GMM). [6] Esta relación es inmediatamente obvia a partir del requisito de que la función de puntuación satisfaga la ecuación:
Cálculo
El software para resolver ecuaciones de estimación generalizadas está disponible en MATLAB , [7] SAS (proc genmod [8] ), SPSS (el procedimiento gee [9] ), Stata (el comando xtgee [10] ), R (paquetes gee , [11 ] geepack [12] y multgee [13] ) y Python (paquete statsmodels [14] ).
Se encuentran disponibles comparaciones entre paquetes de software para el análisis de datos correlacionados binarios [15] [16] y datos correlacionados ordinales [17] a través de GEE.
Ver también
Referencias
- ^ Kung-Yee Liang y Scott Zeger (1986). "Análisis de datos longitudinales mediante modelos lineales generalizados" . Biometrika . 73 (1): 13-22. doi : 10.1093 / biomet / 73.1.13 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Hardin, James; Hilbe, Joseph (2003). Ecuaciones de estimación generalizadas . Londres: Chapman y Hall / CRC. ISBN 978-1-58488-307-4.
- ^ Fong, Y; Rue, H; Wakefield, J (2010). "Inferencia bayesiana para modelos mixtos lineales generalizados" . Bioestadística . 11 (3): 397–412. doi : 10.1093 / bioestadística / kxp053 . PMC 2883299 . PMID 19966070 .
- ^ Diggle, Peter J .; Patrick Heagerty; Kung-Yee Liang; Scott L. Zeger (2002). Análisis de datos longitudinales . Serie de ciencia estadística de Oxford. ISBN 978-0-19-852484-7.
- ^ Pan, W. (2001), "Criterio de información de Akaike en ecuaciones de estimación generalizadas", Biometrics , 57 (1): 120-125, doi : 10.1111 / j.0006-341X.2001.00120.x , PMID 11252586.
- ^ Breitung, Jörg; Chaganty, N. Rao; Daniel, Rhian M .; Kenward, Michael G .; Lechner, Michael; Martus, Peter; Sabo, Roy T .; Wang, You-Gan; Zorn, Christopher (2010). "Discusión de 'Ecuaciones de estimación generalizadas: notas sobre la elección de la matriz de correlación de trabajo ' ". Métodos de información en medicina . 49 (5): 426–432. doi : 10.1055 / s-0038-1625133 . S2CID 3213776 .
- ^ Sarah J. Ratcliffe y Justine Shults (2008). "GEEQBOX: una caja de herramientas de MATLAB para ecuaciones de estimación generalizadas y cuasi-mínimos cuadrados" . Revista de software estadístico . 25 (14): 1–14.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ "El procedimiento GENMOD" . El Instituto SAS.
- ^ "IBM SPSS Advanced Statistics" . Sitio web de IBM SPSS.
- ^ "Implementación de Stata de GEE" (PDF) . Sitio web de Stata.
- ^ "gee: solucionador de ecuaciones de estimación generalizada" . CRAN.
- ^ geepack: Paquete de ecuaciones de estimación generalizadas , CRAN
- ^ multgee: solucionador de GEE para respuestas multinomiales nominales u ordinales correlacionadas utilizando una parametrización de razones de probabilidades locales , CRAN
- ^ https://www.statsmodels.org/devel/gee.html
- ^ Andreas Ziegler y Ulrike Grömping (1998). "Las ecuaciones de estimación generalizadas: una comparación de procedimientos disponibles en paquetes de software estadístico comercial". Revista biométrica . 40 (3): 245–260. doi : 10.1002 / (sici) 1521-4036 (199807) 40: 3 <245 :: aid-bimj245> 3.0.co; 2-n .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Nicholas J. HORTON y Stuart R. LIPSITZ (1999). "Revisión de software para ajustar modelos de regresión de ecuaciones de estimación generalizada". El estadístico estadounidense . 53 (2): 160–169. CiteSeerX 10.1.1.22.9325 . doi : 10.1080 / 00031305.1999.10474451 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Nazanin Nooraee, Geert Molenberghs y Edwin R. van den Heuvel (2014). "GEE para datos ordinales longitudinales: comparación de R-geepack, R-multgee, R-repolr, SAS-GENMOD, SPSS-GENLIN" (PDF) . Estadística computacional y análisis de datos . 77 : 70–83. doi : 10.1016 / j.csda.2014.03.009 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
Otras lecturas
- Hardin, James; Hilbe, Joseph (2003). Ecuaciones de estimación generalizadas . Londres: Chapman y Hall / CRC. ISBN 978-1-58488-307-4.
- Ziegler, A. (2011). Ecuaciones de estimación generalizadas . Saltador. ISBN 978-1-4614-0498-9.
enlaces externos
- Ecuaciones de estimación generalizadas (GEE) - Parte 1
- Temas avanzados I - Ecuaciones de estimación generalizadas (GEE)