De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadística , el modelo lineal generalizado ( GLM ) es una generalización flexible de la regresión lineal ordinaria que permite variables de respuesta que tienen modelos de distribución de errores distintos de una distribución normal . El GLM generaliza la regresión lineal al permitir que el modelo lineal se relacione con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho.

John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar varios otros modelos estadísticos, incluida la regresión lineal , la regresión logística y la regresión de Poisson . [1] Propusieron un método de mínimos cuadrados reponderados iterativamente para la estimación de máxima verosimilitud de los parámetros del modelo. La estimación de máxima verosimilitud sigue siendo popular y es el método predeterminado en muchos paquetes de cálculo estadístico. Otros enfoques, incluidos los enfoques bayesianos y los ajustes de mínimos cuadrados a la varianza estabilizada respuestas, se han desarrollado.

Intuición [ editar ]

La regresión lineal ordinaria predice el valor esperado de una determinada cantidad desconocida (la variable de respuesta , una variable aleatoria ) como una combinación lineal de un conjunto de valores observados ( predictores ). Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal ). Esto es apropiado cuando la variable de respuesta puede variar, con una buena aproximación, indefinidamente en cualquier dirección, o más generalmente para cualquier cantidad que solo varía en una cantidad relativamente pequeña en comparación con la variación en las variables predictivas, por ejemplo, la altura humana.

Sin embargo, estos supuestos son inapropiados para algunos tipos de variables de respuesta. Por ejemplo, en los casos en que se espera que la variable de respuesta sea siempre positiva y varíe en un amplio rango, los cambios de entrada constantes conducen a cambios de salida geométricamente (es decir, exponencialmente) que varían, en lugar de variar constantemente. Como ejemplo, suponga que un modelo de predicción lineal aprende de algunos datos (quizás principalmente extraídos de grandes playas) que una disminución de la temperatura de 10 grados conduciría a que 1,000 personas menos visiten la playa. Es poco probable que este modelo se generalice bien en playas de diferentes tamaños. Más específicamente, el problema es que si usa el modelo para predecir la nueva asistencia con una caída de temperatura de 10 para una playa que recibe regularmente a 50 bañistas, podría predecir un valor de asistencia imposible de −950. Lógicamenteun modelo más realista predeciría en cambio una constantetasa de aumento de la asistencia a la playa (por ejemplo, un aumento de 10 grados conduce a una duplicación de la asistencia a la playa, y una caída de 10 grados conduce a una reducción a la mitad). Tal modelo se denomina modelo de respuesta exponencial (o modelo log-lineal , ya que se predice que el logaritmo de la respuesta varía linealmente).

De manera similar, un modelo que predice una probabilidad de hacer una elección sí / no (una variable de Bernoulli ) es incluso menos adecuado como modelo de respuesta lineal, ya que las probabilidades están limitadas en ambos extremos (deben estar entre 0 y 1). Imagine, por ejemplo, un modelo que predice la probabilidad de que una persona determinada vaya a la playa en función de la temperatura. Un modelo razonable podría predecir, por ejemplo, que un cambio de 10 grados hace que una persona tenga dos veces más o menos probabilidades de ir a la playa. Pero, ¿qué significa "el doble de probabilidad" en términos de probabilidad? No puede significar literalmente duplicar el valor de probabilidad (por ejemplo, el 50% se convierte en 100%, el 75% se convierte en 150%, etc.). Más bien, son las probabilidades las que se duplican: de probabilidades 2: 1, probabilidades 4: 1, probabilidades 8: 1, etc. Este modelo es una probabilidad logarítmica omodelo logístico .

Los modelos lineales generalizados cubren todas estas situaciones al permitir que las variables de respuesta que tienen distribuciones arbitrarias (en lugar de distribuciones simplemente normales ), y que una función arbitraria de la variable de respuesta (la función de enlace ) varíe linealmente con los predictores (en lugar de asumir que el la respuesta en sí debe variar linealmente). Por ejemplo, el caso anterior del número predicho de asistentes a la playa se modelaría típicamente con una distribución de Poisson y un enlace de registro, mientras que el caso de probabilidad predicha de asistencia a la playa se modelaría típicamente con una distribución de Bernoulli (o distribución binomial , dependiendo exactamente de cómo se expresa el problema) y un log-odds (o logit) función de enlace.

Resumen [ editar ]

En un modelo lineal generalizado (GLM), se supone que cada resultado Y de las variables dependientes se genera a partir de una distribución particular en una familia exponencial , una gran clase de distribuciones de probabilidad que incluye las distribuciones normal , binomial , de Poisson y gamma , entre otras. . La media, μ , de la distribución depende de las variables independientes, X , a través de:

donde E ( Y | X ) es el valor esperado de Y condicionado a X ; X β es el predictor lineal , una combinación lineal de parámetros desconocidos β ; g es la función de enlace.

En este marco, la varianza es típicamente una función, V , de la media:

Es conveniente si V se sigue de una familia exponencial de distribuciones, pero puede ser simplemente que la varianza sea una función del valor predicho.

Los parámetros desconocidos, β , se estiman típicamente con máxima probabilidad , máxima cuasi-verosimilitud o técnicas bayesianas .

Componentes del modelo [ editar ]

El GLM consta de tres elementos: [2]

1. Una familia exponencial de distribuciones de probabilidad.
2. Un predictor lineal
3. Una función de enlace tal que

Distribución de probabilidad [ editar ]

Una familia de distribuciones exponenciales sobredispersas es una generalización de una familia exponencial y el modelo de distribuciones de dispersión exponencial e incluye aquellas familias de distribuciones de probabilidad, parametrizadas por y , cuyas funciones de densidad f (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

El parámetro de dispersión , , típicamente se conoce y por lo general se relaciona con la varianza de la distribución. Las funciones , , , , y son conocidos. Muchas distribuciones comunes están en esta familia, incluidas la normal, exponencial, gamma, Poisson, Bernoulli y (para un número fijo de ensayos) binomial, multinomial y binomial negativa.

Para escalar y (denotado y en este caso), esto se reduce a

está relacionado con la media de la distribución. Si es la función de identidad, entonces se dice que la distribución está en forma canónica (o forma natural ). Tenga en cuenta que cualquier distribución se puede convertir a forma canónica reescribiendo como y luego aplicando la transformación . Siempre es posible convertir en términos de la nueva parametrización, incluso si no es una función uno a uno ; ver comentarios en la página sobre familias exponenciales . Si, además, es la identidad y se conoce, entonces se denomina parámetro canónico (o parámetro natural) y se relaciona con la media a través de

Para escalar y , esto se reduce a

En este escenario, se puede demostrar que la varianza de la distribución es [3]

Para escalar y , esto se reduce a

Predictor lineal [ editar ]

El predictor lineal es la cantidad que incorpora la información sobre las variables independientes en el modelo. El símbolo η ( griego " eta ") denota un predictor lineal. Está relacionado con el valor esperado de los datos a través de la función de enlace.

η se expresa como combinaciones lineales (por tanto, "lineal") de parámetros desconocidos β . Los coeficientes de la combinación lineal se representan como la matriz de variables independientes X . η puede entonces expresarse como

Función de enlace [ editar ]

La función de enlace proporciona la relación entre el predictor lineal y la media de la función de distribución. Hay muchas funciones de enlace de uso común y su elección se basa en varias consideraciones. Siempre hay una función de enlace canónica bien definida que se deriva del exponencial de la función de densidad de la respuesta . Sin embargo, en algunos casos tiene sentido intentar hacer coincidir el dominio de la función de enlace con el rango de la media de la función de distribución, o utilizar una función de enlace no canónica con fines algorítmicos, por ejemplo, regresión probit bayesiana .

Cuando se usa una función de distribución con un parámetro canónico , la función de enlace canónico es la función que se expresa en términos de , es decir . Para las distribuciones más comunes, la media es uno de los parámetros en la forma estándar de la función de densidad de la distribución , y luego es la función como se define arriba que mapea la función de densidad en su forma canónica. Cuando se utiliza la función de enlace canónico , que permite ser una estadística suficiente para .

A continuación se muestra una tabla de varias distribuciones de familias exponenciales de uso común y los datos para los que se usan típicamente, junto con las funciones de enlace canónicas y sus inversas (a veces denominadas función media, como se hace aquí).

En los casos de distribuciones exponenciales y gamma, el dominio de la función de enlace canónico no es el mismo que el rango permitido de la media. En particular, el predictor lineal puede ser positivo, lo que daría una media negativa imposible. Al maximizar la probabilidad, se deben tomar precauciones para evitarlo. Una alternativa es utilizar una función de enlace no canónica.

En el caso de las distribuciones Bernoulli, binomial, categórica y multinomial, el soporte de las distribuciones no es el mismo tipo de datos que el parámetro que se predice. En todos estos casos, el parámetro predicho es una o más probabilidades, es decir, números reales en el rango . El modelo resultante se conoce como regresión logística (o regresión logística multinomial en el caso de que se predigan valores de K-way en lugar de binarios).

Para las distribuciones de Bernoulli y binomial, el parámetro es una probabilidad única, que indica la probabilidad de que ocurra un solo evento. El Bernoulli aún satisface la condición básica del modelo lineal generalizado en el sentido de que, aunque un único resultado siempre será 0 o 1, el valor esperado será, no obstante, una probabilidad real, es decir, la probabilidad de que ocurra un "sí". (o 1) resultado. De manera similar, en una distribución binomial, el valor esperado es Np , es decir, la proporción esperada de resultados "sí" será la probabilidad a predecir.

Para distribuciones categóricas y multinomiales, el parámetro a predecir es un K -vector de probabilidades, con la restricción adicional de que todas las probabilidades deben sumar 1. Cada probabilidad indica la probabilidad de ocurrencia de uno de los K valores posibles. Para la distribución multinomial, y para la forma vectorial de la distribución categórica, los valores esperados de los elementos del vector pueden relacionarse con las probabilidades predichas de manera similar a las distribuciones binomial y de Bernoulli.

Adecuado [ editar ]

Máxima probabilidad [ editar ]

Las estimaciones de máxima verosimilitud se pueden encontrar utilizando un algoritmo de mínimos cuadrados reponderados iterativamente o un método de Newton con actualizaciones de la forma:

donde es la matriz de información observada (el negativo de la matriz de Hesse ) y es la función de puntuación ; o un método de puntuación de Fisher :

donde está la matriz de información de Fisher . Tenga en cuenta que si se utiliza la función de enlace canónico, son iguales. [4]

Métodos bayesianos [ editar ]

En general, la distribución posterior no se puede encontrar en forma cerrada y, por lo tanto, debe aproximarse, generalmente utilizando aproximaciones de Laplace o algún tipo de método de Monte Carlo de cadena de Markov , como el muestreo de Gibbs .

Ejemplos [ editar ]

Modelos lineales generales [ editar ]

Un posible punto de confusión tiene que ver con la distinción entre modelos lineales generalizados y modelos lineales generales , dos modelos estadísticos amplios. El co-creador John Nelder ha expresado su pesar por esta terminología. [5]

El modelo lineal general puede verse como un caso especial del modelo lineal generalizado con un vínculo de identidad y respuestas normalmente distribuidas. Como la mayoría de los resultados exactos de interés se obtienen solo para el modelo lineal general, el modelo lineal general ha experimentado un desarrollo histórico algo más prolongado. Los resultados del modelo lineal generalizado sin vínculo de identidad son asintóticos (tienden a funcionar bien con muestras grandes).

Regresión lineal [ editar ]

Un ejemplo simple y muy importante de un modelo lineal generalizado (también un ejemplo de un modelo lineal general) es la regresión lineal . En la regresión lineal, el uso del estimador de mínimos cuadrados está justificado por el teorema de Gauss-Markov , que no supone que la distribución sea normal.

Sin embargo, desde la perspectiva de los modelos lineales generalizados, es útil suponer que la función de distribución es la distribución normal con varianza constante y la función de vínculo es la identidad, que es el vínculo canónico si se conoce la varianza.

Para la distribución normal, el modelo lineal generalizado tiene una expresión de forma cerrada para las estimaciones de máxima verosimilitud, lo cual es conveniente. La mayoría de los demás GLM carecen de estimaciones de forma cerrada .

Datos binarios [ editar ]

Cuando los datos de respuesta, Y , son binarios (tomando solo los valores 0 y 1), la función de distribución generalmente se elige como la distribución de Bernoulli y la interpretación de μ i es entonces la probabilidad, p , de que Y i tome el valor uno.

Hay varias funciones de enlace populares para funciones binomiales.

Función de enlace logit [ editar ]

La función de enlace más típica es el enlace logit canónico :

Los GLM con esta configuración son modelos de regresión logística (o modelos logit ).

Función de enlace probit como opción popular de función de distribución acumulativa inversa [ editar ]

Alternativamente, se puede usar la inversa de cualquier función de distribución acumulativa continua (CDF) para el enlace, ya que el rango de CDF es el rango de la media binomial. El CDF normal es una opción popular y produce el modelo probit . Su enlace es

El motivo del uso del modelo probit es que un escalado constante de la variable de entrada a un CDF normal (que se puede absorber mediante un escalado equivalente de todos los parámetros) produce una función que es prácticamente idéntica a la función logit, pero probit los modelos son más manejables en algunas situaciones que los modelos logit. (En un entorno bayesiano en el que las distribuciones previas normalmente distribuidas se colocan en los parámetros, la relación entre las anteriores normales y la función de enlace CDF normal significa que un modelo probit se puede calcular utilizando el muestreo de Gibbs , mientras que un modelo logit generalmente no).

Log-log complementario (cloglog) [ editar ]

La función complementaria log-log también se puede utilizar:

Esta función de enlace es asimétrica y, a menudo, producirá resultados diferentes de las funciones de enlace logit y probit. [6] El modelo de obstrucción corresponde a aplicaciones en las que observamos cero eventos (por ejemplo, defectos) o uno o más, donde se supone que el número de eventos sigue la distribución de Poisson . [7] La suposición de Poisson significa que

donde μ es un número positivo que indica el número esperado de eventos. Si p representa la proporción de observaciones con al menos un evento, su complemento

y entonces

Un modelo lineal requiere que la variable de respuesta tome valores en toda la línea real. Dado que μ debe ser positivo, podemos aplicarlo tomando el logaritmo y dejando que log ( μ ) sea un modelo lineal. Esto produce la transformación de "obstrucción".

Enlace de identidad [ editar ]

El vínculo de identidad g (p) = p también se usa a veces para datos binomiales para producir un modelo de probabilidad lineal . Sin embargo, el vínculo de identidad puede predecir "probabilidades" absurdas menores que cero o mayores que uno. Esto se puede evitar utilizando una transformación como cloglog, probit o logit (o cualquier función de distribución acumulativa inversa). Un mérito principal del enlace de identidad es que se puede estimar usando matemáticas lineales, y otras funciones de enlace estándar son aproximadamente lineales que coinciden con el enlace de identidad cerca de p = 0.5.

Función de variación [ editar ]

La función de varianza para datos " cuasibinomiales " es:

donde el parámetro de dispersión τ es exactamente 1 para la distribución binomial. De hecho, la probabilidad binomial estándar omite τ . Cuando está presente, el modelo se denomina "cuasibinomial" y la probabilidad modificada se denomina cuasi-verosimilitud , ya que generalmente no es la probabilidad correspondiente a ninguna familia real de distribuciones de probabilidad. Si τ excede de 1, se dice que el modelo exhibe una dispersión excesiva .

Regresión multinomial [ editar ]

El caso binomial puede extenderse fácilmente para permitir una distribución multinomial como respuesta (también, un modelo lineal generalizado para recuentos, con un total restringido). Hay dos formas en las que esto se suele hacer:

Respuesta ordenada [ editar ]

Si la variable de respuesta es ordinal , entonces se puede ajustar una función modelo de la forma:

para m > 2. Diferentes vínculos g conducen a modelos de regresión ordinal como modelos de probabilidades proporcionales o modelos probit ordenados .

Respuesta desordenada [ editar ]

Si la variable de respuesta es una medida nominal , o los datos no satisfacen los supuestos de un modelo ordenado, se puede ajustar un modelo de la siguiente forma:

para m > 2. Diferentes enlaces g conducen a modelos logit multinomial o probit multinomial . Estos son más generales que los modelos de respuesta ordenada y se estiman más parámetros.

Contar datos [ editar ]

Otro ejemplo de modelos lineales generalizados incluye la regresión de Poisson, que cuenta los datos utilizando la distribución de Poisson . El enlace suele ser el logaritmo, el enlace canónico.

La función de varianza es proporcional a la media

donde el parámetro de dispersión τ se fija típicamente exactamente en uno. Cuando no lo es, el modelo de cuasi-verosimilitud resultante se describe a menudo como Poisson con sobredispersión o cuasi-Poisson .

Extensiones [ editar ]

Datos correlacionados o agrupados [ editar ]

El GLM estándar asume que las observaciones no están correlacionadas . Se han desarrollado extensiones para permitir la correlación entre observaciones, como ocurre, por ejemplo, en estudios longitudinales y diseños agrupados:

  • Las ecuaciones de estimación generalizadas (GEE) permiten la correlación entre observaciones sin el uso de un modelo de probabilidad explícito para el origen de las correlaciones, por lo que no existe una probabilidad explícita. Son adecuados cuando los efectos aleatorios y sus varianzas no son de interés inherente, ya que permiten la correlación sin explicar su origen. La atención se centra en estimar la respuesta promedio sobre la población (efectos "promediados de la población") en lugar de los parámetros de regresión que permitirían predecir el efecto de cambiar uno o más componentes de X en un individuo dado. Los GEE se suelen utilizar junto con los errores estándar de Huber-White . [8] [9]
  • Los modelos lineales mixtos generalizados (GLMM) son una extensión de los GLM que incluyen efectos aleatorios en el predictor lineal, lo que proporciona un modelo de probabilidad explícito que explica el origen de las correlaciones. Las estimaciones de los parámetros "específicos del sujeto" resultantes son adecuadas cuando el enfoque está en estimar el efecto de cambiar uno o más componentes de X en un individuo dado. Los GLMM también se denominan modelos multinivel y modelo mixto . En general, ajustar GLMM es más complejo e intensivo desde el punto de vista informático que ajustar GEE.

Modelos aditivos generalizados [ editar ]

Los modelos aditivos generalizados (GAM) son otra extensión de los GLM en los que el predictor lineal η no está restringido a ser lineal en las covariables X, sino que es la suma de las funciones de suavizado aplicadas a x i s:

Las funciones de suavizado f i se estiman a partir de los datos. En general, esto requiere una gran cantidad de puntos de datos y es computacionalmente intensivo. [10] [11]

Ver también [ editar ]

  • Metodología de modelado de respuesta
  • Comparación de modelos lineales generales y generalizados
  • Modelo fraccional
  • Modelo de matriz lineal generalizada
  • GLIM (software)
  • Cuasi varianza
  • Familia exponencial natural
  • Distribuciones de tweedie
  • Funciones de varianza
  • Modelo lineal generalizado vectorial (VGLM)

Referencias [ editar ]

Citas [ editar ]

  1. ^ Nelder, John ; Wedderburn, Robert (1972). "Modelos lineales generalizados". Revista de la Royal Statistical Society. Serie A (General) . Publicación de Blackwell. 135 (3): 370–384. doi : 10.2307 / 2344614 . JSTOR  2344614 . S2CID  14154576 .
  2. ^ "6.1 - Introducción a modelos lineales generalizados | STAT 504" . newonlinecourses.science.psu.edu . Consultado el 18 de marzo de 2019 .
  3. ^ McCullagh y Nelder 1989 , Capítulo 2.
  4. ^ McCullagh y Nelder 1989 , p. 43.
  5. ^ Senn, Stephen (2003). "Una conversación con John Nelder" . Ciencia estadística . 18 (1): 118-131. doi : 10.1214 / ss / 1056397489 . Sospecho que deberíamos haber encontrado un nombre más elegante que se hubiera quedado y no se hubiera confundido con el modelo lineal general, aunque general y generalizado no son exactamente lo mismo. Puedo ver por qué habría sido mejor haber pensado en otra cosa.
  6. ^ "Modelo de registro de registro complementario" (PDF) .
  7. ^ "¿Qué función de enlace: Logit, Probit o Cloglog?" . Bayesium Analytics . 2015-08-14 . Consultado el 17 de marzo de 2019 .
  8. Zeger, Scott L .; Liang, Kung-Yee; Albert, Paul S. (1988). "Modelos para datos longitudinales: un enfoque de ecuación de estimación generalizada". Biometría . Sociedad Biométrica Internacional. 44 (4): 1049–1060. doi : 10.2307 / 2531734 . JSTOR 2531734 . PMID 3233245 .  
  9. ^ Hardin, James; Hilbe, Joseph (2003). Ecuaciones de estimación generalizadas . Londres, Inglaterra: Chapman y Hall / CRC. ISBN 1-58488-307-3.
  10. ^ Hastie y Tibshirani 1990 .
  11. ^ Madera 2006 .

Bibliografía [ editar ]

  • Hastie, TJ ; Tibshirani, RJ (1990). Modelos aditivos generalizados . Chapman y Hall / CRC. ISBN 978-0-412-34390-2.
  • Madsen, Henrik; Thyregod, Poul (2011). Introducción a los modelos lineales generales y generalizados . Chapman y Hall / CRCC. ISBN 978-1-4200-9155-7.
  • McCullagh, Peter ; Nelder, John (1989). Modelos lineales generalizados (2ª ed.). Boca Raton , FL: Chapman y Hall / CRC. ISBN 0-412-31760-5.
  • Madera, Simon (2006). Modelos Aditivos Generalizados: Una introducción con R . Chapman y Hall / CRC. ISBN 1-58488-474-6.

Lectura adicional [ editar ]

  • Dunn, PK; Smyth, GK (2018). Modelos lineales generalizados con ejemplos en R . Nueva York: Springer. doi : 10.1007 / 978-1-4419-0118-7 . ISBN 978-1-4419-0118-7.
  • Dobson, AJ; Barnett, AG (2008). Introducción a los modelos lineales generalizados (3ª ed.). Boca Raton, FL: Chapman y Hall / CRC. ISBN 978-1-58488-165-0.
  • Hardin, James; Hilbe, Joseph (2007). Modelos lineales generalizados y extensiones (2ª ed.). College Station: Stata Press. ISBN 978-1-59718-014-6.

Enlaces externos [ editar ]

  • Medios relacionados con modelos lineales generalizados en Wikimedia Commons