La regresión logística condicional es una extensión de la regresión logística que permite tener en cuenta la estratificación y el emparejamiento . Su principal campo de aplicación son los estudios observacionales y en particular la epidemiología . Fue ideado en 1978 por Norman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prentice y C. Sabai. [1] Es el procedimiento más flexible y general para datos comparados.
Motivación
Los estudios observacionales utilizan la estratificación o el emparejamiento como una forma de controlar los factores de confusión . Existían varias pruebas antes de la regresión logística condicional para datos emparejados, como se muestra en las pruebas relacionadas . Sin embargo, no permitieron el análisis de predictores continuos con tamaño de estrato arbitrario. Todos esos procedimientos también carecen de la flexibilidad de la regresión logística condicional y, en particular, de la posibilidad de controlar las covariables.
La regresión logística puede tener en cuenta la estratificación al tener un término constante diferente para cada estrato. Denotemos la etiqueta (por ejemplo, el estado del caso) del la observación de la th estrato y los valores de los predictores correspondientes. Entonces, la probabilidad de una observación es
dónde es el término constante para el estrato. Si bien esto funciona satisfactoriamente para un número limitado de estratos, el comportamiento patológico ocurre cuando los estratos son pequeños. Cuando los estratos son pares, el número de parámetros crece con el número de observaciones. (es igual a ). Por tanto, los resultados asintóticos en los que se basa la estimación de máxima verosimilitud no son válidos y la estimación está sesgada. De hecho, se puede demostrar que el análisis incondicional de los datos de pares emparejados da como resultado una estimación de la razón de probabilidades, que es el cuadrado del condicional correcto. [2]
Probabilidad condicional
El enfoque de verosimilitud condicional se ocupa del comportamiento patológico anterior condicionando el número de casos en cada estrato y, por lo tanto, eliminando la necesidad de estimar los parámetros del estrato. En el caso donde los estratos son pares, donde la primera observación es un caso y la segunda es un control, esto se puede ver de la siguiente manera
Con cálculos similares, la probabilidad condicional de un estrato de tamaño , con el siendo las primeras observaciones los casos, es
dónde es el conjunto de todos los subconjuntos de tamaño del set .
La probabilidad logarítmica condicional completa es simplemente la suma de las probabilidades logarítmicas de cada estrato. El estimador se define entonces como el que maximiza la probabilidad logarítmica condicional.
Implementación
La regresión logística condicional está disponible en R como la función clogit
en el survival
paquete. Está en el survival
paquete porque la probabilidad logarítmica de un modelo logístico condicional es la misma que la probabilidad logarítmica de un modelo de Cox con una estructura de datos particular. [3]
Pruebas relacionadas
- La prueba de diferencia pareada permite probar la asociación entre un resultado binario y un predictor continuo teniendo en cuenta el emparejamiento.
- La prueba de Cochran-Mantel-Haenszel permite probar la asociación entre un resultado binario y un predictor binario teniendo en cuenta la estratificación con tamaño de estratos arbitrario. Cuando se verifican sus condiciones de aplicación, es idéntico a la prueba de puntuación de regresión logística condicional . [4]
Notas
- ^ Breslow NE, día NE, Halvorsen KT, Prentice RL, Sabai C (1978). "Estimación de múltiples funciones de riesgo relativo en estudios de casos y controles emparejados" . Soy J Epidemiol . 108 (4): 299-307. doi : 10.1093 / oxfordjournals.aje.a112623 . PMID 727199 .
- ^ Breslow, NE; Day, NE (1980). Métodos estadisticos en la investigación del cáncer. Volumen 1-El análisis de los estudios de casos y controles . Lyon, Francia: IARC. págs. 249-251. Archivado desde el original el 26 de diciembre de 2016 . Consultado el 4 de noviembre de 2016 .
- ^ Lumley, Thomas. "Documentación R Regresión logística condicional" . Consultado el 3 de noviembre de 2016 .
- ^ Day, NE, Byar, DP (1979). "Prueba de hipótesis en estudios de casos y controles-equivalencia de estadísticas de Mantel-Haenszel y pruebas de puntuación logit". Biometría . 35 (3): 623–630. doi : 10.2307 / 2530253 .CS1 maint: varios nombres: lista de autores ( enlace )