Regresión logística condicional

La regresión logística condicional es una extensión de la regresión logística que permite tener en cuenta la estratificación y el emparejamiento . Su principal campo de aplicación son los estudios observacionales y en particular la epidemiología . Fue ideado en 1978 por Norman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prentice y C. Sabai. ^[1] Es el procedimiento más flexible y general para datos comparados.

Motivación

Los estudios observacionales utilizan la estratificación o el emparejamiento como una forma de controlar los factores de confusión . Existían varias pruebas antes de la regresión logística condicional para datos emparejados, como se muestra en las pruebas relacionadas . Sin embargo, no permitieron el análisis de predictores continuos con tamaño de estrato arbitrario. Todos esos procedimientos también carecen de la flexibilidad de la regresión logística condicional y, en particular, de la posibilidad de controlar las covariables.

La regresión logística puede tener en cuenta la estratificación al tener un término constante diferente para cada estrato. Denotemos ${\ Displaystyle Y_ {i \ ell} \ in \ {0,1 \}}$ la etiqueta (por ejemplo, el estado del caso) del ${\ Displaystyle \ ell}$ la observación de la ${\ Displaystyle i}$ th estrato y ${\ Displaystyle X_ {i \ ell} \ in \ mathbb {R} ^ {p}}$ los valores de los predictores correspondientes. Entonces, la probabilidad de una observación es

{\ Displaystyle \ mathbb {P} (Y_ {i \ ell} = 1 | X_ {i \ ell}) = {\ frac {\ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ { \ top} X_ {i \ ell})} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i \ ell})}}}

dónde ${\ Displaystyle \ alpha _ {i}}$ es el término constante para el ${\ Displaystyle i}$ estrato. Si bien esto funciona satisfactoriamente para un número limitado de estratos, el comportamiento patológico ocurre cuando los estratos son pequeños. Cuando los estratos son pares, el número de parámetros crece con el número de observaciones. ${\ Displaystyle N}$ (es igual a ${\ Displaystyle {\ frac {N} {2}} + p}$ ). Por tanto, los resultados asintóticos en los que se basa la estimación de máxima verosimilitud no son válidos y la estimación está sesgada. De hecho, se puede demostrar que el análisis incondicional de los datos de pares emparejados da como resultado una estimación de la razón de probabilidades, que es el cuadrado del condicional correcto. ^[2]

Probabilidad condicional

El enfoque de verosimilitud condicional se ocupa del comportamiento patológico anterior condicionando el número de casos en cada estrato y, por lo tanto, eliminando la necesidad de estimar los parámetros del estrato. En el caso donde los estratos son pares, donde la primera observación es un caso y la segunda es un control, esto se puede ver de la siguiente manera

{\ Displaystyle {\ begin {alineado} & \ mathbb {P} (Y_ {i1} = 1, Y_ {i2} = 0 | X_ {i1}, X_ {i2}, Y_ {i1} + Y_ {i2} = 1) \\ & = {\ frac {\ mathbb {P} (Y_ {i1} = 1 | X_ {i1}) \ mathbb {P} (Y_ {i2} = 0 | X_ {i2})} {\ mathbb {P} (Y_ {i1} = 1 | X_ {i1}) \ mathbb {P} (Y_ {i2} = 0 | X_ {i2}) + \ mathbb {P} (Y_ {i1} = 0 | X_ { i1}) \ mathbb {P} (Y_ {i2} = 1 | X_ {i2})}} \\ [6pt] \ & = {\ frac {{\ frac {\ exp (\ alpha _ {i} + { \ boldsymbol {\ beta}} ^ {\ top} X_ {i1})} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i1})} } \ veces {\ frac {1} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i2})}}} {{\ frac {\ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i1})} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ { \ top} X_ {i1})}} \ times {\ frac {1} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i2})} } + {\ frac {1} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i1})}} \ veces {\ frac {\ exp ( \ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ top} X_ {i2})} {1+ \ exp (\ alpha _ {i} + {\ boldsymbol {\ beta}} ^ {\ arriba} X_ {i2})}}}} \\ [6pt] \ & = {\ frac {\ exp ({\ boldsymbol {\ beta}} ^ {\ top} X_ {i1})} {\ exp ({ \ boldsymbol {\ beta}} ^ {\ top} X_ {i1}) + \ exp ({\ boldsymbol {\ beta}} ^ {\ top} X_ {i2})}}. \\ [6pt] \ end {alineado}}}

Con cálculos similares, la probabilidad condicional de un estrato de tamaño ${\ Displaystyle m}$ , con el ${\ Displaystyle k}$ siendo las primeras observaciones los casos, es

{\ Displaystyle \ mathbb {P} (Y_ {ij} = 1 {\ text {para}} j \ leq k, Y_ {ij} = 0 {\ text {para}} k

dónde ${\ Displaystyle {\ mathcal {C}} _ {k} ^ {m}}$ es el conjunto de todos los subconjuntos de tamaño ${\ Displaystyle k}$ del set ${\ Displaystyle \ {1, ..., m \}}$ .

La probabilidad logarítmica condicional completa es simplemente la suma de las probabilidades logarítmicas de cada estrato. El estimador se define entonces como el ${\ Displaystyle \ beta}$ que maximiza la probabilidad logarítmica condicional.

Implementación

La regresión logística condicional está disponible en R como la función clogiten el survivalpaquete. Está en el survivalpaquete porque la probabilidad logarítmica de un modelo logístico condicional es la misma que la probabilidad logarítmica de un modelo de Cox con una estructura de datos particular. ^[3]

Pruebas relacionadas

La prueba de diferencia pareada permite probar la asociación entre un resultado binario y un predictor continuo teniendo en cuenta el emparejamiento.
La prueba de Cochran-Mantel-Haenszel permite probar la asociación entre un resultado binario y un predictor binario teniendo en cuenta la estratificación con tamaño de estratos arbitrario. Cuando se verifican sus condiciones de aplicación, es idéntico a la prueba de puntuación de regresión logística condicional . ^[4]

Notas

^ Breslow NE, día NE, Halvorsen KT, Prentice RL, Sabai C (1978). "Estimación de múltiples funciones de riesgo relativo en estudios de casos y controles emparejados" . Soy J Epidemiol . 108 (4): 299-307. doi : 10.1093 / oxfordjournals.aje.a112623 . PMID 727199 .
^ Breslow, NE; Day, NE (1980). Métodos estadisticos en la investigación del cáncer. Volumen 1-El análisis de los estudios de casos y controles . Lyon, Francia: IARC. págs. 249-251. Archivado desde el original el 26 de diciembre de 2016 . Consultado el 4 de noviembre de 2016 .
^ Lumley, Thomas. "Documentación R Regresión logística condicional" . Consultado el 3 de noviembre de 2016 .
^ Day, NE, Byar, DP (1979). "Prueba de hipótesis en estudios de casos y controles-equivalencia de estadísticas de Mantel-Haenszel y pruebas de puntuación logit". Biometría . 35 (3): 623–630. doi : 10.2307 / 2530253 .CS1 maint: varios nombres: lista de autores ( enlace )

[pmid727199-1] Breslow NE, día NE, Halvorsen KT, Prentice RL, Sabai C (1978). "Estimación de múltiples funciones de riesgo relativo en estudios de casos y controles emparejados" . Soy J Epidemiol . 108 (4): 299-307. doi : 10.1093 / oxfordjournals.aje.a112623 . PMID 727199 .

[2] Breslow, NE; Day, NE (1980). Métodos estadisticos en la investigación del cáncer. Volumen 1-El análisis de los estudios de casos y controles . Lyon, Francia: IARC. págs. 249-251. Archivado desde el original el 26 de diciembre de 2016 . Consultado el 4 de noviembre de 2016 .

[3] Lumley, Thomas. "Documentación R Regresión logística condicional" . Consultado el 3 de noviembre de 2016 .

[4] Day, NE, Byar, DP (1979). "Prueba de hipótesis en estudios de casos y controles-equivalencia de estadísticas de Mantel-Haenszel y pruebas de puntuación logit". Biometría . 35 (3): 623–630. doi : 10.2307 / 2530253 .CS1 maint: varios nombres: lista de autores ( enlace )

[1]