De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Los modelos de riesgos proporcionales son una clase de modelos de supervivencia en estadística . Los modelos de supervivencia relacionan el tiempo que pasa, antes de que ocurra algún evento, con una o más covariables que pueden estar asociadas con esa cantidad de tiempo. En un modelo de riesgos proporcionales, el efecto único de un aumento unitario en una covariable es multiplicativo con respecto a la tasa de riesgo . Por ejemplo, tomar un medicamento puede reducir a la mitad la tasa de riesgo de que se produzca un derrame cerebral, o cambiar el material con el que se construye un componente fabricado puede duplicar su tasa de riesgo de falla. Otros tipos de modelos de supervivencia, como los modelos de tiempo de falla acelerado , no presentan riesgos proporcionales. LaEl modelo de tiempo de falla acelerado describe una situación en la que la historia de vida biológica o mecánica de un evento se acelera (o desacelera).

Antecedentes [ editar ]

Se puede considerar que los modelos de supervivencia constan de dos partes: la función de riesgo de línea de base subyacente , a menudo denotada , que describe cómo el riesgo de evento por unidad de tiempo cambia a lo largo del tiempo en los niveles de línea de base de las covariables; y los parámetros del efecto, que describen cómo varía el riesgo en respuesta a covariables explicativas. Un ejemplo médico típico incluiría covariables como la asignación del tratamiento, así como características del paciente como la edad al inicio del estudio, el sexo y la presencia de otras enfermedades al inicio del estudio, con el fin de reducir la variabilidad y / o el control de los factores de confusión.

La condición de riesgos proporcionales [1] establece que las covariables están relacionadas multiplicativamente con el peligro. En el caso más simple de coeficientes estacionarios, por ejemplo, un tratamiento con un fármaco puede, por ejemplo, reducir a la mitad el riesgo de un sujeto en un momento dado , mientras que el riesgo de referencia puede variar. Sin embargo, tenga en cuenta que esto no duplica la vida útil del sujeto; el efecto preciso de las covariables sobre la vida útil depende del tipo de . La covariable no se limita a los predictores binarios; en el caso de una covariable continua , normalmente se asume que el riesgo responde exponencialmente; cada unidad de aumento da como resultado una escala proporcional del peligro.

El modelo de Cox [ editar ]

La probabilidad parcial de Cox, que se muestra a continuación, se obtiene utilizando la estimación de Breslow de la función de riesgo de línea de base, conectándola a la probabilidad total y luego observando que el resultado es un producto de dos factores. El primer factor es la probabilidad parcial que se muestra a continuación, en la que el peligro de referencia se ha "anulado". El segundo factor está libre de los coeficientes de regresión y depende de los datos solo a través del patrón de censura . Por tanto, el efecto de las covariables estimadas por cualquier modelo de riesgos proporcionales se puede informar como cocientes de riesgo .

Sir David Cox observó que si se cumple el supuesto de riesgos proporcionales (o se supone que se mantiene), entonces es posible estimar los parámetros del efecto sin tener en cuenta la función de riesgo. Este enfoque de los datos de supervivencia se denomina aplicación del modelo de riesgos proporcionales de Cox , [2] a veces abreviado como modelo de Cox o como modelo de riesgos proporcionales . Sin embargo, Cox también señaló que la interpretación biológica de la suposición de riesgos proporcionales puede ser bastante complicada. [3] [4]

Sean X i = ( X i 1 ,…, X ip ) los valores realizados de las covariables para el sujeto i . La función de riesgo para el modelo de riesgos proporcionales de Cox tiene la forma

Esta expresión da la función de riesgo en el tiempo t para el sujeto i con el vector covariable (variables explicativas) X i .

La probabilidad de que el evento se observe ocurra para el sujeto i en el momento Y i se puede escribir como:

donde θ j = exp ( X jβ ) y la suma es sobre el conjunto de sujetos j donde el evento no ha ocurrido antes del tiempo Y i (incluido el propio sujeto i ). Obviamente, 0 <  L i (β) ≤ 1. Esta es una probabilidad parcial : el efecto de las covariables se puede estimar sin la necesidad de modelar el cambio del peligro a lo largo del tiempo.

Tratando a los sujetos como si fueran estadísticamente independientes entre sí, la probabilidad conjunta de todos los eventos realizados [5] es la siguiente probabilidad parcial, donde la ocurrencia del evento está indicada por C i  = 1:

La probabilidad parcial logarítmica correspondiente es

Esta función se puede maximizar sobre β para producir estimaciones de máxima verosimilitud parcial de los parámetros del modelo.

La función de puntuación parcial es

y la matriz de Hesse de la probabilidad logarítmica parcial es

Con esta función de puntuación y la matriz de Hesse, la probabilidad parcial se puede maximizar mediante el algoritmo de Newton-Raphson . La inversa de la matriz de Hesse, evaluada en la estimación de β , puede usarse como una matriz de varianza-covarianza aproximada para la estimación, y usarse para producir errores estándar aproximados para los coeficientes de regresión.

Tiempos empatados [ editar ]

Se han propuesto varios enfoques para manejar situaciones en las que existen vínculos en los datos de tiempo. El método de Breslow describe el enfoque en el que el procedimiento descrito anteriormente se utiliza sin modificaciones, incluso cuando hay vínculos. Un enfoque alternativo que se considera que da mejores resultados es el método de Efron . [6] Sea t j los tiempos únicos, sea H j el conjunto de índices i tales que Y i  =  t j y C i  = 1, y sea m j  = | H j|. El enfoque de Efron maximiza la siguiente probabilidad parcial.

La probabilidad parcial logarítmica correspondiente es

la función de puntuación es

y la matriz de Hesse es

dónde

Tenga en cuenta que cuando H j está vacío (todas las observaciones con tiempo t j están censuradas), los sumandos en estas expresiones se tratan como cero.

Predictores y coeficientes variables en el tiempo [ editar ]

Las extensiones de las variables dependientes del tiempo, los estratos dependientes del tiempo y los eventos múltiples por sujeto pueden incorporarse mediante la formulación del proceso de recuento de Andersen y Gill. [7] Un ejemplo del uso de modelos de riesgo con regresores variables en el tiempo es la estimación del efecto del seguro de desempleo sobre los períodos de desempleo. [8] [9]

Además de permitir covariables variables en el tiempo (es decir, predictores), el modelo de Cox también puede generalizarse a coeficientes variables en el tiempo. Es decir, el efecto proporcional de un tratamiento puede variar con el tiempo; por ejemplo, un fármaco puede ser muy eficaz si se administra dentro de un mes de morbilidad y se vuelve menos eficaz a medida que pasa el tiempo. Entonces se puede probar la hipótesis de que no hay cambio con el tiempo (estacionariedad) del coeficiente. Los detalles y el software ( paquete R ) están disponibles en Martinussen y Scheike (2006). [10] [11] La aplicación del modelo de Cox con covariables variables en el tiempo se considera en matemáticas de confiabilidad. [12]

En este contexto, también podría mencionarse que teóricamente es posible especificar el efecto de las covariables mediante el uso de peligros aditivos, [13] es decir, especificando

Si dichos modelos de peligros aditivos se utilizan en situaciones en las que el objetivo es la maximización de la probabilidad (logarítmica), se debe tener cuidado de restringir a valores no negativos. Quizás como resultado de esta complicación, tales modelos rara vez se ven. Si, en cambio, el objetivo son mínimos cuadrados, la restricción de no negatividad no es estrictamente necesaria.

Especificación de la función de riesgo de referencia [ editar ]

El modelo de Cox puede estar especializado si existe una razón para suponer que el riesgo de referencia sigue una forma particular. En este caso, el peligro de la línea de base se reemplaza por una función determinada. Por ejemplo, suponiendo que la función de riesgo es la función de riesgo de Weibull , se obtiene el modelo de riesgos proporcionales de Weibull .

Por cierto, el uso del riesgo de línea de base de Weibull es la única circunstancia bajo la cual el modelo satisface tanto los riesgos proporcionales como los modelos de tiempo de falla acelerado .

El término genérico modelos de riesgos proporcionales paramétricos se puede utilizar para describir modelos de riesgos proporcionales en los que se especifica la función de riesgo. En contraste, el modelo de riesgos proporcionales de Cox a veces se denomina modelo semiparamétrico .

Algunos autores utilizan el término modelo de riesgos proporcionales de Cox incluso cuando especifican la función de riesgo subyacente, [14] para reconocer la deuda de todo el campo con David Cox.

El término modelo de regresión de Cox (omitiendo los riesgos proporcionales ) se usa a veces para describir la extensión del modelo de Cox para incluir factores dependientes del tiempo. Sin embargo, este uso es potencialmente ambiguo ya que el modelo de riesgos proporcionales de Cox puede describirse en sí mismo como un modelo de regresión.

Relación con los modelos de Poisson [ editar ]

Existe una relación entre los modelos de riesgos proporcionales y los modelos de regresión de Poisson que a veces se utiliza para ajustar modelos de riesgos proporcionales aproximados en el software para la regresión de Poisson. La razón habitual para hacer esto es que el cálculo es mucho más rápido. Esto era más importante en los días de las computadoras más lentas, pero aún puede ser útil para conjuntos de datos particularmente grandes o problemas complejos. Laird y Olivier (1981) [15] proporcionan los detalles matemáticos. Señalan que "no asumimos [el modelo de Poisson] es cierto, sino que simplemente lo usamos como un dispositivo para derivar la probabilidad". El libro de McCullagh y Nelder [16] sobre modelos lineales generalizados tiene un capítulo sobre la conversión de modelos de riesgos proporcionales en modelos lineales generalizados .

En configuración de alta dimensión [ editar ]

En alta dimensión, cuando el número de covariables p es grande en comparación con el tamaño de la muestra n, el método LASSO es una de las estrategias clásicas de selección de modelos. Tibshirani (1997) ha propuesto un procedimiento Lasso para el parámetro de regresión de riesgo proporcional. [17] El estimador Lasso del parámetro de regresión β se define como el minimizador del opuesto de la probabilidad logarítmica parcial de Cox bajo una restricción de tipo L 1 -norm .

Recientemente, ha habido avances teóricos sobre este tema. [18] [19] [20] [21]

Ver también [ editar ]

  • Modelo de tiempo de falla acelerado
  • Regla de uno en diez
  • Distribución de Weibull

Notas [ editar ]

  1. ^ Breslow, NE (1975). "Análisis de datos de supervivencia bajo el modelo de riesgos proporcionales". Revista Estadística Internacional / Revue Internationale de Statistique . 43 (1): 45–57. doi : 10.2307 / 1402659 . JSTOR  1402659 .
  2. ^ Cox, David R (1972). "Modelos de regresión y tablas de vida". Revista de la Sociedad Real de Estadística, Serie B . 34 (2): 187–220. JSTOR 2985181 . Señor 0341758 .  
  3. ^ Reid, N. (1994). "Una conversación con Sir David Cox" . Ciencia estadística . 9 (3): 439–455. doi : 10.1214 / ss / 1177010394 .
  4. ^ Cox, DR (1997). Algunas observaciones sobre el análisis de datos de supervivencia . el Primer Simposio de Bioestadística de Seattle: Análisis de Supervivencia.
  5. ^ "Cada falla contribuye a la función de probabilidad", Cox (1972), página 191.
  6. ^ Efron, Bradley (1974). "La eficiencia de la función de probabilidad de Cox para datos censurados". Revista de la Asociación Estadounidense de Estadística . 72 (359): 557–565. doi : 10.1080 / 01621459.1977.10480613 . JSTOR 2286217 . 
  7. ^ Andersen, P .; Gill, R. (1982). "Modelo de regresión de Cox para procesos de conteo, un gran estudio de muestra" . Annals of Statistics . 10 (4): 1100–1120. doi : 10.1214 / aos / 1176345976 . JSTOR 2240714 . 
  8. ^ Meyer, BD (1990). "Seguro de desempleo y hechizos de desempleo" (PDF) . Econometrica . 58 (4): 757–782. doi : 10.2307 / 2938349 . JSTOR 2938349 .  
  9. ^ Bover, O .; Arellano, M .; Bentolila, S. (2002). "Duración del desempleo, duración de la prestación y ciclo económico" (PDF) . The Economic Journal . 112 (479): 223–265. doi : 10.1111 / 1468-0297.00034 .
  10. ^ Martinussen; Scheike (2006). Modelos de regresión dinámica para datos de supervivencia . Saltador. doi : 10.1007 / 0-387-33960-4 . ISBN 978-0-387-20274-7.
  11. ^ "timereg: modelos de regresión flexible para datos de supervivencia" . CRAN .
  12. ^ Wu, S .; Bufanda, P. (2015). "Rechazar y reparar y covariar efectos" (PDF) . Revista europea de investigación operativa . 244 (1): 219–226. doi : 10.1016 / j.ejor.2015.01.041 .
  13. ^ Cox, DR (1997). Algunas observaciones sobre el análisis de datos de supervivencia . el Primer Simposio de Bioestadística de Seattle: Análisis de Supervivencia.
  14. ^ Bender, R .; Augustin, T .; Blettner, M. (2006). "Generación de tiempos de supervivencia para simular modelos de riesgos proporcionales de Cox". Estadística en Medicina . 24 (11): 1713-1723. doi : 10.1002 / sim.2369 . PMID 16680804 . 
  15. ^ Nan Laird y Donald Olivier (1981). "Análisis de covarianza de datos de supervivencia censurados mediante técnicas de análisis log-lineal". Revista de la Asociación Estadounidense de Estadística . 76 (374): 231–240. doi : 10.2307 / 2287816 . JSTOR 2287816 . 
  16. ^ P. McCullagh y JA Nelder (2000). "Capítulo 13: Modelos para datos de supervivencia". Modelos lineales generalizados (Segunda ed.). Boca Raton, Florida: Chapman & Hall / CRC. ISBN 978-0-412-31760-6. (Segunda edición 1989; primera reimpresión CRC 1999.)
  17. ^ Tibshirani, R. (1997). "El método Lasso para la selección de variables en el modelo de Cox". Estadística en Medicina . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . doi : 10.1002 / (SICI) 1097-0258 (19970228) 16: 4 <385 :: AID-SIM380> 3.0.CO; 2-3 . 
  18. Bradić, J .; Fan, J .; Jiang, J. (2011). "Regularización del modelo de riesgos proporcionales de Cox con dimensionalidad NP" . Annals of Statistics . 39 (6): 3092–3120. arXiv : 1010.5233 . doi : 10.1214 / 11-AOS911 . PMC 3468162 . PMID 23066171 .  
  19. Bradić, J .; Canción, R. (2015). "Estimación estructurada en modelo de Cox no paramétrico". Revista Electrónica de Estadística . 9 (1): 492–534. arXiv : 1207.4510 . doi : 10.1214 / 15-EJS1004 .
  20. ^ Kong, S .; Nan, B. (2014). "Desigualdades de oráculo no asintóticas para la regresión de Cox de alta dimensión a través de Lasso" . Statistica Sinica . 24 (1): 25–42. arXiv : 1204.1992 . doi : 10.5705 / ss.2012.240 . PMC 3916829 . PMID 24516328 .  
  21. ^ Huang, J .; Sun, T .; Ying, Z .; Yu, Y .; Zhang, CH (2011). "Desigualdades de Oracle para el lazo en el modelo de Cox" . The Annals of Statistics . 41 (3): 1142-1165. arXiv : 1306.4847 . doi : 10.1214 / 13-AOS1098 . PMC 3786146 . PMID 24086091 .  

Referencias [ editar ]

  • Bagdonavicius, V .; Levuliene, R .; Nikulin, M. (2010). "Criterios de bondad de ajuste para el modelo de Cox de datos truncados a la izquierda y censurados a la derecha". Revista de Ciencias Matemáticas . 167 (4): 436–443. doi : 10.1007 / s10958-010-9929-6 .
  • Cox, RD; Oakes, D. (1984). Análisis de datos de supervivencia . Nueva York: Chapman & Hall. ISBN 978-0412244902.
  • Collett, D. (2003). Modelado de datos de supervivencia en la investigación médica (2ª ed.). Boca Ratón: CRC. ISBN 978-1584883258.
  • Gouriéroux, Christian (2000). "Modelos de duración" . Econometría de variables dependientes cualitativas . Nueva York: Cambridge University Press. págs. 284–362. ISBN 978-0-521-58985-7.
  • Cantante, Judith D .; Willett, John B. (2003). "Ajuste de modelos de regresión de Cox" . Análisis de datos longitudinales aplicados: cambio de modelado y ocurrencia de eventos . Nueva York: Oxford University Press. págs. 503–542. ISBN 978-0-19-515296-8.
  • Therneau, TM; Grambsch, PM (2000). Modelado de datos de supervivencia: ampliación del modelo de Cox . Nueva York: Springer. ISBN 978-0387987842.