El estimador de Kaplan-Meier , [1] [2] también conocido como estimador de límite de producto , es una estadística no paramétrica que se utiliza para estimar la función de supervivencia a partir de datos de por vida. En la investigación médica, a menudo se usa para medir la fracción de pacientes que viven durante un cierto período de tiempo después del tratamiento. En otros campos, los estimadores de Kaplan-Meier pueden usarse para medir el tiempo que las personas permanecen desempleadas después de perder el trabajo, [3] el tiempo hasta que fallan las piezas de la máquina o cuánto tiempo permanecen las frutas carnosas en las plantas antes de ser retiradas. por frugívoros . El estimador lleva el nombre de Edward L. Kaplany Paul Meier , quienes enviaron manuscritos similares a la Revista de la Asociación Estadounidense de Estadística . [4] El editor de la revista, John Tukey , los convenció de combinar su trabajo en un solo artículo, que ha sido citado más de 59.000 veces desde su publicación en 1958. [5] [6]
El estimador de la función de supervivencia (la probabilidad de que la vida sea más larga que ) es dado por:
con un momento en el que ocurrió al menos un evento, d i el número de eventos (por ejemplo, muertes) que sucedieron en ese momento, y las personas que se sabe que han sobrevivido (aún no han tenido un evento o han sido censuradas) hasta el momento.
Conceptos básicos
Una gráfica del estimador de Kaplan-Meier es una serie de pasos horizontales decrecientes que, con un tamaño de muestra suficientemente grande, se aproxima a la función de supervivencia real para esa población. Se supone que el valor de la función de supervivencia entre las sucesivas observaciones muestreadas distintas ("clics") es constante.
Una ventaja importante de la curva de Kaplan-Meier es que el método puede tener en cuenta algunos tipos de datos censurados , en particular la censura por la derecha , que ocurre si un paciente se retira de un estudio, se pierde durante el seguimiento o está vivo sin ningún evento. aparición en el último seguimiento. En la trama, pequeñas marcas verticales indican pacientes individuales cuyos tiempos de supervivencia han sido censurados por la derecha. Cuando no se produce truncamiento o censura, la curva de Kaplan-Meier es el complemento de la función de distribución empírica .
En las estadísticas médicas , una aplicación típica podría implicar la agrupación de pacientes en categorías, por ejemplo, aquellos con perfil de Gene A y aquellos con perfil de Gene B. En el gráfico, los pacientes con el gen B mueren mucho más rápido que los que tienen el gen A. Después de dos años, aproximadamente el 80% de los pacientes con el gen A sobreviven, pero menos de la mitad de los pacientes con el gen B.
Para generar un estimador de Kaplan-Meier, se requieren al menos dos datos para cada paciente (o cada sujeto): el estado en la última observación (ocurrencia del evento o censurado por la derecha) y el tiempo hasta el evento (o el tiempo hasta la censura). . Si se van a comparar las funciones de supervivencia entre dos o más grupos, entonces se requiere un tercer dato: la asignación de grupo de cada sujeto. [7]
Definición del problema
Dejar ser una variable aleatoria, que pensamos que es el tiempo que transcurre hasta que se produce un evento de interés. Como se indicó anteriormente, el objetivo es estimar la función de supervivencia subyacente . Recuerde que esta función se define como
- , dónde es la hora.
Dejar Ser variables aleatorias independientes, distribuidas de forma idéntica, cuya distribución común es la de : es el momento aleatorio en el que algún evento sucedió. Los datos disponibles para estimar no es , pero la lista de pares donde para , es un entero determinista fijo, el tiempo de censura del evento y . En particular, la información disponible sobre el momento del evento es si el evento ocurrió antes de la hora fijada y si es así, la hora real del evento también está disponible. El desafío es estimar dados estos datos.
Derivación del estimador de Kaplan-Meier
Aquí mostramos dos derivaciones del estimador de Kaplan-Meier. Ambos se basan en reescribir la función de supervivencia en términos de lo que a veces se denomina riesgo o tasas de mortalidad . Sin embargo, antes de hacer esto, vale la pena considerar un estimador ingenuo.
Un estimador ingenuo
Para comprender el poder del estimador de Kaplan-Meier, conviene describir primero un estimador ingenuo de la función de supervivencia.
Reparar y deja . Un argumento básico muestra que la siguiente proposición es válida:
- Proposición 1: Si el tiempo de censura de evento excede ( ), luego si y solo si .
Dejar ser tal que . De la proposición anterior se sigue que
Dejar y considera solo aquellos , es decir, los eventos para los que el resultado no fue censurado antes de tiempo . Dejar ser el número de elementos en . Tenga en cuenta que el conjunto no es aleatorio y tampoco lo es . Además,es una secuencia de variables aleatorias Bernoulli independientes distribuidas de forma idéntica con un parámetro común. Asumiendo que, esto sugiere estimar utilizando
donde sigue la última igualdad porque implica .
La calidad de esta estimación se rige por el tamaño de . Esto puede ser problemático cuandoes pequeño, lo que ocurre, por definición, cuando muchos de los eventos son censurados. Una propiedad particularmente desagradable de este estimador, que sugiere que quizás no sea el "mejor" estimador, es que ignora todas las observaciones cuyo tiempo de censura precede. Intuitivamente, estas observaciones todavía contienen información sobre: Por ejemplo, cuando para muchos eventos con , También se sostiene, podemos inferir que los eventos a menudo ocurren temprano, lo que implica que es grande, que, a través de significa que debe ser pequeño. Sin embargo, este estimador ingenuo ignora esta información. La pregunta es entonces si existe un estimador que haga un mejor uso de todos los datos. Esto es lo que logra el estimador de Kaplan-Meier. Tenga en cuenta que el estimador ingenuo no se puede mejorar cuando no se realiza la censura; así que si una mejora es posible depende de manera crítica de si existe censura.
El enfoque de plug-in
Por cálculos elementales,
donde la única pero última igualdad usó eso tiene un valor entero y para la última línea introdujimos
Por una expansión recursiva de la igualdad , obtenemos
Tenga en cuenta que aquí .
El estimador de Kaplan-Meier puede verse como un "estimador complementario" donde cada se estima en base a los datos y el estimador de se obtiene como producto de estas estimaciones.
Queda por especificar cómo se estima. Por la Propuesta 1, para cualquier tal que , y ambos aguantan. Por lo tanto, para cualquier tal que ,
Por un razonamiento similar que conduce a la construcción del estimador ingenuo anterior, llegamos al estimador
(piense en estimar el numerador y el denominador por separado en la definición de "tasa de riesgo" ). El estimador de Kaplan-Meier viene dado por
La forma del estimador que se indica al principio del artículo se puede obtener mediante un poco más de álgebra. Para esto, escribe donde, utilizando la terminología de la ciencia actuarial, es el número de muertes conocidas en el momento , tiempo es el número de personas que están vivas en el momento .
Tenga en cuenta que si , . Esto implica que podemos dejar fuera de la definición del producto todos esos términos donde . Entonces, dejando sean los tiempos Cuándo , y , llegamos a la forma del estimador de Kaplan-Meier que se da al comienzo del artículo:
A diferencia del estimador ingenuo, se puede ver que este estimador usa la información disponible de manera más efectiva: en el caso especial mencionado anteriormente, cuando hay muchos eventos tempranos registrados, el estimador multiplicará muchos términos con un valor por debajo de uno y, por lo tanto, tomará en cuenta que la probabilidad de supervivencia no puede ser grande.
La derivación como estimador de máxima verosimilitud
El estimador de Kaplan-Meier se puede derivar de la estimación de máxima verosimilitud de la función de riesgo . [8] Más específicamente como el número de eventos y el total de individuos en riesgo en el momento , tasa de riesgo discreta se puede definir como la probabilidad de que un individuo tenga un evento en el momento . Entonces la tasa de supervivencia se puede definir como:
y la función de probabilidad para la función de peligro hasta el momento es:
por lo tanto, la probabilidad logarítmica será:
encontrar el máximo de probabilidad logarítmica con respecto a rinde:
donde hat se usa para denotar la estimación de máxima verosimilitud. Dado este resultado, podemos escribir:
Beneficios y limitaciones
El estimador de Kaplan-Meier es uno de los métodos de análisis de supervivencia más utilizados. La estimación puede ser útil para examinar las tasas de recuperación, la probabilidad de muerte y la eficacia del tratamiento. Tiene una capacidad limitada para estimar la supervivencia ajustada por covariables ; Los modelos paramétricos de supervivencia y el modelo de riesgos proporcionales de Cox pueden ser útiles para estimar la supervivencia ajustada por covariables.
Consideraciones estadísticas
El estimador de Kaplan-Meier es un estadístico y se utilizan varios estimadores para aproximar su varianza . Uno de los estimadores más comunes es la fórmula de Greenwood: [9]
dónde es el número de casos y es el número total de observaciones, por .
La fórmula de Greenwood se deriva [10] observando que la probabilidad de obtener fallas de casos sigue una distribución binomial con probabilidad de falla. Como resultado de la tasa de riesgo de máxima probabilidad tenemos y . Para evitar tener que lidiar con probabilidades multiplicativas, calculamos la varianza del logaritmo dey usará el método delta para convertirlo de nuevo a la varianza original:
utilizando el teorema del límite central de martingala , se puede demostrar que la varianza de la suma en la siguiente ecuación es igual a la suma de las varianzas: [10]
como resultado podemos escribir:
usando el método delta una vez más:
como se desee.
En algunos casos, es posible que desee comparar diferentes curvas de Kaplan-Meier. Esto se puede hacer mediante la prueba de rango logarítmico y la prueba de riesgos proporcionales de Cox .
Otras estadísticas que pueden ser útiles con este estimador son la banda de Hall-Wellner [11] y la banda de igual precisión. [12]
Software
- Mathematica : la función incorporada
SurvivalModelFit
crea modelos de supervivencia. [13] - SAS : El estimador de Kaplan-Meier se implementa en el
proc lifetest
procedimiento. [14] - R : el estimador de Kaplan-Meier está disponible como parte del
survival
paquete. [15] [16] [17] - Stata : el comando
sts
devuelve el estimador de Kaplan-Meier. [18] [19] - Python : el
lifelines
paquete incluye el estimador de Kaplan-Meier. [20] - MATLAB : la
ecdf
función con los'function','survivor'
argumentos puede calcular o graficar el estimador de Kaplan-Meier. [21] - StatsDirect : El estimador de Kaplan-Meier se implementa en el
Survival Analysis
menú. [22] - SPSS : El estimador de Kaplan-Meier se implementa en el
Analyze > Survival > Kaplan-Meier...
menú. [23] - Julia : el
Survival.jl
paquete incluye el estimador de Kaplan-Meier. [24]
Ver también
- Análisis de supervivencia
- Frecuencia de superación
- Dosis letal mediana
- Estimador Nelson-Aalen
Referencias
- ^ Kaplan, EL; Meier, P. (1958). "Estimación no paramétrica a partir de observaciones incompletas". J. Amer. Estadístico. Assoc. 53 (282): 457–481. doi : 10.2307 / 2281868 . JSTOR 2281868 .
- ^ Kaplan, EL en una retrospectiva sobre el artículo fundamental en "Clásico de citas de esta semana". Contenidos actuales 24 , 14 (1983). Disponible en UPenn como PDF.
- ^ Meyer, Bruce D. (1990). "Seguro de desempleo y hechizos de desempleo" (PDF) . Econometrica . 58 (4): 757–782. doi : 10.2307 / 2938349 . JSTOR 2938349 .
- ^ Lukas JA Stalpers y Edward L. Kaplan, "Edward L. Kaplan y la curva de supervivencia Kaplan-Meier", Revista de la Sociedad Británica de Historia de las Matemáticas , vol. 33, No. 2 (noviembre de 2018), 109-135.
- ^ "- Google Académico" . scholar.google.com . Consultado el 4 de marzo de 2017 .
- ^ "Paul Meier, 1924-2011" . Chicago Tribune . 18 de agosto de 2011.
- ^ Rich JT, Neely JG, Paniello RC, Voelker CC, Nussenbaum B, Wang EW (2010). "Una guía práctica para comprender las curvas de Kaplan-Meier" . Cirugía de cabeza y cuello de otorrinolaringol . 143 (3): 331–6. doi : 10.1016 / j.otohns.2010.05.007 . PMC 3932959 . PMID 20723767 .
- ^ (PDF) https://web.stanford.edu/~lutian/coursepdf/STAT331unit3.pdf . Falta o vacío
|title=
( ayuda ) - ^ Greenwood, M. (1926). "La duración natural del cáncer". Informes sobre salud pública y temas médicos . Londres: Oficina de papelería de Su Majestad. 33 : 1–26.
- ^ a b (PDF) https://www.math.wustl.edu/%7Esawyer/handouts/greenwood.pdf . Falta o vacío
|title=
( ayuda ) - ^ Hall WJ y Wellner JA (1980) Bandas de confianza para una curva de supervivencia para datos censurados. Biometrika 69
- ^ Nair VN (1984) Bandas de confianza para funciones de supervivencia con datos censurados: un estudio comparativo. Technometrics 26: 265–275
- ^ "Análisis de supervivencia - Mathematica SurvivalModelFit" . wolfram.com . Consultado el 14 de agosto de 2017 .
- ^ El procedimiento LIFETEST
- ^ "supervivencia: análisis de supervivencia" . Proyecto R . Abril de 2019.
- ^ Willekens, Frans (2014). "El paquete de supervivencia " . Análisis en varios estados de historias de vida con R . Saltador. págs. 135-153. doi : 10.1007 / 978-3-319-08383-4_6 . ISBN 978-3-319-08383-4.
- ^ Chen, Ding-Geng; Paz, Karl E. (2014). Clínica de análisis de datos de prueba con R . Prensa CRC. págs. 99–108. ISBN 9781439840214.
- ^ "sts - Genere, grafique, enumere y pruebe las funciones de sobreviviente y peligro acumulativo" (PDF) . Stata Manual .
- ^ Cleves, Mario (2008). Una introducción al análisis de supervivencia utilizando Stata (segunda ed.). College Station: Stata Press. págs. 93-107. ISBN 978-1-59718-041-2.
- ^ documentos de líneas de vida
- ^ "Función de distribución acumulativa empírica - MATLAB ecdf" . mathworks.com . Consultado el 16 de junio de 2016 .
- ^ https://www.statsdirect.co.uk/help/Default.htm#survival_analysis/kaplan_meier.htm ]
- ^ [1]
- ^ https://juliastats.org/Survival.jl/latest/km/
Otras lecturas
- Aalen, Odd; Borgan, Ornulf; Gjessing, Hakon (2008). Análisis del historial de sucesos y supervivencia: un punto de vista del proceso . Saltador. págs. 90-104. ISBN 978-0-387-68560-1.
- Greene, William H. (2012). "Enfoques no paramétricos y semiparamétricos" . Análisis econométrico (Séptima ed.). Prentice Hall. págs. 909–912. ISBN 978-0-273-75356-8.
- Jones, Andrew M .; Rice, Nigel; D'Uva, Teresa Bago; Balia, Silvia (2013). "Datos de duración" . Economía de la salud aplicada . Londres: Routledge. págs. 139-181. ISBN 978-0-415-67682-3.
- Cantante, Judith B .; Willett, John B. (2003). Análisis de datos longitudinales aplicados: cambio de modelado y ocurrencia de eventos . Nueva York: Oxford University Press. págs. 483–487. ISBN 0-19-515296-4.
enlaces externos
- Dunn, Steve (2002). "Curvas de supervivencia: acumulación y la estimación de Kaplan-Meier" . Guía de cáncer . Estadísticas.
- Staub, Linda; Gekenidis, Alexandros (7 de marzo de 2011). "Curvas de supervivencia de Kaplan-Meier y la prueba de rango logarítmico" (PDF) . Análisis de supervivencia (PDF) . Folleto y presentación . Seminario de Estadística (SfS). Eidgenössische Technische Hochschule Zürich (ETH) [Instituto Federal Suizo de Tecnología de Zúrich].
- Tres curvas de Kaplan-Meier en evolución en YouTube