En estadística , la regla de uno en diez es una regla empírica sobre cuántos parámetros predictores se pueden estimar a partir de los datos cuando se realiza un análisis de regresión (en particular, los modelos de riesgos proporcionales en el análisis de supervivencia y la regresión logística ) mientras se mantiene bajo el riesgo de sobreajuste . La regla establece que se puede estudiar una variable predictiva por cada diez eventos. [1] [2] [3] [4] Para la regresión logística, el número de eventos viene dado por el tamaño de la más pequeña de las categorías de resultado, y para el análisis de supervivencia está dado por el número deeventos sin censura . [3]
Por ejemplo, si se estudia una muestra de 200 pacientes y 20 pacientes mueren durante el estudio (de modo que 180 pacientes sobreviven), la regla de uno en diez implica que dos predictores preespecificados pueden ajustarse de manera confiable a los datos totales. De manera similar, si 100 pacientes mueren durante el estudio (de modo que 100 pacientes sobrevivan), se pueden ajustar de manera confiable diez predictores preespecificados. Si se ajustan más, la regla implica que es probable un sobreajuste y los resultados no se predecirán bien fuera de los datos de entrenamiento . No es raro ver la regla 1:10 violada en campos con muchas variables (por ejemplo, estudios de expresión génica en el cáncer), lo que disminuye la confianza en los hallazgos informados. [5]
Mejoras
Se ha sugerido una "regla de uno en 20", que indica la necesidad de reducir los coeficientes de regresión, y una "regla de uno en 50" para la selección escalonada con el valor p predeterminado del 5%. [4] [6] Sin embargo, otros estudios muestran que la regla de uno en diez puede ser demasiado conservadora como recomendación general y que de cinco a nueve eventos por predictor pueden ser suficientes, dependiendo de la pregunta de investigación. [7]
Más recientemente, un estudio ha demostrado que la proporción de eventos por variable predictiva no es una estadística confiable para estimar el número mínimo de eventos para estimar un modelo de predicción logística. [8] En cambio, el número de variables predictoras, el tamaño total de la muestra (eventos + no eventos) y la fracción de eventos (eventos / tamaño total de la muestra) se pueden utilizar para calcular el error de predicción esperado del modelo que se va a desarrollar. . [9] Luego, se puede estimar el tamaño de muestra requerido para lograr un error de predicción esperado que sea menor que un valor de error de predicción permitido predeterminado. [9]
Alternativamente, se han sugerido tres requisitos para la estimación del modelo de predicción: el modelo debe tener un factor de contracción global de ≥ .9, una diferencia absoluta de ≤ .05 en el R 2 de Nagelkerke aparente y ajustado del modelo , y una estimación precisa del riesgo general. o tasa en la población objetivo. [10] El tamaño de muestra necesario y el número de eventos para el desarrollo del modelo vienen dados por los valores que cumplen estos requisitos. [10]
Referencias
- ↑ Harrell, FE Jr .; Lee, KL; Califf, RM; Pryor, DB; Rosati, RA (1984). "Estrategias de modelado de regresión para mejorar la predicción del pronóstico". Stat Med . 3 (2): 143–52. doi : 10.1002 / sim.4780030207 .
- ^ Harrell, FE Jr .; Lee, KL; Mark, DB (1996). "Modelos de pronóstico multivariable: problemas en el desarrollo de modelos, evaluación de supuestos y adecuación, y medición y reducción de errores" (PDF) . Stat Med . 15 (4): 361–87. doi : 10.1002 / (sici) 1097-0258 (19960229) 15: 4 <361 :: aid-sim168> 3.0.co; 2-4 .
- ^ a b Peduzzi, Peter; Concato, John; Kemper, Elizabeth; Holford, Theodore R .; Feinstein, Alvan R. (1996). "Un estudio de simulación del número de eventos por variable en el análisis de regresión logística". Revista de epidemiología clínica . 49 (12): 1373-1379. doi : 10.1016 / s0895-4356 (96) 00236-3 . PMID 8970487 .
- ^ a b "Capítulo 8: Modelos estadísticos para el pronóstico: problemas con los modelos de regresión" . Archivado desde el original el 31 de octubre de 2004 . Consultado el 11 de octubre de 2013 .CS1 maint: bot: estado de URL original desconocido ( enlace )
- ^ Ernest S. Shtatland, Ken Kleinman, Emily M. Cain. Construcción de maquetas en Proc PHREG con selección automática de variables y criterios de información. Documento 206-30 en SUGI 30 Proceedings, Filadelfia, Pensilvania, del 10 al 13 de abril de 2005. http://www2.sas.com/proceedings/sugi30/206-30.pdf
- ^ Steyerberg, EW; Eijkemans, MJ; Harrell, FE Jr .; Habbema, JD (2000). "Modelado de pronóstico con análisis de regresión logística: una comparación de métodos de selección y estimación en pequeños conjuntos de datos". Stat Med . 19 (8): 1059–1079. doi : 10.1002 / (sici) 1097-0258 (20000430) 19: 8 <1059 :: aid-sim412> 3.0.co; 2-0 .
- ^ Vittinghoff, E .; McCulloch, CE (2007). "Relajación de la regla de diez eventos por variable en la regresión logística y de Cox" . Revista Estadounidense de Epidemiología . 165 (6): 710–718. doi : 10.1093 / aje / kwk052 . PMID 17182981 .
- ^ van Smeden, Maarten; de Groot, Joris AH; Lunas, Karel GM; Collins, Gary S .; Altman, Douglas G .; Eijkemans, Marinus JC; Reitsma, Johannes B. (24 de noviembre de 2016). "No hay justificación para el criterio de 1 variable por 10 eventos para el análisis de regresión logística binaria" . Metodología de Investigación Médica de BMC . 16 (1): 163. doi : 10.1186 / s12874-016-0267-3 . ISSN 1471-2288 . PMC 5122171 . PMID 27881078 .
- ^ a b van Smeden, Maarten; Lunas, Karel Gm; de Groot, Joris Ah; Collins, Gary S .; Altman, Douglas G .; Eijkemans, Marinus Jc; Reitsma, Johannes B. (1 de enero de 2018). "Tamaño de la muestra para modelos binarios de predicción logística: más allá de los eventos por criterio de variable" . Métodos estadísticos en la investigación médica . 28 : 962280218784726. doi : 10.1177 / 0962280218784726 . ISSN 1477-0334 . PMID 29966490 .
- ^ a b Riley, Richard D .; Snell, Kym IE; Ensor, Joie; Burke, Danielle L .; Hijo, Frank E. Harrell; Lunas, Karel GM; Collins, Gary S. (2018). "Tamaño de muestra mínimo para desarrollar un modelo de predicción multivariable: PARTE II - Resultados binarios y de tiempo hasta el evento" . Estadística en Medicina . 0 : 1276–1296. doi : 10.1002 / sim.7992 . ISSN 1097-0258 . PMC 6519266 . PMID 30357870 .