Ponderación de probabilidad inversa

La ponderación de probabilidad inversa es una técnica estadística para calcular estadísticas estandarizadas para una pseudopoblación diferente de aquella en la que se recopilaron los datos. Los diseños de estudio con una población de muestreo dispar y una población de inferencia objetivo (población objetivo) son de aplicación común. ^[1] Puede haber factores prohibitivos que impidan a los investigadores tomar muestras directamente de la población objetivo, como el costo, el tiempo o preocupaciones éticas. ^[2] Una solución a este problema es utilizar una estrategia de diseño alternativa, por ejemplo, muestreo estratificado . La ponderación, cuando se aplica correctamente, puede mejorar potencialmente la eficiencia y reducir el sesgo de los estimadores no ponderados.

Un estimador ponderado muy temprano es el estimador de la media de Horvitz-Thompson . ^[3] Cuando se conoce la probabilidad de muestreo , a partir de la cual se extrae la población de muestreo de la población objetivo, entonces se usa la inversa de esta probabilidad para ponderar las observaciones. Este enfoque se ha generalizado a muchos aspectos de las estadísticas en varios marcos. En particular, existen probabilidades ponderadas , ecuaciones de estimación ponderadas y densidades de probabilidad ponderadas de las que se derivan la mayoría de las estadísticas. Estas aplicaciones codificaron la teoría de otras estadísticas y estimadores, como los modelos estructurales marginales , la tasa de mortalidad estandarizada y el algoritmo EM para datos agregados o aproximados.

La ponderación de probabilidad inversa también se utiliza para tener en cuenta los datos faltantes cuando los sujetos con datos faltantes no pueden incluirse en el análisis primario. ^[4] Con una estimación de la probabilidad de muestreo, o la probabilidad de que el factor se mida en otra medición, se puede usar la ponderación de probabilidad inversa para inflar el peso de los sujetos que están subrepresentados debido a una gran cantidad de datos faltantes .

Estimador ponderado de probabilidad inversa (IPWE)

El estimador de ponderación de probabilidad inversa se puede utilizar para demostrar la causalidad cuando el investigador no puede realizar un experimento controlado pero ha observado datos para modelar. Debido a que se supone que el tratamiento no se asigna al azar, el objetivo es estimar el resultado contrafactual o potencial si todos los sujetos de la población recibieran uno de los tratamientos.

Suponga que los datos observados son ${\ Displaystyle \ {{\ bigl (} X_ {i}, A_ {i}, Y_ {i} {\ bigr)} \} _ {i = 1} ^ {n}}$ dibujado iid ^{[ aclaración necesaria ]} (independiente e idénticamente distribuido) de la distribución desconocida P, donde

${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ covariables
${\ Displaystyle A \ in \ {0,1 \}}$ son los dos posibles tratamientos.
${\ Displaystyle Y \ in \ mathbb {R}}$ respuesta
No asumimos que el tratamiento se asigna al azar.

El objetivo es estimar el resultado potencial, ${\ Displaystyle Y ^ {*} {\ bigl (} a {\ bigr)}}$ , eso se observaría si al sujeto se le asignara tratamiento ${\ Displaystyle a}$ . Luego compare el resultado medio si a todos los pacientes de la población se les asignó uno de los tratamientos: ${\ Displaystyle \ mu _ {a} = \ mathbb {E} Y ^ {*} (a)}$ . Queremos estimar ${\ Displaystyle \ mu _ {a}}$ usando datos observados ${\ Displaystyle \ {{\ bigl (} X_ {i}, A_ {i}, Y_ {i} {\ bigr)} \} _ {i = 1} ^ {n}}$ .

Fórmula de estimador

${\ Displaystyle {\ hat {\ mu}} _ {a, n} ^ {IPWE} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} Y_ {i} {\ frac {\ mathbf {1} _ {A_ {i} = a}} {{\ hat {p}} _ {n} (A_ {i} | X_ {i})}}}$

Construyendo el IPWE

${\ Displaystyle \ mu _ {a} = \ mathbb {E} {\ frac {\ mathbf {1} _ {A = a} Y} {p (A | X)}}}$ dónde ${\ Displaystyle p (a | x) = {\ frac {P (A = a, X = x)} {P (X = x)}}}$
construir ${\ Displaystyle {\ hat {p}} _ {n} (a | x)}$ o ${\ Displaystyle p (a | x)}$ utilizando cualquier modelo de propensión (a menudo un modelo de regresión logística)
${\ Displaystyle {\ hat {\ mu}} _ {a, n} ^ {IPWE} = {\ frac {\ Sigma _ {i = 1} ^ {n} Y_ {i} 1_ {A_ {i} = a }} {n {\ hat {p}} _ {n} (A_ {i} | X_ {i})}}}$

Con la media de cada grupo de tratamiento calculada, se puede utilizar una prueba t estadística o una prueba ANOVA para juzgar la diferencia entre las medias de los grupos y determinar la significación estadística del efecto del tratamiento.

Supuestos

Consistencia: ${\ Displaystyle Y = Y ^ {*} (A)}$
Sin factores de confusión no medidos: ${\ Displaystyle \ {Y ^ {*} (0), Y ^ {*} (1) \} \ perp A | X}$
- La asignación del tratamiento se basa únicamente en datos de covariables e independiente de los resultados potenciales.
Positividad: ${\ Displaystyle P (A = a | X = x)> 0}$ para todos ${\ Displaystyle a}$ y ${\ Displaystyle x}$

Limitaciones

El Estimador ponderado de probabilidad inversa (IPWE) puede ser inestable si las propensiones estimadas son pequeñas. Si la probabilidad de una asignación de tratamiento es pequeña, entonces el modelo de regresión logística puede volverse inestable alrededor de las colas, lo que hace que el IPWE también sea menos estable.

Estimador ponderado de probabilidad inversa aumentada (AIPWE)

Un estimador alternativo es el estimador ponderado de probabilidad inversa aumentada (AIPWE) que combina las propiedades del estimador basado en regresión y el estimador ponderado de probabilidad inversa. Por lo tanto, es un método "doblemente robusto" en el sentido de que solo requiere que se especifique correctamente el modelo de propensión o de resultado, pero no ambos. Este método aumenta el IPWE para reducir la variabilidad y mejorar la eficiencia de la estimación. Este modelo tiene los mismos supuestos que el Estimador ponderado de probabilidad inversa (IPWE). ^[5]

Fórmula de estimador

${\ Displaystyle {\ hat {\ mu}} _ {a, n} ^ {AIPWE} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ Biggl (} { \ frac {Y_ {i} 1_ {A_ {i} = a}} {{\ hat {p}} _ {n} (A_ {i} | X_ {i})}} - {\ frac {1_ {A_ {i} = a} - {\ hat {p}} _ {n} (A_ {i} | X_ {i})} {{\ hat {p}} _ {n} (A_ {i} | X_ { i})}} {\ hat {Q}} _ {n} (X_ {i}, a) {\ Biggr)} = {\ frac {1} {n}} \ sum _ {i = 1} ^ { n} {\ Biggl (} {\ hat {Q}} _ {n} (X_ {i}, a) {\ Biggr)} + {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ frac {1_ {A_ {i} = a}} {{\ hat {p}} _ {n} (A_ {i} | X_ {i})}} {\ Biggl (} Y_ { i} - {\ hat {Q}} _ {n} (X_ {i}, a) {\ Biggr)}}$

Con las siguientes notaciones:

${\ Displaystyle 1_ {A_ {i} = a}}$ es una función indicadora si el sujeto i es parte del grupo de tratamiento a (o no).
Construir estimador de regresión ${\ Displaystyle {\ hat {Q}} _ {n} (x, a)}$ para predecir el resultado ${\ Displaystyle Y}$ basado en covariables ${\ Displaystyle X}$ y tratamiento ${\ Displaystyle A}$ , para algún tema i. Por ejemplo, usando regresión de mínimos cuadrados ordinarios.
Construir estimación de propensión (probabilidad) ${\ Displaystyle {\ hat {p}} _ {n} (A_ {i} | X_ {i})}$ . Por ejemplo, usando regresión logística .
Combinar en AIPWE para obtener ${\ displaystyle {\ hat {\ mu}} _ {a, n} ^ {AIPWE}}$

Interpretación y "doble robustez"

La reordenación posterior de la fórmula ayuda a revelar la idea subyacente: nuestro estimador se basa en el resultado promedio predicho utilizando el modelo (es decir: ${\ Displaystyle {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ Biggl (} {\ hat {Q}} _ {n} (X_ {i}, a) { \ Biggr)}}$ ). Sin embargo, si el modelo está sesgado, los residuos del modelo no estarán (en el grupo de tratamiento completo a) alrededor de 0. Podemos corregir este sesgo potencial agregando el término adicional de los residuos promedio del modelo (Q) de el verdadero valor del resultado (Y) (es decir: ${\ Displaystyle {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ frac {1_ {A_ {i} = a}} {{\ hat {p}} _ {n } (A_ {i} | X_ {i})}} {\ Biggl (} Y_ {i} - {\ hat {Q}} _ {n} (X_ {i}, a) {\ Biggr)}}$ ). Debido a que tenemos valores perdidos de Y, damos ponderaciones para inflar la importancia relativa de cada residuo (estas ponderaciones se basan en la propensión inversa, también conocida como probabilidad, de ver las observaciones de cada sujeto) (ver página 10 en ^[6] ).

El beneficio "doblemente robusto" de un estimador de este tipo proviene del hecho de que es suficiente para que uno de los dos modelos se especifique correctamente, para que el estimador sea insesgado (ya sea ${\ Displaystyle {\ hat {Q}} _ {n} (X_ {i}, a)}$ o ${\ Displaystyle {\ hat {p}} _ {n} (A_ {i} | X_ {i})}$ , o ambos). Esto se debe a que si el modelo de resultado está bien especificado, sus residuos estarán alrededor de 0 (independientemente de los pesos que obtendrá cada residuo). Mientras que si el modelo está sesgado, pero el modelo de ponderación está bien especificado, entonces el sesgo será bien estimado (y corregido) por los residuos promedio ponderados. ^[6]^[7]^[8]

El sesgo de los estimadores doblemente robustos se denomina sesgo de segundo orden y depende del producto de la diferencia ${\ Displaystyle {\ frac {1} {{\ hat {p}} _ {n} (A_ {i} | X_ {i})}} - {\ frac {1} {{p} _ {n} ( A_ {i} | X_ {i})}}}$ y la diferencia ${\ Displaystyle {\ hat {Q}} _ {n} (X_ {i}, a) -Q_ {n} (X_ {i}, a)}$ . Esta propiedad nos permite, cuando tenemos un tamaño de muestra "suficientemente grande", reducir el sesgo general de los estimadores doblemente robustos mediante el uso de estimadores de aprendizaje automático (en lugar de modelos paramétricos). ^[9]

Ver también

Emparejamiento de puntaje de propensión

Referencias

^ Petirrojos, JM; Rotnitzky, A; Zhao, LP (1994). "Estimación de coeficientes de regresión cuando no siempre se observan algunos regresores". Revista de la Asociación Estadounidense de Estadística . 89 (427): 846–866. doi : 10.1080 / 01621459.1994.10476818 .
^ Breslow, NE; Lumley, T; et al. (2009). "Utilización de la cohorte completa en el análisis de datos de cohortes de casos" . Soy J Epidemiol . 169 (11): 1398–1405. doi : 10.1093 / aje / kwp055 . PMC 2768499 . PMID 19357328 .
^ Horvitz, DG; Thompson, DJ (1952). "Una generalización del muestreo sin reemplazo de un universo finito". Revista de la Asociación Estadounidense de Estadística . 47 (260): 663–685. doi : 10.1080 / 01621459.1952.10483446 .
^ Hernan, MA; Robins, JM (2006). "Estimación de efectos causales a partir de datos epidemiológicos" . J Epi Comm . 60 (7): 578–596. CiteSeerX 10.1.1.157.9366 . doi : 10.1136 / jech.2004.029496 . PMC 2652882 . PMID 16790829 .
^ Cao, Weihua; Tsiatis, Anastasios A .; Davidian, Marie (2009). "Mejora de la eficiencia y robustez del estimador doblemente robusto para una media poblacional con datos incompletos" . Biometrika . 96 (3): 723–734. doi : 10.1093 / biomet / asp033 . ISSN 0006-3444 . PMC 2798744 . PMID 20161511 .
^ a b Kang, Joseph DY y Joseph L. Schafer. "Desmitificar la doble robustez: una comparación de estrategias alternativas para estimar la media de una población a partir de datos incompletos". Ciencia estadística 22.4 (2007): 523-539. enlace para el papel
^ Kim, Jae Kwang y David Haziza. "Inferencia doblemente robusta con datos faltantes en el muestreo de encuestas". Statistica Sinica 24.1 (2014): 375-394. enlace al papel
^ Seaman, Shaun R. y Stijn Vansteelandt. "Introducción a los métodos de doble robustez para datos incompletos". Ciencia estadística: una revista de revisión del Instituto de Estadística Matemática 33.2 (2018): 184. enlace al artículo
^ Hernán, Miguel A. y James M. Robins. "Inferencia causal". (2010): 2. enlace al libro - página 179

[refname2-1] Petirrojos, JM; Rotnitzky, A; Zhao, LP (1994). "Estimación de coeficientes de regresión cuando no siempre se observan algunos regresores". Revista de la Asociación Estadounidense de Estadística . 89 (427): 846–866. doi : 10.1080 / 01621459.1994.10476818 .

[refname3-2] Breslow, NE; Lumley, T; et al. (2009). "Utilización de la cohorte completa en el análisis de datos de cohortes de casos" . Soy J Epidemiol . 169 (11): 1398–1405. doi : 10.1093 / aje / kwp055 . PMC 2768499 . PMID 19357328 .

[3] Horvitz, DG; Thompson, DJ (1952). "Una generalización del muestreo sin reemplazo de un universo finito". Revista de la Asociación Estadounidense de Estadística . 47 (260): 663–685. doi : 10.1080 / 01621459.1952.10483446 .

[refname1-4] Hernan, MA; Robins, JM (2006). "Estimación de efectos causales a partir de datos epidemiológicos" . J Epi Comm . 60 (7): 578–596. CiteSeerX 10.1.1.157.9366 . doi : 10.1136 / jech.2004.029496 . PMC 2652882 . PMID 16790829 .

[5] Cao, Weihua; Tsiatis, Anastasios A .; Davidian, Marie (2009). "Mejora de la eficiencia y robustez del estimador doblemente robusto para una media poblacional con datos incompletos" . Biometrika . 96 (3): 723–734. doi : 10.1093 / biomet / asp033 . ISSN 0006-3444 . PMC 2798744 . PMID 20161511 .

[kang2007-6] Kang, Joseph DY y Joseph L. Schafer. "Desmitificar la doble robustez: una comparación de estrategias alternativas para estimar la media de una población a partir de datos incompletos". Ciencia estadística 22.4 (2007): 523-539. enlace para el papel

[7] Kim, Jae Kwang y David Haziza. "Inferencia doblemente robusta con datos faltantes en el muestreo de encuestas". Statistica Sinica 24.1 (2014): 375-394. enlace al papel

[8] Seaman, Shaun R. y Stijn Vansteelandt. "Introducción a los métodos de doble robustez para datos incompletos". Ciencia estadística: una revista de revisión del Instituto de Estadística Matemática 33.2 (2018): 184. enlace al artículo

[9] Hernán, Miguel A. y James M. Robins. "Inferencia causal". (2010): 2. enlace al libro - página 179

[1]