Derrame (experimento)

En los experimentos , un desbordamiento es un efecto indirecto en un sujeto no tratado directamente por el experimento. Estos efectos son útiles para el análisis de políticas pero complican el análisis estadístico de los experimentos.

El análisis de los efectos secundarios implica relajar el supuesto de no interferencia, o SUTVA (Supuesto de valor de tratamiento de unidad estable). Esta suposición requiere que la revelación del sujeto i de sus posibles resultados dependa sólo del estado de tratamiento del propio sujeto i , y no se ve afectada por el estado de tratamiento de otro sujeto j . En entornos ordinarios donde el investigador busca estimar el efecto promedio del tratamiento ( ${\ displaystyle {\ widehat {ATE}}}$ ), la violación del supuesto de no interferencia significa que los estimadores tradicionales para el ATE, como la diferencia de medias, pueden estar sesgados . Sin embargo, hay muchos casos del mundo real en los que la revelación de resultados potenciales de una unidad depende de la asignación de tratamiento de otra unidad, y analizar estos efectos puede ser tan importante como analizar el efecto directo del tratamiento.

Una solución a este problema es redefinir la estimación causal de interés redefiniendo los resultados potenciales de un sujeto en términos de su propio estado de tratamiento y el estado de tratamiento de los sujetos relacionados. Luego, el investigador puede analizar varios estimados de interés por separado. Un supuesto importante aquí es que este proceso captura todos los patrones de derrames , y que no quedan derrames no modelados (por ejemplo, los derrames ocurren dentro de un hogar de dos personas pero no más allá).

Una vez que se redefinen los resultados potenciales, el resto del análisis estadístico implica modelar las probabilidades de estar expuesto al tratamiento dado algún programa de asignación de tratamiento, y usar la ponderación de probabilidad inversa (IPW) para producir estimaciones insesgadas (o asintóticamente insesgadas) del estimado de interesar.

Ejemplos de efectos secundarios

Los efectos secundarios pueden ocurrir de diferentes formas. Las aplicaciones comunes incluyen el análisis de los derrames de redes sociales y los derrames geográficos. Los ejemplos incluyen lo siguiente:

Comunicación : una intervención que transmite información sobre una tecnología o producto puede influir en las decisiones de adopción de otros en su red si se difunde más allá del usuario inicial. ^[1]
Competencia : la asistencia para la búsqueda de empleo para jóvenes que buscan empleo puede influir en las perspectivas del mercado laboral de las personas que no recibieron la formación pero que compiten por los mismos puestos de trabajo. ^[2]
Contagio: Recibir medicamentos antiparasitarios puede disminuir la probabilidad de que otras personas contraigan la enfermedad. ^[3]
Disuasión : la información sobre las auditorías gubernamentales en municipios específicos puede extenderse a los municipios cercanos. ^[4]
Desplazamiento : una intervención policial en un punto de acceso que aumente la presencia policial en una calle determinada puede llevar al desplazamiento del crimen a calles cercanas no tratadas. ^[5]
Reasignación de recursos : una intervención policial de hotspot que aumenta la presencia policial en una calle determinada puede disminuir la presencia policial en las calles cercanas.
Comparación social : un programa que aleatoriza a las personas para que reciban un vale para mudarse a un nuevo vecindario puede influir adicionalmente en las creencias del grupo de control sobre las condiciones de su vivienda. ^[6]

En tales ejemplos, el tratamiento en un ensayo de control aleatorio puede tener un efecto directo en aquellos que reciben la intervención y también un efecto indirecto en aquellos que no fueron tratados directamente.

Problemas estadísticos

La estimación de los efectos secundarios en los experimentos presenta tres cuestiones estadísticas que los investigadores deben tener en cuenta.

Relajando la suposición de no interferencia

Una suposición clave para la inferencia no sesgada es la suposición de no interferencia, que postula que los resultados potenciales de un individuo solo se revelan por su propia asignación de tratamiento y no por la asignación de tratamiento de otros. ^[7] Esta suposición también se ha llamado la Respuesta de Tratamiento Individualista ^[8] o la Supuesto de Valor de Tratamiento de Unidad Estable . La no interferencia se viola cuando los sujetos pueden comunicarse entre sí sobre sus tratamientos, decisiones o experiencias, lo que influye en los resultados potenciales de los demás. Si el supuesto de no interferencia no se cumple, las unidades ya no tienen solo dos resultados potenciales (tratado y control), sino una variedad de otros resultados potenciales que dependen de las asignaciones de tratamiento de otras unidades, ^{[9] lo} que complica la estimación del promedio efecto del tratamiento .

La estimación de los efectos secundarios requiere relajar el supuesto de no interferencia. Esto se debe a que los resultados de una unidad dependen no solo de su asignación de tratamiento sino también de la asignación de tratamiento de sus vecinos. El investigador debe plantear un conjunto de posibles resultados que limiten el tipo de interferencia. Como ejemplo, considere un experimento que envía información política a estudiantes de pregrado para aumentar su participación política. Si la población de estudio consiste en todos los estudiantes que viven con un compañero de habitación en un dormitorio universitario, uno puede imaginar cuatro conjuntos de resultados potenciales, dependiendo de si el estudiante o su pareja recibieron la información (suponga que no hay derrames fuera de cada habitación de dos personas):

Y _{0,0 se} refiere a los resultados potenciales de un individuo cuando no recibe tratamiento (0) y tampoco su compañero de habitación (0).
Y _{0,1 se} refiere al resultado potencial de un individuo cuando no recibe tratamiento (0) pero su compañero de habitación sí (1).
Y _{1,0 se} refiere al resultado potencial de un individuo cuando es tratado (1) pero su compañero de cuarto no fue tratado (0).
Y _{1,1 se} refiere al resultado potencial de un individuo cuando es tratado (1) y su compañero de habitación fue tratado (1).

Ahora, los resultados de una persona están influenciados por si recibió el tratamiento y si su compañero de habitación lo recibió. Podemos estimar un tipo de efecto de desbordamiento al observar cómo cambian los resultados de uno dependiendo de si su compañero de habitación recibió el tratamiento o no, dado que el individuo no recibió el tratamiento directamente. Esto sería capturado por la diferencia Y _0,1 - Y _0,0 . De manera similar, podemos medir cómo cambian los resultados según el estado de tratamiento de su compañero de habitación, cuando se trata al individuo. Esto equivale a tomar la diferencia Y _1,1 - Y _1,0 .

Si bien los investigadores suelen abrazar los experimentos porque requieren supuestos menos exigentes, los efectos secundarios pueden ser "ilimitados en extensión e imposibles de especificar en forma". ^[10] El investigador debe hacer suposiciones específicas sobre qué tipos de efectos secundarios son operativos. Se puede relajar el supuesto de no interferencia de varias formas, dependiendo de cómo se cree que se producen los efectos de contagio en un entorno determinado. Una forma de modelar los efectos de desbordamiento es un indicador binario de si también se trató a un vecino inmediato, como en el ejemplo anterior. También se pueden postular efectos de desbordamiento que dependen del número de vecinos inmediatos que también fueron tratados, también conocidos como efectos de nivel k. ^[11]

Mapeos de exposición

Conversión de redes en una matriz de adyacencia

El siguiente paso después de redefinir el estimador causal de interés es caracterizar la probabilidad de exposición indirecta para cada sujeto en el análisis, dado algún vector de asignación de tratamiento. Aronow y Samii (2017) ^[12] presentan un método para obtener una matriz de probabilidades de exposición para cada unidad en el análisis.

Primero, defina una matriz diagonal con un vector de probabilidades de asignación de tratamiento ${\ Displaystyle \ mathbf {P} = \ operatorname {diag} \ left (p _ {\ mathbf {z} _ {1}}, p _ {\ mathbf {z} _ {2}}, \ dots, p _ {\ mathbf {z} _ {| \ Omega |}} \ derecha).}$

En segundo lugar, defina una matriz de indicadores ${\ Displaystyle \ mathbf {I}}$ de si la unidad está expuesta a derrames o no. Esto se hace usando una matriz de adyacencia como se muestra a la derecha, donde la información sobre una red se puede transformar en una matriz de indicadores. Esta matriz de indicadores resultante contendrá valores de ${\ Displaystyle d_ {k}}$ , los valores obtenidos de una variable binaria aleatoria ${\ Displaystyle D_ {i} = f \ left (\ mathbf {Z}, \ theta _ {i} \ right)}$ , indicando si esa unidad ha estado expuesta a un derrame o no.

En tercer lugar, obtenga el producto sándwich. ${\ Displaystyle \ mathbf {I} _ {k} \ mathbf {P} \ mathbf {I} _ {k} ^ {\ prime}}$ , una matriz N x N que contiene dos elementos: la probabilidad individual de exposición ${\ Displaystyle \ pi _ {i} \ left (d_ {k} \ right)}$ en la diagonal, y las probabilidades de exposición conjunta ${\ Displaystyle \ pi _ {ij} \ left (d_ {k} \ right)}$ en las diagonales apagadas:

{\ Displaystyle \ mathbf {I} _ {k} \ mathbf {P} \ mathbf {I} _ {k} ^ {\ prime} = \ left [{\ begin {array} {cccc} {\ pi _ {1 } \ left (d_ {k} \ right)} & {\ pi _ {12} \ left (d_ {k} \ right)} & {\ dots} & {\ pi _ {1N} \ left (d_ {k } \ right)} \\ {\ pi _ {21} \ left (d_ {k} \ right)} & {\ pi _ {2} \ left (d_ {k} \ right)} & {\ cdots} & {\ pi _ {2N} \ left (d_ {k} \ right)} \\ {\ vdots} & {\ vdots} & {\ ddots} & {} \\ {\ pi _ {N1} \ left (d_ {k} \ right)} & {\ pi _ {N2} \ left (d_ {k} \ right)} & {} & {\ pi _ {N} \ left (d_ {k} \ right)} \ end {array}} \ right]}

De manera similar, la probabilidad conjunta de exposición de i esté en condición de exposición

{\ Displaystyle d_ {k}}

y j estar en una condición de exposición diferente

{\ Displaystyle d_ {l}}

se puede obtener calculando

{\ Displaystyle \ mathbf {I} _ {k} \ mathbf {P} \ mathbf {I} _ {l} ^ {\ prime}}

:

{\ Displaystyle \ mathbf {I} _ {k} \ mathbf {P} \ mathbf {I} _ {l} ^ {\ prime} = \ left [{\ begin {array} {cccc} {0} & {\ pi _ {12} \ left (d_ {k}, d_ {l} \ right)} & {\ dots} & {\ pi _ {1N} \ left (d_ {k}, d_ {l} \ right)} \\ {\ pi _ {21} \ left (d_ {k}, d_ {l} \ right)} & {0} & {\ ldots} & {\ pi _ {2N} \ left (d_ {k}, d_ {l} \ right)} \\ {\ vdots} & {\ vdots} & {\ ddots} & {} \\ {\ pi _ {N1} \ left (d_ {k}, d_ {l} \ right )} & {\ pi _ {N2} \ left (d_ {k}, d_ {l} \ right)} & {0} \ end {array}} \ right]}

Observe que las diagonales en la segunda matriz son 0 porque un sujeto no puede estar expuesto simultáneamente a dos condiciones de exposición diferentes a la vez, de la misma manera que un sujeto no puede revelar dos resultados potenciales diferentes a la vez.

Las probabilidades de exposición obtenidas ${\ Displaystyle \ pi}$ luego se puede utilizar para la ponderación de probabilidad inversa (IPW, que se describe a continuación), en un estimador como el Estimador de Horvitz-Thompson .

Una advertencia importante es que este procedimiento excluye todas las unidades cuya probabilidad de exposición es cero (por ejemplo, una unidad que no está conectada a ninguna otra unidad), ya que estos números terminan en el denominador de la regresión IPW.

Necesidad de ponderaciones de probabilidad inversa

Esta figura muestra una red que ilustra la necesidad de ponderaciones de probabilidad inversa. La subfigura A muestra una red de 25 nodos, 6 de los cuales son elegibles para tratamiento. La subfigura B muestra la probabilidad de asignación de desbordamiento de cada unidad dado que se tratan 3 unidades.

La estimación de los efectos de desbordamiento requiere un cuidado adicional: aunque el tratamiento se asigna directamente, el estado de desbordamiento se asigna indirectamente y puede generar probabilidades diferenciales de asignación de desbordamiento para las unidades. Por ejemplo, es más probable que un sujeto con 10 conexiones de amigos esté expuesto indirectamente a un tratamiento en comparación con un sujeto con una sola conexión de amigo. No tener en cuenta las distintas probabilidades de exposición a los efectos indirectos puede sesgar las estimaciones del efecto medio de los efectos indirectos.

La Figura 1 muestra un ejemplo en el que las unidades tienen distintas probabilidades de ser asignadas a la condición de desbordamiento. La subfigura A muestra una red de 25 nodos donde las unidades en verde son elegibles para recibir tratamiento. Los derrames se definen como compartir al menos un borde con una unidad tratada. Por ejemplo, si se trata el nodo 16, los nodos 11, 17 y 21 se clasificarían como unidades de desbordamiento. Suponga que tres de estas seis unidades verdes se seleccionan al azar para ser tratadas, de modo que ${\ Displaystyle {\ binom {6} {3}} = 20}$ son posibles diferentes conjuntos de asignaciones de tratamiento. En este caso, la subfigura B muestra la probabilidad de que cada nodo sea asignado a la condición de desbordamiento. El nodo 3 se asigna a efectos secundarios en el 95% de las aleatorizaciones porque comparte bordes con tres unidades que se tratan. Este nodo solo será un nodo de control en el 5% de las aleatorizaciones: es decir, cuando los tres nodos tratados son 14, 16 y 18. Mientras tanto, el nodo 15 se asigna a la desbordamiento solo el 50% de las veces, si el nodo 14 no es tratado directamente, el nodo 15 no se asignará a efectos secundarios.

Usar ponderaciones de probabilidad inversa

Al analizar experimentos con diferentes probabilidades de asignación, se deben tomar precauciones especiales. Estas diferencias en las probabilidades de asignación pueden neutralizarse mediante regresión ponderada por probabilidad inversa (IPW) , donde cada observación se pondera por la inversa de su probabilidad de ser asignada a la condición de tratamiento observada utilizando el estimador de Horvitz-Thompson . ^[13] Este enfoque aborda el sesgo que podría surgir si los resultados potenciales se relacionaran sistemáticamente con las probabilidades de asignación. La desventaja de este estimador es que puede estar plagado de variabilidad muestral si a algunas observaciones se les asigna una gran cantidad de peso (es decir, una unidad con una baja probabilidad de desbordamiento se asigna al azar a la condición de desbordamiento).

Usar inferencia de aleatorización para probar hipótesis

En algunos entornos, estimar la variabilidad de un efecto de desbordamiento crea una dificultad adicional. Cuando el estudio de investigación tiene una unidad fija de agrupación , como una escuela o un hogar, los investigadores pueden utilizar herramientas tradicionales de ajuste de error estándar , como errores estándar robustos de agrupación, que permiten correlaciones en términos de error dentro de las agrupaciones pero no entre ellas. ^[14] En otros entornos, sin embargo, no hay una unidad fija de agrupación. Para realizar pruebas de hipótesis en estos entornos, se recomienda el uso de inferencias de aleatorización . ^[15] Esta técnica permite generar valores p e intervalos de confianza incluso cuando los derrames no se adhieren a una unidad fija de agrupamiento, pero las unidades cercanas tienden a asignarse a condiciones de derrame similares, como en el caso del agrupamiento difuso .

Ver también

Efecto multiplicador social

Referencias

^ "Difusión de tecnologías en las redes sociales: evidencia de un programa de formación de café en Ruanda" . IGC . Consultado el 11 de diciembre de 2018 .
^ Zamora, Philippe; Rathelot, Roland; Gurgand, Marc; Duflo, Esther; Crépon, Bruno (1 de mayo de 2013). "¿Las políticas del mercado laboral tienen efectos de desplazamiento? Evidencia de un experimento aleatorio agrupado". The Quarterly Journal of Economics . 128 (2): 531–580. doi : 10.1093 / qje / qjt001 . hdl : 1721,1 / 82896 . ISSN 0033-5533 . S2CID 15381050 .
^ "Gusanos: identificación de impactos en la educación y la salud en presencia de externalidades de tratamiento | Edward Miguel, profesor de economía, Universidad de California, Berkeley" . emiguel.econ.berkeley.edu . Consultado el 11 de diciembre de 2018 .
^ Avis, Eric; Ferraz, Claudio; Finan, Frederico (2018). "¿Las auditorías gubernamentales reducen la corrupción? Estimando los impactos de exponer a políticos corruptos" (PDF) . Revista de Economía Política . 126 (5): 1912-1964. doi : 10.1086 / 699209 . hdl : 10419/176135 . S2CID 36161954 .
^ Weisburd, David; Telep, Cody W. (1 de mayo de 2014). "Vigilancia de puntos calientes: lo que sabemos y lo que necesitamos saber". Revista de Justicia Penal Contemporánea . 30 (2): 200–220. doi : 10.1177 / 1043986214525083 . ISSN 1043-9862 . S2CID 145692978 .
^ Sobel, Michael (2006). "¿Qué demuestran los estudios aleatorizados de movilidad habitacional?" . Revista de la Asociación Estadounidense de Estadística . 101: 476 (476): 1398–1407. doi : 10.1198 / 016214506000000636 . S2CID 739283 .
^ "PsycNET" . psycnet.apa.org . Consultado el 11 de diciembre de 2018 .
^ Manski, Charles F. (1 de febrero de 2013). "Identificación de la respuesta al tratamiento con interacciones sociales" (PDF) . The Econometrics Journal . 16 (1): S1 – S23. doi : 10.1111 / j.1368-423X.2012.00368.x . hdl : 10419/64721 . ISSN 1368-4221 . S2CID 1559596 .
^ Rosenbaum, Paul R. (2007). "Interferencia entre unidades en experimentos aleatorios". Revista de la Asociación Estadounidense de Estadística . 102 (477): 191–200. CiteSeerX 10.1.1.571.7817 . doi : 10.1198 / 016214506000001112 . S2CID 38153548 .
^ Rosenbaum, Paul R. (2007). "Interferencia entre unidades en experimentos aleatorios". Revista de la Asociación Estadounidense de Estadística . 102 (477): 191–200. CiteSeerX 10.1.1.571.7817 . doi : 10.1198 / 016214506000001112 . S2CID 38153548 .
^ Kao, Edward; Toulis, Panos (13 de febrero de 2013). "Estimación de los efectos causales de la influencia de los pares" . Conferencia internacional sobre aprendizaje automático : 1489–1497.
^ Aronow, Peter M .; Samii, Cyrus (1 de diciembre de 2017). "Estimación de efectos causales promedio bajo interferencia general, con aplicación a un experimento de red social". The Annals of Applied Statistics . 11 (4): 1912-1947. arXiv : 1305.6156 . doi : 10.1214 / 16-aoas1005 . ISSN 1932-6157 . S2CID 26963450 .
^ Hortvitz, DG; Thompson, DJ (1952). "Una generalización del muestreo sin reemplazo de un universo finito" . Revista de la Asociación Estadounidense de Estadística . 47 (260): 663–685. doi : 10.1080 / 01621459.1952.10483446 . JSTOR 2280784 . S2CID 120274071 .
^ A. Colin Cameron; Douglas L. Miller. "Una guía para profesionales sobre inferencias sólidas de clústeres" (PDF) . Cameron.econ.ucdavis.edu . Consultado el 19 de diciembre de 2018 .
^ "10 cosas que debe saber sobre la inferencia de aleatorización" . Egap.org . Consultado el 11 de diciembre de 2018 .

[1] "Difusión de tecnologías en las redes sociales: evidencia de un programa de formación de café en Ruanda" . IGC . Consultado el 11 de diciembre de 2018 .

[2] Zamora, Philippe; Rathelot, Roland; Gurgand, Marc; Duflo, Esther; Crépon, Bruno (1 de mayo de 2013). "¿Las políticas del mercado laboral tienen efectos de desplazamiento? Evidencia de un experimento aleatorio agrupado". The Quarterly Journal of Economics . 128 (2): 531–580. doi : 10.1093 / qje / qjt001 . hdl : 1721,1 / 82896 . ISSN 0033-5533 . S2CID 15381050 .

[3] "Gusanos: identificación de impactos en la educación y la salud en presencia de externalidades de tratamiento | Edward Miguel, profesor de economía, Universidad de California, Berkeley" . emiguel.econ.berkeley.edu . Consultado el 11 de diciembre de 2018 .

[4] Avis, Eric; Ferraz, Claudio; Finan, Frederico (2018). "¿Las auditorías gubernamentales reducen la corrupción? Estimando los impactos de exponer a políticos corruptos" (PDF) . Revista de Economía Política . 126 (5): 1912-1964. doi : 10.1086 / 699209 . hdl : 10419/176135 . S2CID 36161954 .

[5] Weisburd, David; Telep, Cody W. (1 de mayo de 2014). "Vigilancia de puntos calientes: lo que sabemos y lo que necesitamos saber". Revista de Justicia Penal Contemporánea . 30 (2): 200–220. doi : 10.1177 / 1043986214525083 . ISSN 1043-9862 . S2CID 145692978 .

[6] Sobel, Michael (2006). "¿Qué demuestran los estudios aleatorizados de movilidad habitacional?" . Revista de la Asociación Estadounidense de Estadística . 101: 476 (476): 1398–1407. doi : 10.1198 / 016214506000000636 . S2CID 739283 .

[7] "PsycNET" . psycnet.apa.org . Consultado el 11 de diciembre de 2018 .

[8] Manski, Charles F. (1 de febrero de 2013). "Identificación de la respuesta al tratamiento con interacciones sociales" (PDF) . The Econometrics Journal . 16 (1): S1 – S23. doi : 10.1111 / j.1368-423X.2012.00368.x . hdl : 10419/64721 . ISSN 1368-4221 . S2CID 1559596 .

[9] Rosenbaum, Paul R. (2007). "Interferencia entre unidades en experimentos aleatorios". Revista de la Asociación Estadounidense de Estadística . 102 (477): 191–200. CiteSeerX 10.1.1.571.7817 . doi : 10.1198 / 016214506000001112 . S2CID 38153548 .

[10] Rosenbaum, Paul R. (2007). "Interferencia entre unidades en experimentos aleatorios". Revista de la Asociación Estadounidense de Estadística . 102 (477): 191–200. CiteSeerX 10.1.1.571.7817 . doi : 10.1198 / 016214506000001112 . S2CID 38153548 .

[11] Kao, Edward; Toulis, Panos (13 de febrero de 2013). "Estimación de los efectos causales de la influencia de los pares" . Conferencia internacional sobre aprendizaje automático : 1489–1497.

[12] Aronow, Peter M .; Samii, Cyrus (1 de diciembre de 2017). "Estimación de efectos causales promedio bajo interferencia general, con aplicación a un experimento de red social". The Annals of Applied Statistics . 11 (4): 1912-1947. arXiv : 1305.6156 . doi : 10.1214 / 16-aoas1005 . ISSN 1932-6157 . S2CID 26963450 .

[13] Hortvitz, DG; Thompson, DJ (1952). "Una generalización del muestreo sin reemplazo de un universo finito" . Revista de la Asociación Estadounidense de Estadística . 47 (260): 663–685. doi : 10.1080 / 01621459.1952.10483446 . JSTOR 2280784 . S2CID 120274071 .

[14] A. Colin Cameron; Douglas L. Miller. "Una guía para profesionales sobre inferencias sólidas de clústeres" (PDF) . Cameron.econ.ucdavis.edu . Consultado el 19 de diciembre de 2018 .

[15] "10 cosas que debe saber sobre la inferencia de aleatorización" . Egap.org . Consultado el 11 de diciembre de 2018 .

[1]