1 votos

¿Cuáles son los principales artículos que analizan la inferencia causal desde la perspectiva de los datos ausentes?

El Modelo Causal de Rubin (MCR), también llamado Marco de Resultados Potenciales, asume que cualquier unidad de una población tiene resultados potenciales bajo cualquier tratamiento relevante en un estudio. Por ejemplo $Y_1$ denota el resultado bajo tratamiento, $Y_0$ el resultado bajo control. En un experimento no aleatorio, el hecho de que en la expectativa la cantidad

$$E(Y_1|T=1) - E(Y_0|T=0)$$

se observa en la expectativa como la diferencia media entre las unidades tratadas y las no tratadas, donde $T$ denota la asignación del tratamiento, provoca un sesgo de selección contra el efecto medio del tratamiento

$$E(Y_1-Y_0).$$

El problema principal es que parte de los datos necesarios para la inferencia causal no se observan, en particular $E(Y_1|T=0)$ y $E(Y_0|T=1)$ . Existen varios enfoques para la inferencia sobre este efecto del tratamiento, entre los que destacan la ponderación, la estratificación o alguna otra forma de emparejamiento en la puntuación de propensión.

Un enfoque alternativo trata de estimar las distribuciones de resultados potenciales no observados $P(Y_1,Y_0)$ directamente mediante técnicas bayesianas, como la imputación múltiple. ¿Cuáles son los principales trabajos que intentan la inferencia causal resolviendo el problema de los datos perdidos mediante imputación múltiple u otras técnicas bayesianas?

2voto

metaleap Puntos 121

$$E(Y_1−Y_0)$$ es la cantidad que queremos conocer. Los contrafactuales per se no se observan, por lo que tenemos que hacer más suposiciones para escribir esta cantidad contrafactual en términos de las variables observadas $Y$ y $T$ . Una forma es asumir que $$Y_1, Y_0 \perp T,$$ por ejemplo, porque el tratamiento es aleatorio. Si además se asume que la variable observada Y obedece a $Y = Y_1\cdot T + Y_0 \cdot (1 - T)$ podemos escribir $$E(Y_1−Y_0) = E(Y_1|T = 1) − E(Y_0|T = 0) = E(Y|T = 1) - E(Y|T = 0).$$ La última expresión puede estimarse de múltiples maneras, ya que podemos observar realmente $Y$ y $T$ . Así que el paso de "inferencia causal" en sí mismo consiste sólo en justificar y utilizar supuestos contrafactuales, y no está directamente relacionado con ningún procedimiento de estimación como los que usted menciona. Judea Pearl expone este punto con mucha fuerza (por ejemplo, en "Causality", 2009, Cambridge University Press).

Para mí, la imputación múltiple de la distribución del resultado potencial no tiene sentido. Tampoco conozco ningún trabajo que lo intente. Si uno tiene una muestra en $Y$ y $T$ En el caso de los datos de la población, se pueden hacer inferencias sobre sus distribuciones poblacionales y, si se hace la suposición correcta (como, por ejemplo, en el caso anterior), estas cantidades también dicen algo sobre los efectos causales. Un tema totalmente diferente es cómo tratar los valores perdidos en $Y$ y $T$ (no $Y_t$ ), y hasta qué punto esto es un problema para la inferencia causal. Para ello, véase [1] para un tratamiento suave e intuitivo, y [2] para un tratamiento muy completo.

[1] Pearl, Judea. "Modelos lineales: Un "microscopio" útil para el análisis causal". Journal of Causal Inference 1.1 (2013): 155-170.

[2] Shpitser, Ilya, Karthika Mohan y Judea Pearl. Missing data as a causal and probabilistic problem. No. TR-R-454. CALIFORNIA UNIV LOS ANGELES DEPT OF COMPUTER SCIENCE, 2015.

1voto

Noah Puntos 85

Hay un gran artículo de Cham & West sobre este asunto, pero sobre todo en el contexto de las puntuaciones de propensión; puede encontrar algunas buenas referencias en ese artículo para seguir su búsqueda.

Cham, H., y West, S. G. (2016). Análisis de puntuación de propensión con datos perdidos. Psychological Methods. http://doi.org/10.1037/met0000076

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X