¿Cómo optimiza un árbol causal los efectos heterogéneos del tratamiento?

Question

¿Cómo optimiza un árbol causal los efectos heterogéneos del tratamiento?

Preguntado el 4 de Octubre, 2018: Cuando se hizo la pregunta
4912 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo una pregunta muy concreta sobre cómo el árbol causal en el bosque causal/bosque aleatorio generalizado optimiza la heterogeneidad en los efectos del tratamiento.

Esta pregunta procede del Artículo de Athey & Imbens (2016) "Recursive partitioning for heterogeneous causal effects" de. PNAS. Otro trabajo es el de Wager & Athey (2018), "Estimation and inference of heterogeneous treatment effects using random forests" en JASA ( arxiv.org enlace aquí ). Sé que la respuesta a mi pregunta está en esos documentos, pero, por desgracia, no puedo analizar algunas de las ecuaciones para extraerla. Sé que entiendo bien un algoritmo cuando puedo expresarlo con palabras, así que me ha estado molestando no poder hacerlo aquí.

A mi entender, un árbol causal honesto se construye generalmente por:

Dado un conjunto de datos con un resultado $Y$ covariables $X$ y una condición aleatoria $W$ que toma el valor 0 para el control y 1 para el tratamiento:

Dividir los datos en submuestras $I$ y submuestra $J$
Entrenar un árbol de decisión en la submuestra $I$ predicción $Y$ de $X$ con el requisito de que cada nodo terminal tenga al menos $k$ observaciones de cada condición en la submuestra $J$
Aplicar el árbol de decisión construido sobre la submuestra $I$ para submuestrear $J$
En cada nodo terminal, obtener la media de las predicciones para el $W$ = 1 casos de la submuestra $J$ y restar la media de las predicciones para el $W$ = 0 casos de la submuestra $J$ la diferencia resultante es el efecto estimado del tratamiento

Todos los casos futuros fuera de la muestra (como los utilizados después de implantar el modelo) se dejarán caer en el árbol y se les asignará el efecto del tratamiento previsto para el nodo en el que terminen.

Esto se denomina "honesto", porque el entrenamiento real y la estimación se realizan con datos completamente distintos. Athey y sus colegas tienen una buena teoría asintótica que muestra que se pueden derivar estimaciones de varianza para estos efectos de tratamiento, que es parte de la motivación para hacerlos "honestos".

A continuación, se aplica a un bosque aleatorio causal mediante bagging o bootstrapping.

Ahora bien, Athey & Imbens (2016) señalan que este procedimiento utiliza un criterio de error cuadrático medio modificado para la división, que recompensa "una partición por encontrar una fuerte heterogeneidad en los efectos del tratamiento y penaliza una partición que crea varianza en las estimaciones de las hojas" (p. 7357).

Mi pregunta es: ¿Puede explicar cómo es esto, utilizando palabras?

En las dos secciones anteriores a esta cita, Modificación del CART convencional en función de los efectos del tratamiento y Modificar el planteamiento honesto Los autores utilizan el marco del modelo causal/resultados potenciales de Rubin para derivar una estimación del efecto del tratamiento.

Señalan que no intentamos predecir $Y$ -como en la mayoría de los casos de aprendizaje automático-, pero la diferencia entre la expectativa de $Y$ en dos condiciones, dadas algunas covariables $X$ . De acuerdo con el marco de resultados potenciales, esto es "inviable": Sólo podemos medir el resultado de alguien en una de las dos condiciones.

En una serie de ecuaciones, muestran cómo podemos utilizar un criterio de división modificado que predice el efecto del tratamiento. Dicen: "...el análogo del efecto del tratamiento no es factible, pero podemos utilizar una estimación insesgada del mismo, que conduce a $-\hat{MSE}_{\tau}(S^{tr, cv}, S^{tr, tr}, \Pi)$ " (p. 7357). Como alguien con formación en ciencias sociales y estadística aplicada, no consigo conectar los puntos entre lo que han establecido y cómo podemos estimarlo a partir de los datos. ¿Cómo calcula alguien $-\hat{MSE}_{\tau}(S^{tr, cv}, S^{tr, tr}, \Pi)$ a partir de los datos observados? ¿Cuál es su ecuación?

Cualquier ayuda para explicar cómo este criterio maximiza la varianza de los efectos del tratamiento (es decir, la heterogeneidad de los efectos causales) O cualquier corrección sobre mi descripción de cómo construir un árbol causal que pueda estar llevando a mi confusión sería muy apreciada. En este momento, no veo cómo este enfoque difiere de otros algoritmos que sólo entrenan en $Y$ y estimar los CATE con $E(Y | T = 1, X) - E(Y | T = 0, X)$ .

Preguntado el 4 de Octubre, 2018 por Mark White

Answer 1

1 Respuestas

Answer 2

16voto

usεr11852 Puntos 5514

Su interpretación es correcta, la idea central del artículo es que la división del muestreo es esencial para el trabajo empírico y que nos permite tener una estimación insesgada del efecto del tratamiento.

Para responder a su pregunta principal: Los criterios de elección son $\hat{EMSE}_\tau$ y $\hat{EMSE}_\mu$ . Ambos penalizan la varianza y fomentan la heterogeneidad. Para empezar, me centraré en la estimación del MSE esperado del efecto del tratamiento $\hat{EMSE}_\tau$ . Para un árbol/partición determinado $\Pi$ cuando se utiliza una muestra de entrenamiento $\mathcal{S}^{tr}$ y una muestra de estimación de tamaño $N^{est}$ el estimador del "criterio inviable". $-\hat{EMSE}_\tau ( \mathcal{S}^{tr},N^{est},\Pi)$ es, por definición, la varianza del efecto del tratamiento estimado a través de las hojas (el término denotado como: $\frac{1}{N^{tr}} \Sigma_{i \in \mathcal{S}^{tr}} \hat{\tau}^2 (X_i; \mathcal{S}^{tr}, \Pi)$ ) menos la incertidumbre sobre los efectos de estos tratamientos (los términos de los estimadores de la varianza $S^2_{S^{tr}_{treat}}$ y $S^2_{S^{tr}_{control}}$ que también son inversamente proporcionales al tamaño de las muestras $N^{tr}$ y $N^{est}$ ). Por lo tanto, la bondad del ajuste no es un MSE "vainilla", sino más bien un MSE penalizado por la varianza. Cuanto mayor sea la heterogeneidad de nuestra estimación, mejor será nuestro $EMSE_\tau$ y, del mismo modo, cuanto mayor sea la varianza de nuestras estimaciones, peor será nuestra $EMSE_\tau$ . Obsérvese también que el efecto causal medio estimado $\hat{\tau}(x; \mathcal{S}, \Pi)$ es igual a $\hat{\mu}(1,x; \mathcal{S}, \Pi ) - \hat{\mu}(0,x; \mathcal{S}, \Pi )$ es decir, recompensaremos la heterogeneidad indirectamente durante la estimación de $\hat{\mu}$ también.

En términos más generales, la idea básica de la división de la muestra es que obtenemos nuestras estimaciones para un árbol utilizando una muestra distinta de la que se utilizó para construir el árbol (es decir, una partición del espacio muestral existente ). $\mathcal{S}$ ), por lo que podemos centrarnos sobre todo en la varianza y no en el equilibrio entre sesgo y varianza. Esto es lo esencial de la sección Separación honesta donde podemos ver que los criterios de elección penalizarán el tamaño pequeño de las hojas exactamente porque estarán asociados a una varianza elevada $S^2$ de los efectos estimados.

En conclusión, la tarea de hacer coherente una RF se ataca desde dos flancos:

La muestra se divide en conjuntos de entrenamiento y de evaluación.
El criterio de división es tal que las hojas del árbol sean "grandes".

Como se menciona en el documento, esto inducirá a un golpe en términos de MSE de los efectos del tratamiento, pero que vendrá al aumento de la cobertura nominal de su intervalo de confianza. Creo que la cita de la Prof. Athey de su presentación de 2016 sobre Resolución de ecuaciones de estimación heterogéneas mediante algoritmos basados en bosques (21:25 a 22:02) capta bien la esencia de esta obra : " ... la gente ha dicho, si vas a hacer pruebas de hipótesis sobre los efectos del tratamiento dentro de las hojas, ¿no debería tu función objetivo anticipar de alguna manera que querías construir un intervalo de confianza. (...) Así que, básicamente, en lugar de hacer vecinos más cercanos como este "(utilizando un $k$ -NN estimador), " vamos a tener vecindarios basados en árboles que básicamente rebanan el espacio de covariables de acuerdo a donde vemos heterogeneidad en la muestra de construcción de árboles. Y luego, en la muestra de estimación, vamos a volver y estimar los efectos del tratamiento en esa partición. "

Respondido el 13 de Octubre, 2018 por usεr11852 (5514 Puntos )

¿Cómo optimiza un árbol causal los efectos heterogéneos del tratamiento?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo optimiza un árbol causal los efectos heterogéneos del tratamiento?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: