Tengo una pregunta muy concreta sobre cómo el árbol causal en el bosque causal/bosque aleatorio generalizado optimiza la heterogeneidad en los efectos del tratamiento.
Esta pregunta procede del Artículo de Athey & Imbens (2016) "Recursive partitioning for heterogeneous causal effects" de. PNAS. Otro trabajo es el de Wager & Athey (2018), "Estimation and inference of heterogeneous treatment effects using random forests" en JASA ( arxiv.org enlace aquí ). Sé que la respuesta a mi pregunta está en esos documentos, pero, por desgracia, no puedo analizar algunas de las ecuaciones para extraerla. Sé que entiendo bien un algoritmo cuando puedo expresarlo con palabras, así que me ha estado molestando no poder hacerlo aquí.
A mi entender, un árbol causal honesto se construye generalmente por:
Dado un conjunto de datos con un resultado Y covariables X y una condición aleatoria W que toma el valor 0 para el control y 1 para el tratamiento:
-
Dividir los datos en submuestras I y submuestra J
-
Entrenar un árbol de decisión en la submuestra I predicción Y de X con el requisito de que cada nodo terminal tenga al menos k observaciones de cada condición en la submuestra J
-
Aplicar el árbol de decisión construido sobre la submuestra I para submuestrear J
-
En cada nodo terminal, obtener la media de las predicciones para el W = 1 casos de la submuestra J y restar la media de las predicciones para el W = 0 casos de la submuestra J la diferencia resultante es el efecto estimado del tratamiento
Todos los casos futuros fuera de la muestra (como los utilizados después de implantar el modelo) se dejarán caer en el árbol y se les asignará el efecto del tratamiento previsto para el nodo en el que terminen.
Esto se denomina "honesto", porque el entrenamiento real y la estimación se realizan con datos completamente distintos. Athey y sus colegas tienen una buena teoría asintótica que muestra que se pueden derivar estimaciones de varianza para estos efectos de tratamiento, que es parte de la motivación para hacerlos "honestos".
A continuación, se aplica a un bosque aleatorio causal mediante bagging o bootstrapping.
Ahora bien, Athey & Imbens (2016) señalan que este procedimiento utiliza un criterio de error cuadrático medio modificado para la división, que recompensa "una partición por encontrar una fuerte heterogeneidad en los efectos del tratamiento y penaliza una partición que crea varianza en las estimaciones de las hojas" (p. 7357).
Mi pregunta es: ¿Puede explicar cómo es esto, utilizando palabras?
En las dos secciones anteriores a esta cita, Modificación del CART convencional en función de los efectos del tratamiento y Modificar el planteamiento honesto Los autores utilizan el marco del modelo causal/resultados potenciales de Rubin para derivar una estimación del efecto del tratamiento.
Señalan que no intentamos predecir Y -como en la mayoría de los casos de aprendizaje automático-, pero la diferencia entre la expectativa de Y en dos condiciones, dadas algunas covariables X . De acuerdo con el marco de resultados potenciales, esto es "inviable": Sólo podemos medir el resultado de alguien en una de las dos condiciones.
En una serie de ecuaciones, muestran cómo podemos utilizar un criterio de división modificado que predice el efecto del tratamiento. Dicen: "...el análogo del efecto del tratamiento no es factible, pero podemos utilizar una estimación insesgada del mismo, que conduce a −^MSEτ(Str,cv,Str,tr,Π) " (p. 7357). Como alguien con formación en ciencias sociales y estadística aplicada, no consigo conectar los puntos entre lo que han establecido y cómo podemos estimarlo a partir de los datos. ¿Cómo calcula alguien −^MSEτ(Str,cv,Str,tr,Π) a partir de los datos observados? ¿Cuál es su ecuación?
Cualquier ayuda para explicar cómo este criterio maximiza la varianza de los efectos del tratamiento (es decir, la heterogeneidad de los efectos causales) O cualquier corrección sobre mi descripción de cómo construir un árbol causal que pueda estar llevando a mi confusión sería muy apreciada. En este momento, no veo cómo este enfoque difiere de otros algoritmos que sólo entrenan en Y y estimar los CATE con E(Y|T=1,X)−E(Y|T=0,X) .