Processing math: 100%

26 votos

¿Cómo optimiza un árbol causal los efectos heterogéneos del tratamiento?

Tengo una pregunta muy concreta sobre cómo el árbol causal en el bosque causal/bosque aleatorio generalizado optimiza la heterogeneidad en los efectos del tratamiento.

Esta pregunta procede del Artículo de Athey & Imbens (2016) "Recursive partitioning for heterogeneous causal effects" de. PNAS. Otro trabajo es el de Wager & Athey (2018), "Estimation and inference of heterogeneous treatment effects using random forests" en JASA ( arxiv.org enlace aquí ). Sé que la respuesta a mi pregunta está en esos documentos, pero, por desgracia, no puedo analizar algunas de las ecuaciones para extraerla. Sé que entiendo bien un algoritmo cuando puedo expresarlo con palabras, así que me ha estado molestando no poder hacerlo aquí.

A mi entender, un árbol causal honesto se construye generalmente por:

Dado un conjunto de datos con un resultado Y covariables X y una condición aleatoria W que toma el valor 0 para el control y 1 para el tratamiento:

  1. Dividir los datos en submuestras I y submuestra J

  2. Entrenar un árbol de decisión en la submuestra I predicción Y de X con el requisito de que cada nodo terminal tenga al menos k observaciones de cada condición en la submuestra J

  3. Aplicar el árbol de decisión construido sobre la submuestra I para submuestrear J

  4. En cada nodo terminal, obtener la media de las predicciones para el W = 1 casos de la submuestra J y restar la media de las predicciones para el W = 0 casos de la submuestra J la diferencia resultante es el efecto estimado del tratamiento

Todos los casos futuros fuera de la muestra (como los utilizados después de implantar el modelo) se dejarán caer en el árbol y se les asignará el efecto del tratamiento previsto para el nodo en el que terminen.

Esto se denomina "honesto", porque el entrenamiento real y la estimación se realizan con datos completamente distintos. Athey y sus colegas tienen una buena teoría asintótica que muestra que se pueden derivar estimaciones de varianza para estos efectos de tratamiento, que es parte de la motivación para hacerlos "honestos".

A continuación, se aplica a un bosque aleatorio causal mediante bagging o bootstrapping.


Ahora bien, Athey & Imbens (2016) señalan que este procedimiento utiliza un criterio de error cuadrático medio modificado para la división, que recompensa "una partición por encontrar una fuerte heterogeneidad en los efectos del tratamiento y penaliza una partición que crea varianza en las estimaciones de las hojas" (p. 7357).

Mi pregunta es: ¿Puede explicar cómo es esto, utilizando palabras?

En las dos secciones anteriores a esta cita, Modificación del CART convencional en función de los efectos del tratamiento y Modificar el planteamiento honesto Los autores utilizan el marco del modelo causal/resultados potenciales de Rubin para derivar una estimación del efecto del tratamiento.

Señalan que no intentamos predecir Y -como en la mayoría de los casos de aprendizaje automático-, pero la diferencia entre la expectativa de Y en dos condiciones, dadas algunas covariables X . De acuerdo con el marco de resultados potenciales, esto es "inviable": Sólo podemos medir el resultado de alguien en una de las dos condiciones.

En una serie de ecuaciones, muestran cómo podemos utilizar un criterio de división modificado que predice el efecto del tratamiento. Dicen: "...el análogo del efecto del tratamiento no es factible, pero podemos utilizar una estimación insesgada del mismo, que conduce a ^MSEτ(Str,cv,Str,tr,Π) " (p. 7357). Como alguien con formación en ciencias sociales y estadística aplicada, no consigo conectar los puntos entre lo que han establecido y cómo podemos estimarlo a partir de los datos. ¿Cómo calcula alguien ^MSEτ(Str,cv,Str,tr,Π) a partir de los datos observados? ¿Cuál es su ecuación?

Cualquier ayuda para explicar cómo este criterio maximiza la varianza de los efectos del tratamiento (es decir, la heterogeneidad de los efectos causales) O cualquier corrección sobre mi descripción de cómo construir un árbol causal que pueda estar llevando a mi confusión sería muy apreciada. En este momento, no veo cómo este enfoque difiere de otros algoritmos que sólo entrenan en Y y estimar los CATE con E(Y|T=1,X)E(Y|T=0,X) .

16voto

usεr11852 Puntos 5514

Su interpretación es correcta, la idea central del artículo es que la división del muestreo es esencial para el trabajo empírico y que nos permite tener una estimación insesgada del efecto del tratamiento.

Para responder a su pregunta principal: Los criterios de elección son ^EMSEτ y ^EMSEμ . Ambos penalizan la varianza y fomentan la heterogeneidad. Para empezar, me centraré en la estimación del MSE esperado del efecto del tratamiento ^EMSEτ . Para un árbol/partición determinado Π cuando se utiliza una muestra de entrenamiento Str y una muestra de estimación de tamaño Nest el estimador del "criterio inviable". ^EMSEτ(Str,Nest,Π) es, por definición, la varianza del efecto del tratamiento estimado a través de las hojas (el término denotado como: 1NtrΣiStrˆτ2(Xi;Str,Π) ) menos la incertidumbre sobre los efectos de estos tratamientos (los términos de los estimadores de la varianza S2Strtreat y S2Strcontrol que también son inversamente proporcionales al tamaño de las muestras Ntr y Nest ). Por lo tanto, la bondad del ajuste no es un MSE "vainilla", sino más bien un MSE penalizado por la varianza. Cuanto mayor sea la heterogeneidad de nuestra estimación, mejor será nuestro EMSEτ y, del mismo modo, cuanto mayor sea la varianza de nuestras estimaciones, peor será nuestra EMSEτ . Obsérvese también que el efecto causal medio estimado ˆτ(x;S,Π) es igual a ˆμ(1,x;S,Π)ˆμ(0,x;S,Π) es decir, recompensaremos la heterogeneidad indirectamente durante la estimación de ˆμ también.

En términos más generales, la idea básica de la división de la muestra es que obtenemos nuestras estimaciones para un árbol utilizando una muestra distinta de la que se utilizó para construir el árbol (es decir, una partición del espacio muestral existente ). S ), por lo que podemos centrarnos sobre todo en la varianza y no en el equilibrio entre sesgo y varianza. Esto es lo esencial de la sección Separación honesta donde podemos ver que los criterios de elección penalizarán el tamaño pequeño de las hojas exactamente porque estarán asociados a una varianza elevada S2 de los efectos estimados.

En conclusión, la tarea de hacer coherente una RF se ataca desde dos flancos:

  1. La muestra se divide en conjuntos de entrenamiento y de evaluación.
  2. El criterio de división es tal que las hojas del árbol sean "grandes".

Como se menciona en el documento, esto inducirá a un golpe en términos de MSE de los efectos del tratamiento, pero que vendrá al aumento de la cobertura nominal de su intervalo de confianza. Creo que la cita de la Prof. Athey de su presentación de 2016 sobre Resolución de ecuaciones de estimación heterogéneas mediante algoritmos basados en bosques (21:25 a 22:02) capta bien la esencia de esta obra : " ... la gente ha dicho, si vas a hacer pruebas de hipótesis sobre los efectos del tratamiento dentro de las hojas, ¿no debería tu función objetivo anticipar de alguna manera que querías construir un intervalo de confianza. (...) Así que, básicamente, en lugar de hacer vecinos más cercanos como este "(utilizando un k -NN estimador), " vamos a tener vecindarios basados en árboles que básicamente rebanan el espacio de covariables de acuerdo a donde vemos heterogeneidad en la muestra de construcción de árboles. Y luego, en la muestra de estimación, vamos a volver y estimar los efectos del tratamiento en esa partición. "

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X