Es más sencillo pensar en términos de modelos lineales. La misma lógica es válida con los modelos logit y con los no lineales, aunque es más complicada. Para la interpretación causal, es necesario que se cumplan un montón de supuestos. Puede que me falte alguno.
Aquí está su modelo: $$ y = \delta T + X\beta + \epsilon $$ $T$ es la variable que te interesa, $X$ son covariables. $\epsilon$ es todo lo demás que provoca $y$ .
Digamos que $y$ es el consumo diario de Coca-Cola Light de Donald Trump, en mililitros. $T$ es una variable ficticia que indica que Mueller está en las noticias, y $X$ son numerosos controles como los tiroteos en las escuelas, el mercado de valores, si el informe diario del presidente tenía demasiadas palabras grandes en él, y si #MAGA es trending en twitter.
Ahora bien, Donald Trump beberá mucha coca-cola light cuando esté estresado, y otras cosas le estresan. Por ejemplo, Rachael Maddow. Ahora, la relevancia general de Rachel Maddow para Donald Trump está altamente correlacionada con que Mueller esté en las noticias. Pero digamos que el estatista no recibe la MSNBC. Rachael Maddow es inobservable -- por lo tanto es un componente de $\epsilon$ . Por lo tanto, la hipótesis principal es
Número 1 $$ E[\epsilon|T,X] = 0 $$ Esto significa que no hay nada que no se observe que tenga algún efecto sobre $y$ que también está correlacionado con $T$ o $X$ . (En realidad, sólo necesita ser $E[\epsilon|T] = 0$ cuando $T$ es ortogonal a $X$ .)
Volvamos a nuestro ejemplo: Rachael Maddow no es observada por el estadístico, es una parte de $\epsilon$ y se correlaciona con $T$ . Esto significa que $\epsilon$ no será cero en la expectativa, y su estimación está confundida.
¿Qué puede hacer? O bien conseguir la MSNBC, o encontrar algún tipo de estrategia de identificación para hacer frente a su problema de confusión. Las estrategias de identificación son métodos econométricos para establecer la causalidad cuando una regresión ingenua está sesgada debido a la confusión, normalmente en datos observacionales.
Hay algunos otros, que tienen que ver con la especificación errónea, etc. Pero están bastante en la maleza y estoy fuera de tiempo.
En cuanto a la bondad del ajuste: usted no necesita bondad de ajuste para identificar la expectativa de que Donald Trump beba cocaína dado que Robert Mueller está en las noticias, dado un tamaño de muestra suficientemente grande. Sólo necesitas que tus suposiciones se mantengan. Normalmente, no se cumplen, por lo que la gente piensa que se necesita un modelo bien ajustado. Después de todo, un modelo donde $\epsilon = 0$ en la población es uno que puede ser interpretado causalmente.