Intento comprender cuáles son los supuestos de la regresión logística cuando se pretende interpretar el parámetro como causal. Los supuestos de las regresiones OLS causales son bien conocidos, pero no puedo encontrar una buena fuente de supuestos similares para las regresiones logísticas.
Por lo que he podido encontrar en Internet, creo que hay que partir de los siguientes supuestos
- Los errores se distribuyen según una distribución logística y son independientes entre sí
- No hay multicolinealidad
Mi intuición me dice que las variables independientes no deberían estar correlacionadas con el término de error (no hay endogeneidad) como en el caso de las regresiones OLS, pero no encuentro apoyo de esto en ninguna parte. ¿Alguien tiene un argumento matemático para esto? Como por ejemplo, ¿en qué se equivocaría la estimación?
- Sobre el mismo punto, cuando usted está interesado en el parámetro delante de X1 como el parámetro causal y X1 no está correlacionado con el término de error, pero X2 está correlacionado con el término de error, aunque usted no está interesado en el parámetro delante de X2 en un sentido causal, ¿puede todavía ejecutar esta regresión logística e interpretar el coeficiente delante de X1 como causal? es decir, ¿la endogeneidad de X2 estropearía la estimación del parámetro delante de X1?
También he leído que los errores no se distribuyen de forma idéntica, pero no estoy seguro de por qué. ¿Alguien puede explicar por qué esto es cierto?
¿Existen otros supuestos para las regresiones logísticas cuando se quieren utilizar para la inferencia causal?