8 votos

Econometría: ¿Cuáles son los supuestos de la regresión logística para la inferencia causal?

Intento comprender cuáles son los supuestos de la regresión logística cuando se pretende interpretar el parámetro como causal. Los supuestos de las regresiones OLS causales son bien conocidos, pero no puedo encontrar una buena fuente de supuestos similares para las regresiones logísticas.

Por lo que he podido encontrar en Internet, creo que hay que partir de los siguientes supuestos

  1. Los errores se distribuyen según una distribución logística y son independientes entre sí
  2. No hay multicolinealidad

Mi intuición me dice que las variables independientes no deberían estar correlacionadas con el término de error (no hay endogeneidad) como en el caso de las regresiones OLS, pero no encuentro apoyo de esto en ninguna parte. ¿Alguien tiene un argumento matemático para esto? Como por ejemplo, ¿en qué se equivocaría la estimación?

  • Sobre el mismo punto, cuando usted está interesado en el parámetro delante de X1 como el parámetro causal y X1 no está correlacionado con el término de error, pero X2 está correlacionado con el término de error, aunque usted no está interesado en el parámetro delante de X2 en un sentido causal, ¿puede todavía ejecutar esta regresión logística e interpretar el coeficiente delante de X1 como causal? es decir, ¿la endogeneidad de X2 estropearía la estimación del parámetro delante de X1?

También he leído que los errores no se distribuyen de forma idéntica, pero no estoy seguro de por qué. ¿Alguien puede explicar por qué esto es cierto?

¿Existen otros supuestos para las regresiones logísticas cuando se quieren utilizar para la inferencia causal?

9voto

Aaron Puntos 36

La capacidad de interpretar las relaciones de regresión como causales depende generalmente de los protocolos experimentales y no de la estructura supuesta del modelo estadístico. Los modelos de regresión nos permiten relacionar estadísticamente las variables explicativas con la variable de respuesta, donde esta relación se hace condicional a todas las variables explicativas del modelo. Por defecto, sigue siendo sólo una relación predictiva, y no debe interpretarse de forma causal. Este es el caso de la regresión lineal estándar que utiliza la estimación OLS, y también es cierto en la regresión logística.

Supongamos que queremos interpretar una relación de regresión de forma causal --- por ejemplo, tenemos una variable explicativa $x_k$ y queremos interpretar su relación de regresión con la variable de respuesta $Y$ como una relación causal (la primera causa la segunda). Lo que nos asusta aquí es la posibilidad de que la relación predictiva se deba en realidad a una relación con algún factor de confusión que es una variable adicional fuera de la regresión que está relacionada estadísticamente con $x_k$ y es la verdadera causa de $Y$ . Si dicho factor de confusión existe, inducirá una relación estadística entre estas variables que veremos en nuestra regresión. (El otro error que se puede cometer es condicionar a una variable mediadora, lo que también conduce a una inferencia causal incorrecta).

Por lo tanto, para interpretar las relaciones de regresión de forma causal, queremos estar seguros de que lo que vemos no es el resultado de factores de confusión ajenos a nuestro análisis. La mejor manera de garantizarlo es utilizar la experimentación controlada para establecer $x_k$ a través de la aleatorización/el cegamiento, cortando así cualquier vínculo estadístico entre esta variable explicativa y cualquier posible factor de confusión. A falta de esto, lo mejor es utilizar un análisis no controlado, pero intentando introducir todos los posibles factores de confusión que podamos, para filtrarlos en la regresión. (¡No hay garantías de que los hayamos encontrado todos!) También hay otros métodos, como el uso de variables instrumentales, pero generalmente dependen de fuertes suposiciones sobre la naturaleza de esas variables.

Ninguno de los supuestos que mencionas es necesario o suficiente para inferir la causalidad. Son sólo supuestos del modelo de regresión logística, y si no se cumplen puedes variar tu modelo en consecuencia. El principal supuesto que necesita para la inferencia causal es suponer que los factores de confusión están ausentes . Esto puede hacerse utilizando un protocolo de aleatorización/enmascaramiento en su experimento, o puede dejarse como una suposición (de esperanza y esperanza).

2voto

Graham Wright Puntos 121

Para añadir a la gran respuesta de Ben, he aquí un ejemplo básico de cómo un modelo de regresión (independientemente de su tipo) puede no ser capaz de inferir la causalidad, incluso si usted piensa que ha abordado todos los "supuestos". Digamos que tenemos un conjunto de datos de una encuesta de un grupo de personas en un único momento. Realizamos un modelo de regresión logística con "estar deprimido" como variable dependiente y "consumo de opiáceos" como variable independiente. Supongamos que hemos tenido en cuenta todas las OTRAS variables que podrían confundir esta relación y que también se cumplen todos los demás supuestos del modelo. Encontramos una relación significativa y positiva.

¿Significa esto que el consumo de opiáceos provoca depresión? Tal vez. Pero también podría significar que la depresión provoca el consumo de opiáceos. O tal vez ambas cosas sean ciertas al mismo tiempo (pero un efecto es más fuerte que el otro). Si todas las variables se recogen en el mismo momento, el modelo no va a ser capaz de distinguir entre estos procesos causales MUY DIFERENTES. Sólo ajustando el diseño de nuestra investigación (por ejemplo, midiendo el consumo de opiáceos en un año y la depresión en el siguiente) podemos resolver este problema. La regresión por sí sola no puede ayudarnos.

0voto

Christo Puntos 797

Respondiendo a su pregunta sobre los términos de error no distribuidos idénticamente: En la regresión logística, el logit de la variable dependiente se hace depender de los predictores y los errores de esta regresión están, de hecho, idénticamente distribuidos y siguen una distribución logística. Sin embargo, cuando se retrotransforma a la escala de respuesta, el término de error sólo puede tomar dos valores en cada nivel del predictor lineal: $$e_i = 1-\pi_i \quad\vert Y_i = 1\\e_i = -\pi_i \quad\,\,\,\,\,\,\vert Y_i = 0$$ Porque $e_i = Y_i - \pi_i$ (y $\pi_i$ es constante), la varianza de este término de error es igual a la varianza de la variable binaria $Y_i$ . La varianza de la variable binaria $Y_i$ viene dada por $\sigma^2(Y_i) = \pi_i(1-\pi_i)$ y no es constante porque depende de la media $\pi_i$ .

Kutner et al. (2005). Modelos estadísticos lineales aplicados (capítulo 14)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X