3 votos

¿Es necesaria la bondad de ajuste de los modelos de regresión cuando se interpretan causalmente?

Estoy investigando las asociaciones entre los factores socioeconómicos y los resultados dicotómicos. Utilizo modelos lineales generalizados (GLM) con enlace logarítmico para la familia Bernoulli, es decir, modelando la razón de prevalencia. En el curso de epidemiología de K.J. Rothman y E.Hatch nos dijeron que las pruebas de bondad de ajuste están diseñadas para modelos de predicción y que en la inferencia causal no es importante el ajuste del modelo. No encuentro ninguna referencia al respecto. ¿Puede alguien comentar esto y sugerir una referencia? Gracias de antemano.

2voto

Bleadof Puntos 731

Esto es correcto. En la epidemiología o las ciencias sociales, nos gustaría encontrar la asociación causal entre, por ejemplo, la exposición y el resultado. Entonces, lo más importante es identificar los factores de confusión, que deben ajustarse en la configuración de su modelo multivariado. Esto no significa necesariamente que haya que ajustar bien un modelo, sino sólo con el fin de realizar un ajuste que haga que nuestra estimación de interés no se vea afectada por otros factores asociados al resultado. Por ejemplo, si queremos estudiar la asociación entre el cáncer de pulmón y el consumo excesivo de alcohol, hay que ajustar el hábito de fumar como variable de confusión. Porque el tabaquismo ha sido reconocido como un factor de riesgo de cáncer de pulmón. Por lo tanto, el consumo excesivo de alcohol se confunde con el tabaquismo, probablemente porque los bebedores excesivos suelen ser también fumadores. Esta suele ser la consideración más importante en la investigación médica.

Si su propósito es la predicción, entonces no necesita pensar en los factores de confusión en primer lugar, y puede incluir términos de interacción, interacciones de dos y tres vías como un procedimiento de creación de modelos, probando la bondad del ajuste, etc. Y los algoritmos como la selección hacia adelante/hacia atrás son válidos para proporcionar un buen modelo.

Si su propósito es proporcionar una medida válida de un efecto, entonces esas selecciones no son del todo apropiadas. Porque aunque una variable no sea significativa en un modelo, puede mantenerse en él, como la edad y el sexo, que siempre se ajustan en esos estudios de epidemilogía. Además, el efecto de la interacción puede ser o no de interés en el estudio epidemiológico.

El capítulo 6 del libro de "Logistic Regression A Self-learning Text" proporciona una explicación detallada de la estrategia de construcción de modelos para lo que usted preguntó.

Salud.

5 votos

No entiendo este razonamiento. Parece que si tienes un mal ajuste, entonces podrías obtener la asociación causal completamente equivocada. Hormesis es un buen ejemplo que debería ser importante para la epidemiología: si se ajusta una curva dosis-respuesta lineal a un efecto hormético, no sólo se acaba pasando por alto la hormesis, sino que se sacan conclusiones totalmente erróneas sobre las dosis de bajo nivel. ¿Cómo justificar entonces que se pase por alto esta posibilidad por no comprobar la bondad del ajuste? ¿Estoy malinterpretando sus afirmaciones?

1 votos

Debo decir que estoy totalmente en desacuerdo con este enfoque, uno siempre quiere un buen ajuste del modelo, ya que indica que su variable "causal" se ha introducido de la manera correcta, y que no está simplemente recogiendo correlaciones aleatorias entre las variables causales que no se han observado. también una mala bondad de ajuste hace que sea muy difícil decir "A causa B" cuando hay tantas cosas adicionales que suceden con la parte de los datos que no se ajustan.

0 votos

Offcoz siempre es preferible un modelo bien ajustado. Sin embargo, en la investigación empírica de la epidemiología, a veces sólo queremos la estimación única de la variable de interés, digamos odds ratio o riesgo relativo de un factor de riesgo y su error estándar asociado o intervalo de confianza. Para que la estimación no esté sesgada debido a otras variables de confusión, el ajuste es esencial. En este caso, incluso si se incluyen otras variables en el modelo, como interacciones bidireccionales o tri-direccionales, para mejorar la bondad del ajuste, la estimación de la variable de interés puede variar ligeramente o no variar en absoluto.

2voto

generic_user Puntos 2269

Es más sencillo pensar en términos de modelos lineales. La misma lógica es válida con los modelos logit y con los no lineales, aunque es más complicada. Para la interpretación causal, es necesario que se cumplan un montón de supuestos. Puede que me falte alguno.

Aquí está su modelo: $$ y = \delta T + X\beta + \epsilon $$ $T$ es la variable que te interesa, $X$ son covariables. $\epsilon$ es todo lo demás que provoca $y$ .

Digamos que $y$ es el consumo diario de Coca-Cola Light de Donald Trump, en mililitros. $T$ es una variable ficticia que indica que Mueller está en las noticias, y $X$ son numerosos controles como los tiroteos en las escuelas, el mercado de valores, si el informe diario del presidente tenía demasiadas palabras grandes en él, y si #MAGA es trending en twitter.

Ahora bien, Donald Trump beberá mucha coca-cola light cuando esté estresado, y otras cosas le estresan. Por ejemplo, Rachael Maddow. Ahora, la relevancia general de Rachel Maddow para Donald Trump está altamente correlacionada con que Mueller esté en las noticias. Pero digamos que el estatista no recibe la MSNBC. Rachael Maddow es inobservable -- por lo tanto es un componente de $\epsilon$ . Por lo tanto, la hipótesis principal es

Número 1 $$ E[\epsilon|T,X] = 0 $$ Esto significa que no hay nada que no se observe que tenga algún efecto sobre $y$ que también está correlacionado con $T$ o $X$ . (En realidad, sólo necesita ser $E[\epsilon|T] = 0$ cuando $T$ es ortogonal a $X$ .)

Volvamos a nuestro ejemplo: Rachael Maddow no es observada por el estadístico, es una parte de $\epsilon$ y se correlaciona con $T$ . Esto significa que $\epsilon$ no será cero en la expectativa, y su estimación está confundida.

¿Qué puede hacer? O bien conseguir la MSNBC, o encontrar algún tipo de estrategia de identificación para hacer frente a su problema de confusión. Las estrategias de identificación son métodos econométricos para establecer la causalidad cuando una regresión ingenua está sesgada debido a la confusión, normalmente en datos observacionales.

Hay algunos otros, que tienen que ver con la especificación errónea, etc. Pero están bastante en la maleza y estoy fuera de tiempo.

En cuanto a la bondad del ajuste: usted no necesita bondad de ajuste para identificar la expectativa de que Donald Trump beba cocaína dado que Robert Mueller está en las noticias, dado un tamaño de muestra suficientemente grande. Sólo necesitas que tus suposiciones se mantengan. Normalmente, no se cumplen, por lo que la gente piensa que se necesita un modelo bien ajustado. Después de todo, un modelo donde $\epsilon = 0$ en la población es uno que puede ser interpretado causalmente.

0voto

shokora Puntos 113

De Kleinbaum y Klein 2010, regresión logística, p304.

En la mayoría de los análisis epidemiológicos, el principal objetivo es evaluar una relación exposición-enfermedad, por lo que solemos estar más interesados en derivar el "mejor" modelo para la relación (lo que suele implicar una estrategia que requiere de la comparación de varios modelos) que en utilizar un procedimiento GOF. No obstante, una vez que hemos obtenido un modelo final (es decir, el mejor"), también nos gustaría que este modelo se ajustara a los datos bien, lo que justifica un procedimiento GOF

Este es mi razonamiento: Estudiamos la asociación a través de las OR (a veces RR) que están relacionadas con las probabilidades. Con las probabilidades se predice. Si sus predicciones son demasiado malas (hay evidencia estadística de falta de ajuste) por lo que son sus probabilidades y allí su medida de asociación (OR) también es malo . Para mí la diferencia con el objetivo de predicción es el proceso de ajuste del modelo. En este último caso, buscamos el máximo poder de predicción sea como sea. En el caso de la asociación ( no causal (como usted ha preguntado) buscamos un $\beta$ es sacrificar GOT pero no demasiado (hasta el punto de que el $\beta$ s son inútiles).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X