Tengo una pregunta y espero que alguien pueda ayudarme con mi confusión. Quiero ejecutar un modelo de regresión logística univariable para ver si mi predictor (que no se distribuye normalmente, pero tampoco está sesgado alocadamente) está asociado con las probabilidades del resultado (dicotómico). Entiendo que no es necesario que el predictor tenga una distribución normal. Sin embargo, cuando ejecuto el modelo con él, las probabilidades no son significativas, mientras que si lo transformo a log(predictor), las probabilidades son significativas. ¿Cómo puede ser eso y cuál es la forma correcta? Cuando utilizo una prueba t entre los dos resultados utilizando log(predictor), el valor p es casi idéntico al del modelo de regresión que utiliza log(predictor). ¿Es una coincidencia?
Respuestas
¿Demasiados anuncios?Lo que esto indica es que la relación entre el predictor y el resultado es exponencial (o al menos se parece más a la exponencial que a la lineal). Me resulta muy fácil explicarlo con un ejemplo. En epidemiología, las curvas dosis-respuesta describen la probabilidad de un efecto basado en la dosis de una sustancia química (o bacteria, o lo que sea) que ingiere un organismo. Digamos que si le damos veneno a un ratón, podríamos medir qué dosis de veneno hace falta para que empiecen a morir más ratones. (Véase la imagen). Esta relación suele ser similar al horrible dibujo que acabo de hacer. Si modelaras esta relación linealmente, sería imposible dibujar una curva de regresión logística que tuviera sentido.
Además, no es una coincidencia que la prueba t tuviera el mismo valor p; son pruebas idénticas con respecto a la nula. La diferencia es que la regresión logística puede indicarle la probabilidad de su resultado dado un nivel de su predictor, mientras que una prueba t no puede.
Cuando no se sabe si la verdadera relación es lineal en el logit, es mejor permitir que el predictor tenga una relación suave y flexible con el logit. Los splines de regresión son excelentes opciones para relajar el supuesto de linealidad, y preservan el error de tipo I a diferencia de probar diferentes transformaciones para ver qué se ajusta.