80 votos

¿Diagnóstico para la regresión logística?

En el caso de la regresión lineal, podemos comprobar los gráficos de diagnóstico (gráficos de residuos, gráficos QQ normales, etc.) para comprobar si se violan los supuestos de la regresión lineal.

Para la regresión logística, tengo problemas para encontrar recursos que expliquen cómo diagnosticar el ajuste del modelo de regresión logística. Buscando algunos apuntes del curso de MLG, se dice simplemente que la comprobación de los residuos no es útil para realizar el diagnóstico de un ajuste de regresión logística.

Buscando en Internet, parece que también hay varios procedimientos de "diagnóstico", como la comprobación de la desviación del modelo y la realización de pruebas de chi-cuadrado, pero otras fuentes afirman que esto es inapropiado, y que se debe realizar una prueba de bondad de ajuste de Hosmer-Lemeshow. Luego encuentro otras fuentes que afirman que esta prueba puede ser muy dependiente de las agrupaciones reales y de los valores de corte (puede no ser fiable).

Entonces, ¿cómo se debe diagnosticar el ajuste de la regresión logística?

41voto

Judioo Puntos 625

Algunas de las técnicas más recientes que he encontrado para evaluar el ajuste de los modelos de regresión logística provienen de las revistas de ciencias políticas:

  • Greenhill, Brian, Michael D. Ward y Audrey Sacks. 2011. El gráfico de separación: Un nuevo método visual para evaluar el ajuste de los modelos binarios. Revista Americana de Ciencias Políticas 55(4):991-1002 .
  • Esarey, Justin y Andrew Pierce. 2012. Evaluación de la calidad del ajuste y comprobación de la falta de especificación en los modelos de variables dependientes binarias. Análisis político 20(4): 480-500 . Preprint PDF aquí

Ambas técnicas pretenden sustituir las pruebas de bondad de ajuste (como la de Hosmer y Lemeshow) e identificar posibles errores de especificación (en particular, la no linealidad de las variables incluidas en la ecuación). Son especialmente útiles, ya que las medidas típicas de R-cuadrado de ajuste son frecuentemente criticado .

Los dos trabajos anteriores utilizan las probabilidades predichas frente a los resultados observados en los gráficos, lo que evita en cierto modo la cuestión poco clara de qué es un residuo en dichos modelos. Ejemplos de residuos podrían ser la contribución a la log-likelihood o los residuos de Pearson (aunque creo que hay muchos más). Otra medida que suele ser de interés (aunque no es un residuo) son los DFBeta (la cantidad que cambia la estimación de un coeficiente cuando se excluye una observación del modelo). Vea ejemplos en Stata para esta página de la UCLA sobre Diagnóstico de Regresión Logística junto con otros posibles procedimientos de diagnóstico.

No lo tengo a mano, pero creo que el libro de J. Scott Long Modelos de regresión para variables dependientes categóricas y limitadas se adentra con suficiente detalle en todas estas diferentes medidas de diagnóstico de una manera sencilla.

25voto

dan90266 Puntos 609

La pregunta no estaba suficientemente motivada. Tiene que haber una razón para realizar diagnósticos del modelo, como

  • Posibilidad de cambiar el modelo para mejorarlo
  • No saber qué pruebas dirigidas utilizar (es decir, pruebas de no linealidad o de interacción)
  • No comprender que el cambio de modelo puede distorsionar fácilmente la inferencia estadística (errores estándar, intervalos de confianza, $P$ -valores)

Excepto para comprobar cosas que son ortogonales a la especificación de la regresión algebraica (por ejemplo, examinar la distribución de los residuos en los modelos lineales ordinarios), los diagnósticos del modelo pueden crear tantos problemas como los que resuelven, en mi opinión. Esto es especialmente cierto en el caso del modelo logístico binario, ya que no tiene ningún supuesto de distribución.

Por lo tanto, suele ser mejor dedicar tiempo a especificar el modelo, especialmente para no asumir la linealidad de las variables que se consideran fuertes y para las que ninguna evidencia previa sugiere la linealidad. En algunas ocasiones se puede preespecificar un modelo que debe por ejemplo, si el número de predictores es pequeño o si se permite que todos los predictores sean no lineales y se asume (correctamente) que no hay interacciones.

Cualquiera que considere que los diagnósticos del modelo pueden ser utilizados para cambiar el modelo debería ejecutar ese proceso dentro de un bucle bootstrap para estimar correctamente las incertidumbres inducidas del modelo.

11voto

chahedous Puntos 43

Este hilo es bastante antiguo, pero he pensado que sería útil añadir que, desde hace poco, se puede utilizar el Paquete R DHARMa para transformar los residuos de cualquier GL(M)M en un espacio normalizado. Una vez hecho esto, se pueden evaluar/probar visualmente los problemas de los residuos, como las desviaciones de la distribución, la dependencia de los residuos de un predictor, la heteroscedasticidad o la autocorrelación en la forma normal. Véase el paquete de viñetas para ejemplos trabajados, también otras preguntas sobre el CV aquí y aquí .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X