8 votos

Gráficos de diagnóstico de regresión logística en R

Para propósitos de prueba hice algunos datos correlacionados en R como este:

mydata = data.frame(
  outcome   = c(1, 0, 1, 0, 0, 1, 1, 0, 1, 1),
  predictor = c(0.1, -0.2, 0, 0.1, -0.3, 0.3, 0.2, -0.1, 0.1, 0.1)
)

Luego hice esto para crear un modelo logístico que modelara estos datos:

model1 = glm(family = binomial, formula = outcome ~ predictor, data = mydata)

Corriendo plot(model1) produce las siguientes parcelas:

enter image description here

enter image description here

Necesito respuestas a algunas preguntas para entender cómo realizar diagnósticos en tal modelo logístico. Como alguien que sólo tiene un curso de introducción a la estadística, tengo problemas para reunir conocimientos sobre cómo interpretar los gráficos.

  1. ¿Qué representan los "Valores Predichos" de la primera trama?
  2. ¿Qué significa residual en el contexto de la regresión logística?
  3. ¿Cuál de estos gráficos puede ser útil de alguna manera para el diagnóstico del modelo basado en datos reales? ¿Cómo?

13voto

Sean Hanley Puntos 2428

Esta pregunta está relacionada con: Interpretación de la trama (glm.model) que puede ser beneficioso para usted leer. En cuanto a sus preguntas específicas:

  1. Lo que constituye un valor predicho en la regresión logística es un tema delicado. Eso es porque la predicción puede hacerse en varias escalas diferentes. Creo que el valor predicho más intuitivo es la probabilidad de "éxito" para la observación dada. Sin embargo, también podrías usar el ajuste probabilidades o los ajustados probabilidades de registro . La ecuación/coeficientes del modelo ajustado que es devuelto por el software estadístico estará en la escala del predictor lineal, es decir, en la escala de probabilidades logarítmicas. Como resultado, las probabilidades de éxito del logaritmo ajustado se utilizan típicamente como el valor por defecto. En R por ejemplo, ?predict.glm se encuentra por defecto a type="link" (las probabilidades de registro); ya que sus valores predichos se extienden por debajo de $0$ está claro que lo que se está trazando son las probabilidades de éxito.

    Aquí hay algunos recursos adicionales que podrían ayudarle:

  2. De la misma manera, lo que constituye un residual en la regresión logística es aún más difícil. Hay lotes de las formas de calcular los residuos para un modelo lineal generalizado. En mi opinión, el residuo más intuitivo sería el residuo bruto ( $r_i = y_i - \hat y_i$ ), pero en realidad son difíciles de usar, así que es posible que nunca los veas. Por defecto, ?residuals.glm se encuentra por defecto en type="deviance" . Los residuos de desviación reflejan la contribución de un dato a la desviación total del modelo. Los residuos de desviación (y algunos otros tipos comunes) se examinan brevemente en la notas de la conferencia para la clase de GLM de Germán Rodríguez.

    Lectura sugerida:

  3. He argumentado, en mi respuesta al hilo enlazado en la parte superior, que es mejor no usarlos para examinar un modelo de regresión logística ajustado.

    Más lecturas:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X