71 votos

Interpretación de la desviación residual y nula en GLM R

¿Cómo interpretar la desviación nula y residual en el GLM en R? Por ejemplo, decimos que un AIC más pequeño es mejor. ¿Hay alguna interpretación similar y rápida para las desviaciones también?

Desviación nula: 1146,1 en 1077 grados de libertad Desviación residual: 4589,4 en 1099 grados de libertad AIC: 11089

109voto

Morpfh Puntos 21

Sea LL = loglikelihood

Este es un resumen rápido de lo que se ve en la salida de summary(glm.fit),

Desviación nula = 2(LL(Modelo saturado) - LL(Modelo nulo)) en df = df_Sat - df_Null

Desviación residual = 2(LL(Modelo saturado) - LL(Modelo propuesto)) df = df_Sat - df_Proposed

El Modelo saturado es un modelo que asume que cada punto de datos tiene sus propios parámetros (lo que significa que tiene n parámetros que estimar).

El Modelo nulo asume exactamente lo "contrario", en el sentido de que asume un parámetro para todos los puntos de datos, lo que significa que sólo se estima un parámetro.

El Modelo propuesto asume que puedes explicar tus puntos de datos con p parámetros + un término de intercepción, por lo que tienes p+1 parámetros.

Si su Desviación nula es realmente pequeño, significa que el Modelo Nulo explica bastante bien los datos. Lo mismo ocurre con su Desviación residual .

¿Qué significa realmente pequeño? Si su modelo es "bueno", entonces su Desviación es aproximadamente Chi^2 con (df_sat - df_model) grados de libertad.

Si desea comparar su modelo nulo con su modelo propuesto, puede consultar

(Desviación nula - Desviación residual) aprox. Chi^2 con df Propuesto - df Nulo \= (n-(p+1))-(n-1)=p

¿Los resultados que has dado son directamente de R? Parecen un poco Impares, porque generalmente deberías ver que los grados de libertad reportados en la Nula son siempre mayores que los grados de libertad reportados en la Residual. Esto se debe a que, de nuevo, Null Deviance df = Saturated df - Null df = n-1 Desviación residual df = df saturado - df propuesto = n-(p+1)

0 votos

Sí, es un escrito muy útil @TeresaStat, gracias. ¿Qué solidez tiene esto? ¿Cambian las definiciones si se trata de un modelo multinomial en lugar de un modelo GLM ?

0 votos

@Teresa: Sí, estos resultados son de R. ¿Por qué puede ocurrir esto? ¿Hay algún problema con el modelo?

0 votos

@Hack-R: perdón por la respuesta tan tardía, soy nuevo en Stackexchange. Para los modelos multinomiales no se utiliza la función glm en R y la salida es diferente. Tendrás que buscar un modelo de probabilidades proporcionales o una regresión ordinal, la función mlogit. Vale la pena leer un poco sobre los glms multinomiales, ya que tienen supuestos ligeramente diferentes. Si puedo hacerlo durante el descanso, actualizaré esto con más información.

21voto

David Newcomb Puntos 4685

La desviación nula muestra lo bien que predice la respuesta el modelo con nada más que un intercepto.

La desviación residual muestra lo bien que predice la respuesta el modelo cuando se incluyen los predictores. En su ejemplo, puede verse que la desviación aumenta en 3443,3 cuando se añaden 22 variables predictoras (nota: grados de libertad = número de observaciones - número de predictores). Este aumento de la desviación es una prueba de una falta de ajuste significativa.

También podemos utilizar la desviación residual para comprobar si la hipótesis nula es cierta (es decir, el modelo de regresión logística proporciona un ajuste adecuado para los datos). Esto es posible porque la desviación viene dada por el valor de chi-cuadrado a unos determinados grados de libertad. Para probar la significación, podemos encontrar los valores p asociados utilizando la siguiente fórmula en R:

p-value = 1 - pchisq(deviance, degrees of freedom)

Utilizando los valores anteriores de desviación residual y DF, se obtiene un valor p de aproximadamente cero que muestra que hay una falta de evidencia significativa para apoyar la hipótesis nula.

> 1 - pchisq(4589.4, 1099)
[1] 0

2 votos

¿Cómo se sabe cuál es el punto de corte para un buen/mal ajuste basado en la desviación y el número de variables predictoras (sin el pchisq)? ¿Es sólo si la desviación residual > la desviación nula o hay algún rango/cociente?

3 votos

Su respuesta no es errónea, pero está sujeta a malentendidos. De hecho, ha sido malinterpretada (cf. aquí ). A la luz de esto, ¿podría aclarar las diferencias que están implícitas en su código?

0 votos

A menudo se afirma que la desviación residual sigue una distribución chisq cuando el modelo ajustado contiene todos los predictores relevantes, pero no hay ninguna teoría publicada que apoye este resultado y en realidad sólo es cierto para una clase muy limitada de glms. Básicamente, el resultado sólo es cierto para los glms de Poisson en los que todos los recuentos no son pequeños (todos >= 3, por ejemplo) y para la regresión binomial en la que todas las proporciones $y/n$ están bien separadas de 0 o 1. Para otros glms la desviación no está distribuida chisq o necesita ser escalada por el parámetro de dispersión.

3voto

Pavel Puntos 77

Mientras que ambas respuestas dadas aquí son correctas (y recursos realmente útiles), de la página 432 de Introduction to Linear Regression Analysis (Montgomery, Peck, Vining, 5E), se da una regla general como $$ \frac{D}{n-p} >> 1, $$ donde $p$ es el número de regresores, $n$ es el número de observaciones y $D$ es la desviación residual, entonces el ajuste puede considerarse inadecuado.

1 votos

Esta regla general se cita a menudo, pero sólo es útil para una clase muy limitada de glms. Básicamente, sólo funciona para los glms de Poisson en los que todos los recuentos no son una herramienta pequeña (todos >= 3, por ejemplo) y para la regresión binomial en la que todas las proporciones $y/n$ están bien separadas de 0 o 1. Para otros glms falla porque $n-p$ no es el valor esperado de la desviación o no tiene sentido porque la desviación debe ser escalada por el parámetro de dispersión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X