11 votos

Parámetro de dispersión en la salida del GLM

He ejecutado un glm en R, y cerca de la parte inferior del summary() de salida, afirma que

(Dispersion parameter for gaussian family taken to be 28.35031)

He rebuscado un poco en Google y he aprendido que el parámetro de dispersión se utiliza para ajustar los errores estándar. Espero que alguien pueda dar más detalles sobre qué es el parámetro de dispersión y cómo debe interpretarse.

6voto

Eero Puntos 1612

Una forma de explorar esto es intentar ajustar el mismo modelo usando diferentes herramientas, aquí hay un ejemplo:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Así que puede ver que el error estándar residual del modelo lineal es sólo la raíz cuadrada de la dispersión del glm, en otras palabras, la dispersión (para los modelos gaussianos) es lo mismo que el error cuadrático medio.

0voto

Nicholas Puntos 36

Especulemos con la sencilla situación en la que no hay información de covariable en sus datos. Digamos que sólo tiene observaciones $Y_1, Y_2, \ldots, Y_n \in \mathbb{R}$ .

Si está utilizando una distribución normal para modelar sus datos, probablemente escribiría que

$Y_i \sim \mathcal{N}(\mu, \sigma^2)$ ,

y luego tratar de estimar $\mu$ y $\sigma$ , tal vez mediante una estimación de máxima verosimilitud.

Pero digamos que sus datos son datos de recuento y, por tanto, no se distribuyen normalmente. En este caso ni siquiera es continua, por lo que puede utilizar la distribución de Poisson en su lugar:

$Y_i \sim Poisson(\lambda)$ .

Sin embargo, ¡sólo tiene un parámetro aquí! El único parámetro $\lambda$ determina tanto la media como la varianza mediante $\mathbb{E}[Y_i] = \lambda$ y $Var[Y_i] = \lambda$ . Esto también ocurre cuando se utiliza la distribución Bernoulli o binomial. Pero puede tener una varianza mayor o menor en sus datos, posiblemente porque las observaciones no son verdaderamente iid o la distribución que eligió no era lo suficientemente realista.

Así que la gente añade el parámetro de dispersión para obtener un grado de libertad adicional en la modelización de la media y la varianza simultáneamente. Supongo que cualquier libro de texto sobre el MLG le dará una explicación más detallada y matemática sobre lo que es, pero la motivación, creo, es bastante simple como esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X