13 votos

Interpretación de la matriz de varianza-covarianza

Supongamos que tenemos un modelo lineal Model1 y vcov(Model1) nos da la siguiente matriz:

             (Intercept)    latitude  sea.distance   altitude
(Intercept)    28.898100 -23.6439000  -34.1523000  0.50790600
latitude      -23.643900  19.7032500   28.4602500 -0.42471450
sea.distance  -34.152300  28.4602500   42.4714500 -0.62612550
altitude        0.507906  -0.4247145   -0.6261255  0.00928242

Para este ejemplo, ¿qué muestra en realidad esta matriz? ¿Qué suposiciones podemos hacer de manera segura para nuestro modelo y sus variables independientes?

11voto

devinmoore Puntos 2172

Esta matriz muestra estimaciones de la varianza y covarianza entre los coeficientes de regresión. En particular, para su matriz de diseño $\mathbf{X}$, y una estimación de la varianza, $\widehat{\sigma}^2$, su matriz mostrada es $\widehat{\sigma}^2(\mathbf{X}'\mathbf{X})^{-1}$.

Las entradas diagonales son la varianza de los coeficientes de regresión y las entradas fuera de la diagonal son la covarianza entre los coeficientes de regresión correspondientes.

En cuanto a las suposiciones, aplique la función cov2cor() a su matriz de varianza-covarianza. Esta función convertirá la matriz dada en una matriz de correlación. Obtendrá estimaciones de las correlaciones entre los coeficientes de regresión. Pista: para esta matriz, cada una de las correlaciones tendrá magnitudes grandes.

Para decir algo en particular sobre el modelo, necesitamos estimaciones puntuales de los coeficientes de regresión para decir algo más.

11voto

Sean Hanley Puntos 2428

Donnie ha proporcionado una buena respuesta (+1). Permíteme agregar un par de puntos.

Recorriendo la diagonal principal de la matriz de varianza-covarianza se encuentran las varianzas de las distribuciones muestrales de tus estimaciones de parámetros (es decir, $\hat\beta_j$). Por lo tanto, al tomar las raíces cuadradas de esos valores se obtienen los errores estándar que se reportan en la salida estadística:

SEs   = sqrt(diag(vcov(Model1)))
SEs
# [1] 5.37569530 4.43883431 6.51701235 0.09634532

Estos se utilizan para formar intervalos de confianza y probar hipótesis sobre tus betas.

Los elementos fuera de la diagonal serían $0$ si todas las variables fueran ortogonales, pero tus valores están lejos de ser $0$. Al utilizar la función cov2cor(), o al estandarizar las covarianzas por las raíces cuadradas de las varianzas de las variables constituyentes, se revela que todas las variables están altamente correlacionadas ($|r| > .97$), por lo que tienes una considerable multicolinealidad. Esto hace que tus errores estándar sean mucho más grandes de lo que serían de otra manera. Asimismo, significa que hay mucha información sobre las distribuciones muestrales de los betas que se está dejando fuera de las pruebas de hipótesis estándar ($\hat\beta_j/SE(\hat\beta_j)$), así que es posible que desees utilizar una estrategia de pruebas secuenciales basadas en sumas de cuadrados de tipo I.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X