La película de la función en R puede imprimir la estimación de la covarianza de los coeficientes de regresión. Lo que hace esta información nos da? Podemos ahora interpretar el modelo de mejor o diagnosticar los problemas que pueden estar presentes en el modelo?
Respuestas
¿Demasiados anuncios?El uso más básico de la matriz de covarianza es obtener los errores estándar de la regresión estimados. Si el investigador está interesado sólo en los errores estándar de la regresión individuales de los parámetros de sí mismos, que sólo puede tomar la raíz cuadrada de la diagonal para conseguir que la persona los errores estándar.
Sin embargo, muchas veces usted puede estar interesado en una combinación lineal de los parámetros de regresión. Por ejemplo, si usted tiene un indicador de variable para un grupo dado, usted puede estar interesado en el error estándar para ese grupo significa, que serían ${\rm intercept} + \beta_{\rm grp}$. Entonces, para encontrar el error estándar para que el grupo estima decir, tendría $\sqrt{X^\top V X}$ donde $X$ es un vector de sus contrastes y $V$ es la matriz de covarianza. En nuestro caso, si tenemos solamente la adición de la covariable "grp", entonces $X = (1,1)$ ($1$ para la intercepción, $1$ por su pertenencia al grupo).
Por otra parte, la matriz de covarianza (o más, la matriz de correlación, que se identifica de forma única a partir de la matriz de covarianza, pero no viceversa) puede ser muy útil para cierto modelo de diagnóstico. Si dos variables están muy correlacionadas, una manera de pensar acerca de esto es que el modelo está teniendo problemas para averiguar qué variable es la responsable de un efecto (porque están tan estrechamente relacionados). Esto puede ser útil para una gran variedad de casos, como la selección de subconjuntos de variables a utilizar en un modelo predictivo; si dos variables están altamente correlacionadas, puede que sólo desee utilizar uno de los dos en el modelo predictivo.
Hay dos "tipos" de los coeficientes de regresión:
- "True" coeficientes de regresión (usualmente denotado $\beta$) que describen los datos subyacentes proceso de generación de los datos. Estos son números fijos, o "parámetros". Un ejemplo sería la velocidad de la luz $c$, lo que (se supone) es siempre el mismo en todas partes en el universo accesible.
- Los coeficientes de regresión estimados (generalmente denota denota $b$ o $\hat \beta$) que se calculan a partir de muestras de los datos. Las muestras son colecciones de variables aleatorias, por lo que los coeficientes de regresión estimados son también variables aleatorias. Un ejemplo sería una estimación de $c$ obtenido en un experimento.
Ahora piensa en lo que significa la covarianza. Tomar cualquiera de las dos variables aleatorias $X$$Y$. Si $\left| \mathrm{Cov}\left(X,Y\right) \right|$ es alta, entonces siempre se dibuja un gran valor absoluto de $X$ también se puede esperar para dibujar un gran valor absoluto de $Y$ en la misma dirección. Tenga en cuenta que la "alta" de aquí es relativa a la cantidad de variación en $X$$Y$, como se señaló en los comentarios.
El (estimado) covarianza de los dos coeficientes de regresión es la covarianza de las estimaciones, $b$. Si la covarianza entre los coeficientes estimados $b_1$ $b_2$ es alta, entonces en cualquier tipo de muestra donde: $b_1$ es alta, también se puede esperar $b_2$ a ser alta. En una más Bayesiano sentido, $b_1$ contiene información acerca de la $b_2$.
Observe de nuevo que "alta" es relativo. Aquí "$b_1$ es alto" significa que "$b_1$ es alta con respecto a su error estándar," y su covarianza ser "alto" significa "alto en relación con el producto de sus errores estándar." Una forma de suavizar estas interpretativo hipo es estandarizar cada una de regresión de entrada a dividir por su desviación estándar (o dos desviaciones estándar en algunos casos).
Un usuario de este sitio descrito $\mathrm{Cov}\left(b_1,b_2\right)$ "un poco de chocolate", pero no estoy totalmente de acuerdo. Por un lado, se podría utilizar esta interpretación a venir para arriba con un informativo de los priores de Bayesiana de regresión.
En cuanto a lo que esto realmente se utiliza para, Acantilado de AB respuesta es un buen resumen.