281 votos

Interpretación de la salida de R's lm()

las páginas de ayuda en R asumen que sé lo que significan esos números. No lo sé.) Estoy tratando de entender realmente intuitivamente cada número aquí. Sólo publicaré el resultado y comentaré lo que he averiguado. Puede que haya (haya) errores, ya que sólo escribiré lo que supongo. Por favor, corrígeme, y editaré las partes equivocadas.
Principalmente me gustaría saber qué significa el valor t en los coeficientes, y por qué imprimen el error estándar residual. Espero que alguien pueda aclararlo.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Un resumen de 5 puntos de los residuos (su media es siempre 0, ¿verdad?). Los números pueden ser usados (supongo que aquí) para ver rápidamente si hay grandes valores atípicos. También puedes ver aquí si los residuos están lejos de estar distribuidos normalmente (deberían estar distribuidos normalmente).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Estimaciones $ \hat { \beta_i }$ calculada por la regresión de los mínimos cuadrados. Además, el error estándar $ \sigma_ { \beta_i }$ . Me gustaría saber cómo se calcula esto.
Además, ni idea de dónde vienen el valor t y la p correspondiente. Yo sé $ \hat { \beta }$ debería estar distribuido normalmente, pero ¿cómo se calcula el valor t?

Residual standard error: 0.407 on 148 degrees of freedom

$ \sqrt { \frac {1}{n-p} \epsilon ^T \epsilon }$ Supongo que ¿Pero por qué calculamos eso, y qué nos dice?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

$ R^2 = \frac {s_ \hat {y}^2}{s_y^2} $ que es $ \frac { \sum_ {i=1}^n ( \hat {y_i}- \bar {y})^2}{ \sum_ {i=1}^n (y_i- \bar {y})^2} $ . La proporción es cercana a 1 si los puntos se encuentran en línea recta, y 0 si son aleatorios.
¿Qué es el R-cuadrado ajustado?

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F y p de la todo modelo, no sólo para una sola $ \beta_i $ como los anteriores. El valor de F es $ \frac {s^2_{ \hat {y}}}{ \sum\epsilon_i } $ . Cuanto más grande crece, más improbable es que el $ \beta $ no tienen ningún efecto en absoluto.

0 votos

Los residuos no se desvían tanto de la normalidad, ¿por qué lo cree?

0 votos

@nico: Creo que @Alexx Hardt estaba hablando hipotéticamente. Es decir, una vez podría utilizar el resumen de cinco números para ver si los residuos se desvían de la normalidad

0 votos

@Gavin Simpson: tienes razón, interpreté mal la frase. No tengas en cuenta mi comentario anterior.

243voto

David J. Sokol Puntos 1730

Resumen de cinco puntos

Sí, la idea es hacer un resumen rápido de la distribución. Debe ser más o menos simétrica respecto a la media, la mediana debe estar cerca de 0, los valores 1Q y 3Q deben ser idealmente valores más o menos similares.

Coeficientes y $\hat{\beta_i}s$

Cada coeficiente del modelo es una variable aleatoria gaussiana (normal). La dirección $\hat{\beta_i}$ es la estimación de la media de la distribución de esa variable aleatoria, y el error estándar es la raíz cuadrada de la varianza de esa distribución. Es una medida de la incertidumbre en la estimación de la $\hat{\beta_i}$ .

Puede ver cómo se calculan (así como las fórmulas matemáticas utilizadas) en Wikipedia . Tenga en cuenta que cualquier programa de estadísticas que se precie no utilizar las ecuaciones matemáticas estándar para calcular el $\hat{\beta_i}$ porque hacerlos en un ordenador puede suponer una gran pérdida de precisión en los cálculos.

$t$ -estadística

El $t$ son las estimaciones ( $\hat{\beta_i}$ ) dividido por sus errores estándar ( $\hat{\sigma_i}$ ), por ejemplo $t_i = \frac{\hat{\beta_i}}{\hat{\sigma_i}}$ . Asumiendo que tiene el mismo modelo en el objeto mod como su Q:

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

entonces el $t$ Los valores de los informes R se calculan como:

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Donde coef(mod) son los $\hat{\beta_i}$ y sqrt(diag(vcov(mod))) da las raíces cuadradas de los elementos diagonales de la matriz de covarianza de los parámetros del modelo, que son los errores estándar de los parámetros ( $\hat{\sigma_i}$ ).

El valor p es la probabilidad de conseguir un $|t|$ tan grande o más que el valor t absoluto observado si la hipótesis nula ( $H_0$ ) era verdadera, donde $H_0$ es $\beta_i = 0$ . Se calculan como (utilizando tstats desde arriba):

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Así que calculamos la probabilidad de la cola superior de alcanzar el $t$ valores que hicimos de un $t$ con grados de libertad iguales a los grados de libertad residuales del modelo. Esto representa la probabilidad de conseguir un $t$ mayor que los valores absolutos de los observados $t$ s. Se multiplica por 2, porque por supuesto $t$ también puede ser grande en sentido negativo.

Error estándar residual

El error estándar residual es una estimación del parámetro $\sigma$ . La hipótesis de los mínimos cuadrados ordinarios es que los residuos están descritos individualmente por una distribución gaussiana (normal) con media 0 y desviación típica $\sigma$ . El $\sigma$ se relaciona con el supuesto de varianza constante; cada residuo tiene la misma varianza y esa varianza es igual a $\sigma^2$ .

Ajustado $R^2$

Ajustado $R^2$ se calcula como:

$$1 - (1 - R^2) \frac{n - 1}{n - p - 1}$$

El ajuste $R^2$ es lo mismo que $R^2$ pero ajustado a la complejidad (es decir, al número de parámetros) del modelo. Dado un modelo con un solo parámetro, con un determinado $R^2$ Si añadimos otro parámetro a este modelo, el $R^2$ del nuevo modelo tiene que aumentar, incluso si el parámetro añadido no tiene poder estadístico. El parámetro ajustado $R^2$ lo tiene en cuenta al incluir el número de parámetros en el modelo.

$F$ -estadística

El $F$ es el cociente de dos varianzas ( $SSR/SSE$ ), la varianza explicada por los parámetros del modelo (suma de cuadrados de la regresión, SSR) y la varianza residual o no explicada (suma de cuadrados del error, SSE). Esto se puede ver mejor si obtenemos la tabla ANOVA para el modelo a través de anova() :

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

El $F$ s son los mismos en la salida del ANOVA y el summary(mod) de salida. El Mean Sq contiene las dos variantes y $3.7945 / 0.1656 = 22.91$ . Podemos calcular la probabilidad de conseguir un $F$ tan grande bajo la hipótesis nula de ausencia de efecto, de un $F$ -con 1 y 148 grados de libertad. Esto es lo que se indica en la última columna de la tabla ANOVA. En el caso simple de un único predictor continuo (como en su ejemplo), $F = t_{\mathrm{Petal.Width}}^2$ por lo que los valores p son los mismos. Esta equivalencia sólo es válida en este caso sencillo.

0 votos

Esto requerirá algo de tiempo y jugar con R para entenderlo. Muchas gracias por ahora, podría seguir con algunas preguntas en algún momento :)

6 votos

@Gavin (+1) ¡Gran respuesta con bonitas ilustraciones!

2 votos

Buen trabajo. Una cosa que podría aclarar, con respecto al cálculo de los valores t: sqrt(diag(vcov(mod)) produce el SE de las estimaciones. Estos son los mismos SEs que se muestran en el resumen del modelo. Es más fácil y claro decir que t = Estimación/Estimación SE. En ese sentido, no es diferente de cualquier otro valor de t.

2voto

Sahil Biswas Puntos 21

Ronen Israel y Adrienne Ross (AQR) escribieron un documento muy bueno sobre este tema: Medición de la exposición a los factores: Usos y abusos .

Para resumir (ver: p. 8),

  • Por lo general, cuanto más alto sea el $R^2$ cuanto mejor explique el modelo la rentabilidad de la cartera.
  • Cuando el estadístico t es mayor que dos, podemos decir con un 95% de confianza (o un 5% de posibilidades de equivocarnos) que la estimación beta es estadísticamente diferente de cero. En otras palabras, podemos decir que una cartera tiene una exposición significativa a un factor.

R's lm() resumen calcula el valor p Pr(>|t|) . Cuanto menor sea el valor p, más significativo es el factor. El valor p = 0,05 es un umbral razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X