La mejor manera de entender estos términos es hacer un cálculo de regresión a mano. Escribí dos respuestas estrechamente relacionadas ( aquí y aquí ), aunque es posible que no le ayuden plenamente a comprender su caso particular. No obstante, léalos. Quizá también le ayuden a conceptualizar mejor estos términos.
En una regresión (o ANOVA), construimos un modelo basado en un conjunto de datos de muestra que nos permite predecir los resultados de una población de interés. Para ello, en una regresión lineal simple se calculan los tres componentes siguientes, a partir de los cuales se pueden calcular los demás componentes, por ejemplo, los cuadrados medios, el valor F, el $R^2$ (también el ajustado $R^2$ ), y el error típico residual ( $RSE$ ):
- sumas totales de cuadrados ( $SS_{total}$ )
- sumas de cuadrados residuales ( $SS_{residual}$ )
- sumas de cuadrados del modelo ( $SS_{model}$ )
Cada una de ellas evalúa lo bien que el modelo describe los datos y son la suma de las distancias al cuadrado desde los puntos de datos hasta el modelo ajustado (ilustradas como líneas rojas en el gráfico siguiente).
En $SS_{total}$ evaluar hasta qué punto la media se ajusta a los datos. ¿Por qué la media? Porque la media es el modelo más sencillo que podemos ajustar y, por lo tanto, sirve como modelo con el que se compara la línea de regresión por mínimos cuadrados. Este gráfico utiliza la cars
lo demuestra:
En $SS_{residual}$ evaluar hasta qué punto la recta de regresión se ajusta a los datos.
En $SS_{model}$ compara cuánto mejor es la línea de regresión en comparación con la media (es decir, la diferencia entre la $SS_{total}$ y el $SS_{residual}$ ).
Para responder a sus preguntas, calculemos primero los términos que desea comprender, empezando por el modelo y el resultado como referencia:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Las sumas de los cuadrados son las distancias al cuadrado de los puntos de datos individuales al modelo:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Los cuadrados medios son las sumas de cuadrados promediadas por los grados de libertad:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Mis respuestas a sus preguntas:
Q1:
- Por tanto, ¿se trata en realidad de la distancia media de los valores observados con respecto a la línea lm?
En error estándar residual ( $RSE$ ) es la raíz cuadrada del cuadrado medio residual ( $MS_{residual}$ ):
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
Si recuerda que el $SS_{residual}$ eran las distancias al cuadrado de los puntos de datos observados y el modelo (línea de regresión en el segundo gráfico anterior), y $MS_{residual}$ era sólo el media $SS_{residual}$ La respuesta a su primera pregunta es sí. $RSE$ representa la distancia media entre los datos observados y el modelo. Intuitivamente, esto también tiene mucho sentido porque si la distancia es menor, el ajuste del modelo también es mejor.
Q2:
- Ahora me estoy confundiendo porque si el RSE nos dice cuánto se desvían nuestros puntos observados de la línea de regresión, un RSE bajo nos está diciendo en realidad "su modelo se ajusta bien basándose en los puntos de datos observados" --> por lo tanto lo bien que se ajusta nuestro modelo, así que ¿cuál es la diferencia entre R al cuadrado y RSE?
Ahora el $R^2$ es la relación entre el $SS_{model}$ y el $SS_{total}$ :
# R squared
r.sq <- ss.model/ss.total
r.sq
En $R^2$ expresa la cantidad de variación total en los datos puede explicarse mediante el modelo (la línea de regresión). Recuerda que la variación total era la variación de los datos cuando ajustamos el modelo más sencillo a los datos, es decir, la media. Compara la $SS_{total}$ con el $SS_{model}$ parcela.
Así que para responder a su segunda pregunta, la diferencia entre el $RSE$ y el $R^2$ es que el $RSE$ nos dice algo sobre la inexactitud del modelo (en este caso la recta de regresión) dados los datos observados.
En $R^2$ por otro lado, le indica cuánta variación explica el modelo (es decir, la línea de regresión) en relación con la variación que explicaba la media por sí sola (es decir, el modelo más simple).
Q3:
- ¿Es cierto que podemos tener un valor F que indique una relación fuerte que no sea lineal, de modo que nuestra RSE sea alta y nuestra R al cuadrado sea baja?
Así que el $F$ -se calcula como el cuadrado medio del modelo. $MS_{model}$ (o la señal) dividido por el $MS_{residual}$ (ruido):
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
O lo que es lo mismo $F$ -valor expresa cuánto ha mejorado el modelo (en comparación con la media) dada la inexactitud del modelo.
Su tercera pregunta es un poco difícil de entender, pero estoy de acuerdo con la cita que ha proporcionado.