23 votos

Regresión lineal ¿qué nos dice el estadístico F, R al cuadrado y el error estándar residual?

Estoy realmente confuso sobre la diferencia de significado en relación con el contexto de la regresión lineal de los siguientes términos:

  • Estadística F
  • R al cuadrado
  • Error estándar residual

He encontrado esta web que me dio una gran comprensión de los diferentes términos involucrados en la regresión lineal, sin embargo los términos mencionados anteriormente se parecen bastante (por lo que yo entiendo). Citaré lo que leí y lo que me confundió:

El error estándar residual es una medida de la calidad de un modelo lineal. El error estándar residual es la desviación media de la respuesta (dist) con respecto a la línea de regresión real.

1. Por tanto, ¿se trata en realidad de la distancia media de los valores observados con respecto a la línea lm?

El estadístico R-cuadrado proporciona una medida de la eficacia de la modelo se ajusta a los datos reales.

2. Ahora me estoy confundiendo porque si el RSE nos dice cuánto se desvían nuestros puntos observados de la línea de regresión, un RSE bajo nos está diciendo en realidad "su modelo se ajusta bien basándose en los puntos de datos observados" --> por lo tanto lo bien que se ajusta nuestro modelo, así que ¿cuál es la diferencia entre R al cuadrado y RSE?

El estadístico F es un buen indicador de si existe una relación entre nuestro predictor y las variables de respuesta.

3. ¿Es cierto que podemos tener un valor F que indique una relación fuerte que no sea lineal, de modo que nuestro RSE sea alto y nuestro R al cuadrado sea bajo?

18voto

Stefan Puntos 737

La mejor manera de entender estos términos es hacer un cálculo de regresión a mano. Escribí dos respuestas estrechamente relacionadas ( aquí y aquí ), aunque es posible que no le ayuden plenamente a comprender su caso particular. No obstante, léalos. Quizá también le ayuden a conceptualizar mejor estos términos.

En una regresión (o ANOVA), construimos un modelo basado en un conjunto de datos de muestra que nos permite predecir los resultados de una población de interés. Para ello, en una regresión lineal simple se calculan los tres componentes siguientes, a partir de los cuales se pueden calcular los demás componentes, por ejemplo, los cuadrados medios, el valor F, el $R^2$ (también el ajustado $R^2$ ), y el error típico residual ( $RSE$ ):

  1. sumas totales de cuadrados ( $SS_{total}$ )
  2. sumas de cuadrados residuales ( $SS_{residual}$ )
  3. sumas de cuadrados del modelo ( $SS_{model}$ )

Cada una de ellas evalúa lo bien que el modelo describe los datos y son la suma de las distancias al cuadrado desde los puntos de datos hasta el modelo ajustado (ilustradas como líneas rojas en el gráfico siguiente).

En $SS_{total}$ evaluar hasta qué punto la media se ajusta a los datos. ¿Por qué la media? Porque la media es el modelo más sencillo que podemos ajustar y, por lo tanto, sirve como modelo con el que se compara la línea de regresión por mínimos cuadrados. Este gráfico utiliza la cars lo demuestra:

enter image description here

En $SS_{residual}$ evaluar hasta qué punto la recta de regresión se ajusta a los datos.

enter image description here

En $SS_{model}$ compara cuánto mejor es la línea de regresión en comparación con la media (es decir, la diferencia entre la $SS_{total}$ y el $SS_{residual}$ ).

enter image description here

Para responder a sus preguntas, calculemos primero los términos que desea comprender, empezando por el modelo y el resultado como referencia:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Las sumas de los cuadrados son las distancias al cuadrado de los puntos de datos individuales al modelo:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Los cuadrados medios son las sumas de cuadrados promediadas por los grados de libertad:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Mis respuestas a sus preguntas:

Q1:

  1. Por tanto, ¿se trata en realidad de la distancia media de los valores observados con respecto a la línea lm?

En error estándar residual ( $RSE$ ) es la raíz cuadrada del cuadrado medio residual ( $MS_{residual}$ ):

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

Si recuerda que el $SS_{residual}$ eran las distancias al cuadrado de los puntos de datos observados y el modelo (línea de regresión en el segundo gráfico anterior), y $MS_{residual}$ era sólo el media $SS_{residual}$ La respuesta a su primera pregunta es sí. $RSE$ representa la distancia media entre los datos observados y el modelo. Intuitivamente, esto también tiene mucho sentido porque si la distancia es menor, el ajuste del modelo también es mejor.

Q2:

  1. Ahora me estoy confundiendo porque si el RSE nos dice cuánto se desvían nuestros puntos observados de la línea de regresión, un RSE bajo nos está diciendo en realidad "su modelo se ajusta bien basándose en los puntos de datos observados" --> por lo tanto lo bien que se ajusta nuestro modelo, así que ¿cuál es la diferencia entre R al cuadrado y RSE?

Ahora el $R^2$ es la relación entre el $SS_{model}$ y el $SS_{total}$ :

# R squared
r.sq <- ss.model/ss.total
r.sq

En $R^2$ expresa la cantidad de variación total en los datos puede explicarse mediante el modelo (la línea de regresión). Recuerda que la variación total era la variación de los datos cuando ajustamos el modelo más sencillo a los datos, es decir, la media. Compara la $SS_{total}$ con el $SS_{model}$ parcela.

Así que para responder a su segunda pregunta, la diferencia entre el $RSE$ y el $R^2$ es que el $RSE$ nos dice algo sobre la inexactitud del modelo (en este caso la recta de regresión) dados los datos observados.

En $R^2$ por otro lado, le indica cuánta variación explica el modelo (es decir, la línea de regresión) en relación con la variación que explicaba la media por sí sola (es decir, el modelo más simple).

Q3:

  1. ¿Es cierto que podemos tener un valor F que indique una relación fuerte que no sea lineal, de modo que nuestra RSE sea alta y nuestra R al cuadrado sea baja?

Así que el $F$ -se calcula como el cuadrado medio del modelo. $MS_{model}$ (o la señal) dividido por el $MS_{residual}$ (ruido):

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

O lo que es lo mismo $F$ -valor expresa cuánto ha mejorado el modelo (en comparación con la media) dada la inexactitud del modelo.

Su tercera pregunta es un poco difícil de entender, pero estoy de acuerdo con la cita que ha proporcionado.

3voto

Phantom Watson Puntos 121

(2) Lo has entendido bien, pero te cuesta entender el concepto.

En $R^2$ representa lo bien que el modelo tiene en cuenta todos los datos. Sólo puede tomar valores entre 0 y 1. Es el porcentaje de la desviación de los puntos del conjunto de datos que el modelo puede explicar.

El RSE es más bien un descriptor de la desviación del modelo que representan los datos originales. Así, el $R^2$ dice, "el modelo explica así de bien los datos presentados". La RSE dice: "al trazar el mapa, esperábamos que los datos estuvieran aquí, pero aquí es donde realmente estaban". Son muy similares, pero se utilizan para validar de formas distintas.

1voto

ssn Puntos 472

Como señalo en esta otra respuesta , $F$ , $RSS$ y $R^2$ están todos interrelacionados. He aquí el extracto correspondiente:

El estadístico F entre dos modelos, el modelo nulo (sólo intercepto) $m_0$ y el modelo alternativo $m_1$ ( $m_0$ está anidado dentro de $m_1$ ) es:

$$F = \frac{\left( \frac{RSS_0-RSS_1}{p_1-p_0} \right)} {\left( \frac{RSS_1}{n-p_1} \right)} = \left( \frac{RSS_0-RSS_1}{p_1-p_0} \right) \left( \frac{n-p_1}{RSS_1} \right)$$

$R^2$ por otra parte, se define como:

$$ R^2 = 1-\frac{RSS_1}{RSS_0} $$

Reorganización de $F$ podemos verlo:

$$F = \left( \frac{RSS_0-RSS_1}{RSS_1} \right) \left( \frac{n-p_1}{p_1-p_0} \right) = \left( \frac{RSS_0}{RSS_1}-1 \right) \left( \frac{n-p_1}{p_1-p_0} \right) = \left( \frac{R^2}{1-R^2} \right) \left( \frac{n-p_1}{p_1-p_0} \right)$$

0voto

YSC Puntos 1

Sólo para complementar lo que Chris respondió anteriormente:

El estadístico F es la división del cuadrado medio del modelo y el cuadrado medio residual. Los programas informáticos como Stata, después de ajustar un modelo de regresión, también proporcionan el valor p asociado con el estadístico F. Esto le permite probar la hipótesis nula de que el modelo es coherente con la regresión. Esto le permite probar la hipótesis nula de que los coeficientes de su modelo son cero. Podría considerarse como la "significación estadística del modelo en su conjunto".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X