¿Cuál es el error estándar residual?

Question

¿Cuál es el error estándar residual?

Preguntado el 30 de Abril, 2013: Cuando se hizo la pregunta
251799 visitas: Cuantas visitas ha tenido la pregunta
5 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Cuando se ejecuta un modelo de regresión múltiple en R, una de las salidas es un error estándar residual de 0.0589 en 95,161 grados de libertad. Sé que los 95,161 grados de libertad son dados por la diferencia entre el número de observaciones en mi muestra y el número de variables en mi modelo. ¿Cuál es el error estándar residual?

Preguntado el 30 de Abril, 2013 por Sam

3 votos

Esta pregunta y sus respuestas podrían ayudar: ¿Por qué decimos error estándar residual?

Comentado el 27 de Julio, 2016 por ℳ .

1 votos

Una pregunta rápida: ¿Es el "error estándar residual" lo mismo que la "desviación estándar residual"? Gelman y Hill (p.41, 2007) parecen usarlos indistintamente.

Comentado el 9 de Junio, 2018 por Gina McNevin

Answer 1

5 Respuestas

Answer 2

40voto

Hosam Bashir Puntos 16

Digamos que tenemos la siguiente tabla ANOVA (adaptada del comando example(aov) de R):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57

Si divides la suma de cuadrados de cualquier fuente de variación (modelo o residuos) por sus respectivos grados de libertad, obtienes el cuadrado medio. Particularmente para los residuos:

$\frac{306.3}{4} = 76.575 \approx 76.57$

Entonces 76.57 es el cuadrado medio de los residuos, es decir, la cantidad de variación residual (después de aplicar el modelo) en tu variable de respuesta.

El error estándar residual del que has preguntado no es más que la raíz cuadrada positiva del error cuadrático medio. En mi ejemplo, el error estándar residual sería igual a $\sqrt{76.57}$ , o aproximadamente 8.75. R mostraría esta información como "8.75 en 4 grados de libertad".

Respondido el 13 de Octubre, 2015 por Hosam Bashir (16 Puntos )

2 votos

He votado positivamente la respuesta de @AdamO porque, como persona que utiliza en su mayoría la regresión directa, esa respuesta fue la más directa para mí. No obstante, aprecio esta respuesta ya que ilustra la relación notacional/conceptual/metodológica entre ANOVA y la regresión lineal.

Comentado el 27 de Marzo, 2016 por lstg

Answer 3

33voto

alexs77 Puntos 36

Un modelo de regresión ajustado utiliza los parámetros para generar predicciones de punto estimado que son las medias de las respuestas observadas si replicaras el estudio con los mismos valores de $X$ un número infinito de veces (y cuando el modelo lineal es verdadero). La diferencia entre estos valores predichos y los usados para ajustar el modelo se llaman "residuos", los cuales, al replicar el proceso de recolección de datos, tienen propiedades de variables aleatorias con una media de 0.

Posteriormente, los residuos observados se utilizan para estimar la variabilidad en estos valores y estimar la distribución de muestreo de los parámetros. Cuando el error estándar residual es exactamente 0, entonces el modelo ajusta los datos perfectamente (probablemente debido al sobreajuste). Si no se puede demostrar que el error estándar residual es significativamente diferente de la variabilidad en la respuesta incondicional, entonces hay poca evidencia para sugerir que el modelo lineal tiene alguna capacidad predictiva.

Respondido el 30 de Abril, 2013 por alexs77 (36 Puntos )

6 votos

Esto puede haber sido respondido anteriormente. Verifique si esta pregunta proporciona las respuestas que necesita. [Interpretación de la salida de R's lm()][1] [1]: stats.stackexchange.com/questions/5135/…

Comentado el 1 de Mayo, 2013 por Lantrix

Answer 4

32voto

little_monster Puntos 124

Normalmente tendrás un modelo de regresión que se ve así: $Y = \beta_{0} + \beta_{1}X + \epsilon$ donde $\epsilon$ es un término de error independiente de $X$ .

Si se conocen $\beta_{0}$ y $\beta_{1}$ , aún no podemos predecir perfectamente Y usando X debido a $\epsilon$ . Por lo tanto, utilizamos RSE como un valor de juicio de la Desviación Estándar de $\epsilon$ .

RSE se explica bastante claramente en "Introducción al Aprendizaje Estadístico".

Respondido el 27 de Julio, 2016 por little_monster (124 Puntos )

8 votos

Esta debería ser la respuesta aceptada. RSE es solo una estimación de la Desviación Estándar de $\epsilon$ , es decir, el residual. También se conoce como la desviación estándar residual (RSD), y se puede definir como $RSE = \sqrt{\frac{RSS}{(n-2)}}$ (por ejemplo, ver la página 66 de ISL).

Comentado el 23 de Julio, 2017 por Stéphane

2 votos

Para cualquiera que esté leyendo el epub de ISL, puedes encontrar la "página 66" con ctrl-f "error estándar residual". (Los archivos Epub no tienen números de página reales).

Comentado el 24 de Marzo, 2019 por PatPeter

Answer 5

2voto

SitiSchu Puntos 11

El error estándar residual es $\sqrt{MSE}$ . El $MSE$ es un estimador no sesgado de $\sigma^2$ , donde $\sigma^2 = Var(y|x)$ .

Para hacer más clara la respuesta de @Silverfish y @Waldir Leoncio.
A continuación se muestra un resumen de todas las definiciones. Siempre me confundo con estos términos, así que los pongo aquí en lugar de hacerlo como un comentario para una mejor presentación.

Tabla Anova de RLS/Regresión Lineal Simple (DF es diferente para regresión múltiple):

Fuente

DF

Suma Cuad.

Media Cuad.

F valor

Regresión

$1$

$SSR$

$MSR = \frac{SSR}{1}$

$\frac{MSR}{MSE}$

Residual

$n - 2$

$SSE$

$MSE = \frac{SSE}{n - 2}$

Total

$n - 1$

$SST$

donde $n$ es el tamaño de la muestra de $x_i$ , $SST = SSE + SSR$ , $SST = S_{YY} = \sum_{i = 1}^{n}{(y_i - \bar{y})^2}$ , $SSE = \sum_{i = 1}^{n}{(y_i - \hat{y_i})^2}$ , $SSR = \sum_{i = 1}^{n}{(\hat{y_i} - \bar{y})^2}$ .

El $SSR$ es la parte de la varianza de $y_i$ que puede ser explicada por $\hat{y_i}$ , mientras más grande, mejor.

También para RLS, $se(\beta_1) = \sqrt{MSE}/\sqrt{S_{xx}}$ , donde $S_{XX}$ está definido de manera similar a $S_{YY}$ .

Respondido el 11 de Febrero, 2021 por SitiSchu (11 Puntos )

Answer 6

2voto

Matthias Puntos 31

Tal como señalan @Amelio Vazquez-Reina y @little_monster, dado un modelo de regresión (lineal simple): $Y = \beta_0 + X \beta_1 + \epsilon$ donde $\epsilon$ es un término de ruido con varianza $\sigma^2$ , es decir, $Var(\epsilon) = \sigma^2$ , El Error Estándar Residual ( $RSE$ ) es una estimación de $\sigma^2$ (siendo este último habitualmente desconocido). El RSE se calcula mediante la fórmula: $RSE = \sqrt{\frac{RSS}{n-2}}$ (ver ISLR, página 66), donde $RSS$ es una Suma de Cuadrados Residuales (suma de diferencias al cuadrado entre los valores reales y predichos): $RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)$ La razón de $n-2$ en el denominador de $\sqrt{\frac{RSS}{n-2}}$ es que $\sqrt{\frac{RSS}{n}}$ subestimaría $\sigma^2$ - esto se debe a que la función estimada, $\hat{y}$ , ha sido ajustada a los datos de manera que minimiza el RSS de los residuos, pero $\sigma^2$ se refiere a los errores (ver la diferencia entre errores y residuos). Imagina un caso extremo - si solo hay dos puntos de datos ( $n=2$ ), solo podemos ajustar una línea - nuestro RSS será 0, pero la verdadera función generadora (la que se utilizó para generar las dos muestras) tendrá una suma no nula de errores (asumiendo $\sigma^2 \neq 0$ ). Entonces el $n-2$ se refiere al hecho de que solo tenemos $n-2$ grados de libertad.

Observación: En el caso general (regresión lineal múltiple con $p$ características) el $RSE$ se estimará con: $RSE = \sqrt{\frac{RSS}{n-p-1}}$ (ver ISLR, página 80)

Respondido el 28 de Diciembre, 2021 por Matthias (31 Puntos )

¿Cuál es el error estándar residual?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuál es el error estándar residual?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: