55 votos

¿Cuál es el error estándar residual?

Cuando se ejecuta un modelo de regresión múltiple en R, una de las salidas es un error estándar residual de 0.0589 en 95,161 grados de libertad. Sé que los 95,161 grados de libertad son dados por la diferencia entre el número de observaciones en mi muestra y el número de variables en mi modelo. ¿Cuál es el error estándar residual?

3 votos

Esta pregunta y sus respuestas podrían ayudar: ¿Por qué decimos error estándar residual?

1 votos

Una pregunta rápida: ¿Es el "error estándar residual" lo mismo que la "desviación estándar residual"? Gelman y Hill (p.41, 2007) parecen usarlos indistintamente.

40voto

Hosam Bashir Puntos 16

Digamos que tenemos la siguiente tabla ANOVA (adaptada del comando example(aov) de R):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Si divides la suma de cuadrados de cualquier fuente de variación (modelo o residuos) por sus respectivos grados de libertad, obtienes el cuadrado medio. Particularmente para los residuos:

306.34=76.57576.57

Entonces 76.57 es el cuadrado medio de los residuos, es decir, la cantidad de variación residual (después de aplicar el modelo) en tu variable de respuesta.

El error estándar residual del que has preguntado no es más que la raíz cuadrada positiva del error cuadrático medio. En mi ejemplo, el error estándar residual sería igual a 76.57, o aproximadamente 8.75. R mostraría esta información como "8.75 en 4 grados de libertad".

2 votos

He votado positivamente la respuesta de @AdamO porque, como persona que utiliza en su mayoría la regresión directa, esa respuesta fue la más directa para mí. No obstante, aprecio esta respuesta ya que ilustra la relación notacional/conceptual/metodológica entre ANOVA y la regresión lineal.

33voto

alexs77 Puntos 36

Un modelo de regresión ajustado utiliza los parámetros para generar predicciones de punto estimado que son las medias de las respuestas observadas si replicaras el estudio con los mismos valores de X un número infinito de veces (y cuando el modelo lineal es verdadero). La diferencia entre estos valores predichos y los usados para ajustar el modelo se llaman "residuos", los cuales, al replicar el proceso de recolección de datos, tienen propiedades de variables aleatorias con una media de 0.

Posteriormente, los residuos observados se utilizan para estimar la variabilidad en estos valores y estimar la distribución de muestreo de los parámetros. Cuando el error estándar residual es exactamente 0, entonces el modelo ajusta los datos perfectamente (probablemente debido al sobreajuste). Si no se puede demostrar que el error estándar residual es significativamente diferente de la variabilidad en la respuesta incondicional, entonces hay poca evidencia para sugerir que el modelo lineal tiene alguna capacidad predictiva.

6 votos

Esto puede haber sido respondido anteriormente. Verifique si esta pregunta proporciona las respuestas que necesita. [Interpretación de la salida de R's lm()][1] [1]: stats.stackexchange.com/questions/5135/…

32voto

little_monster Puntos 124

Normalmente tendrás un modelo de regresión que se ve así: Y=β0+β1X+ϵ donde ϵ es un término de error independiente de X.

Si se conocen β0 y β1, aún no podemos predecir perfectamente Y usando X debido a ϵ. Por lo tanto, utilizamos RSE como un valor de juicio de la Desviación Estándar de ϵ.

RSE se explica bastante claramente en "Introducción al Aprendizaje Estadístico".

8 votos

Esta debería ser la respuesta aceptada. RSE es solo una estimación de la Desviación Estándar de ϵ, es decir, el residual. También se conoce como la desviación estándar residual (RSD), y se puede definir como RSE=RSS(n2) (por ejemplo, ver la página 66 de ISL).

2 votos

Para cualquiera que esté leyendo el epub de ISL, puedes encontrar la "página 66" con ctrl-f "error estándar residual". (Los archivos Epub no tienen números de página reales).

2voto

SitiSchu Puntos 11

El error estándar residual es MSE. El MSE es un estimador no sesgado de σ2, donde σ2=Var(y|x).

Para hacer más clara la respuesta de @Silverfish y @Waldir Leoncio.
A continuación se muestra un resumen de todas las definiciones. Siempre me confundo con estos términos, así que los pongo aquí en lugar de hacerlo como un comentario para una mejor presentación.

Tabla Anova de RLS/Regresión Lineal Simple (DF es diferente para regresión múltiple):

Fuente

DF

Suma Cuad.

Media Cuad.

F valor

Regresión

1

SSR

MSR=SSR1

MSRMSE

Residual

n2

SSE

MSE=SSEn2

Total

n1

SST

donde n es el tamaño de la muestra de xi, SST=SSE+SSR, SST=SYY=i=1n(yiy¯)2, SSE=i=1n(yiyi^)2, SSR=i=1n(yi^y¯)2.

El SSR es la parte de la varianza de yi que puede ser explicada por yi^, mientras más grande, mejor.

También para RLS, se(β1)=MSE/Sxx, donde SXX está definido de manera similar a SYY.

2voto

Matthias Puntos 31

Tal como señalan @Amelio Vazquez-Reina y @little_monster, dado un modelo de regresión (lineal simple): Y=β0+Xβ1+ϵ donde ϵ es un término de ruido con varianza σ2, es decir, Var(ϵ)=σ2, El Error Estándar Residual (RSE) es una estimación de σ2 (siendo este último habitualmente desconocido). El RSE se calcula mediante la fórmula: RSE=RSSn2 (ver ISLR, página 66), donde RSS es una Suma de Cuadrados Residuales (suma de diferencias al cuadrado entre los valores reales y predichos): RSS=i=1n(yiy^i) La razón de n2 en el denominador de RSSn2 es que RSSn subestimaría σ2 - esto se debe a que la función estimada, y^, ha sido ajustada a los datos de manera que minimiza el RSS de los residuos, pero σ2 se refiere a los errores (ver la diferencia entre errores y residuos). Imagina un caso extremo - si solo hay dos puntos de datos (n=2), solo podemos ajustar una línea - nuestro RSS será 0, pero la verdadera función generadora (la que se utilizó para generar las dos muestras) tendrá una suma no nula de errores (asumiendo σ20). Entonces el n2 se refiere al hecho de que solo tenemos n2 grados de libertad.

Observación: En el caso general (regresión lineal múltiple con p características) el RSE se estimará con: RSE=RSSnp1 (ver ISLR, página 80)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X