Regresión lineal Simple ha de Gauss errores como un buen atributo que no generalizar a generalizar modelos lineales.
En generalizar modelos lineales, la respuesta sigue alguna distribución dada, dada la media. Regresión lineal de la siguiente manera; si tenemos
$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$
con $\epsilon_i \sim N(0, \sigma)$
luego también tenemos
$y_i \sim N(\beta_0 + \beta_1 x_i, \sigma)$
Bueno, la respuesta sigue a la distribución dada por los modelos lineales generalizados, pero para la regresión lineal nosotros también tenemos que los residuos siguen una distribución Gaussiana. ¿Por qué se hizo hincapié en que los residuos son normales cuando esa no es la generalización de la regla? Bien, porque es mucho más útil la regla. La cosa agradable sobre el pensamiento acerca de la normalidad de los residuos es que esto es mucho más fácil de examinar. Si restamos a cabo la estimación de medias, todos los residuos deben tener aproximadamente la misma varianza y aproximadamente la misma media (0) y serán, aproximadamente, distribuido normalmente (nota: yo digo "casi" porque si no tenemos el perfecto estimaciones de los parámetros de regresión, que por supuesto que no, la varianza de las estimaciones de $\epsilon_i$ tienen diferentes variaciones basado en los rangos de $x$. Pero esperemos que no la suficiente precisión en las estimaciones que este es ignorable!).
Por otro lado, mirando a la ajustadas $y_i$'s, que realmente no podemos saber si son normales si todos ellos tienen diferentes medios. Por ejemplo, considere el siguiente modelo:
$y_i = 0 + 2 \times x_i + \epsilon_i$
con $\epsilon_i \sim N(0, 0.2)$ $x_i \sim \text{Bernoulli}(p = 0.5)$
A continuación, el $y_i$ será muy bimodal, pero no violan los supuestos de la regresión lineal! Por otro lado, los residuos se siguen aproximadamente una distribución normal.
He aquí algunos R
código para ilustrar.
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')