15 votos

¿La suposición de errores normales implica que Y también es normal?

A menos que me equivoque, en un modelo lineal, se asume que la distribución de la respuesta tiene una componente sistemática y una componente aleatoria. El término de error captura la componente aleatoria. Por lo tanto, si asumimos que el término de error está distribuido de forma normal, ¿no implica eso que la respuesta también está distribuida de forma normal? Creo que sí, pero luego afirmaciones como la siguiente parecen ser bastante confusas:

Y puedes ver claramente que la única suposición de "normalidad" en este modelo es que los residuos (o "errores" $\epsilon_i$) deben estar distribuidos de forma normal. No hay suposición sobre la distribución del predictor $x_i$ o la variable de respuesta $y_i.

Fuente: Predictores, respuestas y residuos: ¿Qué realmente necesita estar distribuido de forma normal?

10 votos

Si los $x$ no son estocásticos, la normalidad de $\epsilon$ implica la normalidad de la variable dependiente. Para variables independientes estocásticas, esto no se cumple en general, depende de la distribución de las variables independientes.

22voto

Paulius Puntos 369

El modelo OLS estándar es $Y = X \beta + \varepsilon$ con $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ para un valor fijo $X \in \mathbb R^{n \times p}.

De hecho, esto significa que $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$, aunque esto es una consecuencia de nuestra suposición sobre la distribución de $\varepsilon$, en lugar de ser en realidad la suposición. También ten en cuenta que estoy hablando sobre la distribución condicional de $Y, no la distribución marginal de Y. Me estoy centrando en la distribución condicional porque creo que eso es lo que realmente estás preguntando.

Creo que la parte que resulta confusa es que esto no significa que un histograma de $Y$ parecerá normal. Estamos diciendo que el vector completo $Y$ es una sola extracción de una distribución normal multivariada donde cada elemento tiene una media potencialmente diferente $E(Y_i|X_i) = X_i^T\beta$. Esto no es lo mismo que ser una muestra normal iid. Los errores $\varepsilon$ en realidad son una muestra iid, por lo que un histograma de ellos parecería normal (y es por eso que hacemos un gráfico QQ de los residuos, no de la respuesta).

Aquí tienes un ejemplo: supongamos que estamos midiendo la altura $H$ de una muestra de estudiantes de sexto grado y de doceavo. Nuestro modelo es $H_i = \beta_0 + \beta_1I(\text{estudiante de doceavo}) + \varepsilon_i$ con $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$. Si observamos un histograma de los $H_i probablemente veremos una distribución bimodal, con un pico para los estudiantes de sexto grado y otro para los de doceavo, pero eso no representa una violación de nuestras suposiciones.

0 votos

¿Alguien podría por favor aclarar la notación $\sigma^2 I_n$?

1 votos

Significa la matriz identidad $n \times n$ multiplicada por un escalar $\sigma^2$.

0 votos

La matriz identidad de $n \times n$ multiplicada por cierta varianza.

12voto

user777 Puntos 10934

Por lo tanto, si asumimos que el término de error sigue una distribución Normal, ¿no implica eso que la respuesta también sigue una distribución Normal?

Ni remotamente. La forma en que recuerdo esto es que los residuos son normales condicionalmente a la parte determinística del modelo. Aquí tienes una demostración de cómo se ve eso en la práctica.

Comienzo generando datos al azar. Luego defino un resultado que es una función lineal de los predictores y estimo un modelo.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Echemos un vistazo a cómo se ven estos residuos. Sospecho que deberían estar distribuidos normalmente, ya que el resultado y tuvo ruido normal independiente y idénticamente distribuido agregado a él. Y de hecho, así es.

enter image description here

plot(density(model$residuals), main="Residuos del modelo", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE de y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Sin embargo, al verificar la distribución de y, ¡podemos ver que definitivamente no es normal! He superpuesto la función de densidad con la misma media y varianza que y, ¡pero obviamente no encaja bien!

Densidad de y

La razón por la que esto sucedió en este caso es que los datos de entrada no son ni remotamente normales. Nada en este modelo de regresión requiere normalidad excepto en los residuos, no en la variable independiente ni en la variable dependiente.

Densidad de x

10voto

Zizzencs Puntos 1358

No, no lo es. Por ejemplo, supongamos que tenemos un modelo que predice el peso de los atletas olímpicos. Si bien es posible que el peso esté distribuido de manera normal entre los atletas de cada deporte, no lo estará entre todos los atletas, e incluso podría no ser unimodal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X