@DikranMarsupial tiene toda la razón, por supuesto, pero se me ocurrió que podría estar bien ilustrar su punto, especialmente porque esta preocupación parece surgir con frecuencia. En concreto, el residuos de un modelo de regresión deben distribuirse normalmente para que los valores p sean correctos. Sin embargo, aunque los residuos se distribuyan normalmente, eso no garantiza que $Y$ será (no es que importe... ); depende de la distribución de $X$ .
Pongamos un ejemplo sencillo (que me estoy inventando). Digamos que estamos probando un medicamento para hipertensión sistólica aislada (es decir, la parte superior presión sanguínea número es demasiado alto). Supongamos además que la presión arterial sistólica se distribuye normalmente dentro de nuestra población de pacientes, con una media de 160 y una desviación estándar de 3, y que por cada mg del fármaco que los pacientes toman cada día, la presión arterial sistólica disminuye en 1 mmHg. En otras palabras, el valor real de $\beta_0$ es de 160, y $\beta_1$ es -1, y la verdadera función generadora de datos es: $$ BP_{sys}=160-1\times\text{daily drug dosage}+\varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, 9) $$ En nuestro estudio ficticio, 300 pacientes son asignados aleatoriamente a tomar 0 mg (un placebo), 20 mg o 40 mg de este nuevo medicamento al día. (Obsérvese que $X$ no se distribuye normalmente). Entonces, tras un periodo de tiempo adecuado para que el fármaco haga efecto, nuestros datos podrían tener este aspecto:
(He repartido las dosis para que los puntos no se solapen tanto que sean difíciles de distinguir). Ahora, comprobemos las distribuciones de $Y$ (es decir, su distribución marginal / original), y los residuos:
Los gráficos qq nos muestran que $Y$ no es ni remotamente normal, pero que los residuos son razonablemente normales. Los gráficos de densidad del núcleo nos dan una imagen más intuitiva de las distribuciones. Está claro que $Y$ es trimodal mientras que los residuos tienen un aspecto muy parecido al de una distribución normal.
Pero qué pasa con el modelo de regresión ajustado, cuál es el efecto de la no normalidad $Y$ & $X$ (pero con residuos normales)? Para responder a esta pregunta, tenemos que especificar lo que nos puede preocupar sobre el rendimiento típico de un modelo de regresión en situaciones como ésta. La primera cuestión es si las betas, en promedio, son correctas. (Por supuesto, rebotarán un poco, pero a largo plazo, ¿están las distribuciones de muestreo de las betas centradas en los valores verdaderos?) Esta es la cuestión de sesgo . Otra cuestión es, ¿podemos confiar en los valores p que obtenemos? Es decir, cuando la hipótesis nula es verdadera, es $p<.05$ ¿sólo el 5% de las veces? Para determinar estas cosas, podemos simular los datos del proceso de generación de datos anterior y un caso paralelo en el que el fármaco no tiene efecto, un gran número de veces. Entonces podemos trazar las distribuciones de muestreo de $\beta_1$ y comprobar si están centrados en el valor verdadero, y también comprobar con qué frecuencia la relación era "significativa" en el caso nulo:
set.seed(123456789) # this make the simulation repeatable
b0 = 160; b1 = -1; b1_null = 0 # these are the true beta values
x = rep(c(0, 20, 40), each=100) # the (non-normal) drug dosages patients get
estimated.b1s = vector(length=10000) # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values = vector(length=10000)
for(i in 1:10000){
residuals = rnorm(300, mean=0, sd=3)
y.works = b0 + b1*x + residuals
y.null = b0 + b1_null*x + residuals # everything is identical except b1
model.works = lm(y.works~x)
model.null = lm(y.null~x)
estimated.b1s[i] = coef(model.works)[2]
estimated.b1ns[i] = coef(model.null)[2]
null.p.values[i] = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s) # the sampling distributions are centered on the true values
[1] -1.000084
mean(estimated.b1ns)
[1] -8.43504e-05
mean(null.p.values<.05) # when the null is true, p<.05 5% of the time
[1] 0.0532
Estos resultados demuestran que todo funciona bien.
No voy a pasar por el aro, pero si $X$ había sido normalmente distribuido, con la misma configuración por lo demás, la distribución original / marginal de $Y$ se habrían distribuido normalmente al igual que los residuos (aunque con una SD mayor). Tampoco he ilustrado los efectos de una distribución sesgada de $X$ (que es lo que impulsó esta pregunta), pero el punto de @DikranMarsupial es igual de válido en ese caso, y podría ilustrarse de manera similar.