140 votos

¿Qué ocurre si los residuos se distribuyen normalmente, pero y no?

Tengo una pregunta extraña. Supongamos que tienes una muestra pequeña en la que la variable dependiente que vas a analizar con un modelo lineal simple está muy sesgada a la izquierda. Por lo tanto, se supone que $u$ no se distribuye normalmente, porque esto daría lugar a una distribución normal $y$ . Pero cuando se calcula el gráfico QQ-Normal hay pruebas de que los residuos están distribuidos normalmente. Por lo tanto, cualquiera puede asumir que el término de error se distribuye normalmente, aunque $y$ no lo es. Entonces, ¿qué significa, cuando el término de error parece estar distribuido normalmente, pero $y$ ¿no?

181voto

John Richardson Puntos 1197

Es razonable que los residuos de un problema de regresión estén distribuidos normalmente, aunque la variable de respuesta no lo esté. Consideremos un problema de regresión univariante en el que $y \sim \mathcal{N}(\beta x, \sigma^2)$ . para que el modelo de regresión sea adecuado, y además suponer que el verdadero valor de $\beta=1$ . En este caso, mientras que los residuos del modelo de regresión verdadero son normales, la distribución de $y$ depende de la distribución de $x$ como la media condicional de $y$ es una función de $x$ . Si el conjunto de datos tiene muchos valores de $x$ que se acercan a cero y se reducen progresivamente cuanto mayor es el valor de $x$ entonces la distribución de $y$ se inclinará hacia la derecha. Si los valores de $x$ se distribuyen simétricamente, entonces $y$ se distribuirá simétricamente, y así sucesivamente. Para un problema de regresión, sólo suponemos que la respuesta es normal condicionada al valor de $x$ .

14 votos

(+1) ¡No creo que esto se pueda repetir lo suficiente! Ver también la misma cuestión que se discute aquí .

1 votos

Entiendo su respuesta y me parece correcta. Al menos te has ganado un montón de votos positivos :) Pero no estoy nada contento. Así que en tu ejemplo $\beta=1$ las suposiciones que has hecho son $y\sim N(1\cdot x,\sigma^{2})$ . Pero cuando estoy estimando la regresión estoy estimando $E(y|x)$ . Así, $x$ debe darse en el momento en que estimo la media. De esto debería deducirse que x es un valor y que no me importa cómo estaba distribuido antes de realizarlo. Así que $y\sim N(value,\sigma^{2})$ es la distribución de $y$ . No entiendo dónde está el $x$ está afectando a la $y$ .

6 votos

Yo también estoy bastante (gratamente) sorprendido por el número de votos ;o) Para obtener los datos utilizados para ajustar el modelo de regresión, has tomado una muestra de alguna distribución conjunta $p(y,x)$ a partir de la cual se quiere estimar $E(y|x)$ . Sin embargo, como $y$ es una función (ruidosa) de $x$ la distribución de las muestras de $y$ debe depender de la distribución de las muestras de $x$ para esa muestra en particular. Puede que no le interese la "verdadera" distribución de $x$ pero la distribución muestral de y depende de la muestra de x.

117voto

Sean Hanley Puntos 2428

@DikranMarsupial tiene toda la razón, por supuesto, pero se me ocurrió que podría estar bien ilustrar su punto, especialmente porque esta preocupación parece surgir con frecuencia. En concreto, el residuos de un modelo de regresión deben distribuirse normalmente para que los valores p sean correctos. Sin embargo, aunque los residuos se distribuyan normalmente, eso no garantiza que $Y$ será (no es que importe... ); depende de la distribución de $X$ .

Pongamos un ejemplo sencillo (que me estoy inventando). Digamos que estamos probando un medicamento para hipertensión sistólica aislada (es decir, la parte superior presión sanguínea número es demasiado alto). Supongamos además que la presión arterial sistólica se distribuye normalmente dentro de nuestra población de pacientes, con una media de 160 y una desviación estándar de 3, y que por cada mg del fármaco que los pacientes toman cada día, la presión arterial sistólica disminuye en 1 mmHg. En otras palabras, el valor real de $\beta_0$ es de 160, y $\beta_1$ es -1, y la verdadera función generadora de datos es: $$ BP_{sys}=160-1\times\text{daily drug dosage}+\varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, 9) $$ En nuestro estudio ficticio, 300 pacientes son asignados aleatoriamente a tomar 0 mg (un placebo), 20 mg o 40 mg de este nuevo medicamento al día. (Obsérvese que $X$ no se distribuye normalmente). Entonces, tras un periodo de tiempo adecuado para que el fármaco haga efecto, nuestros datos podrían tener este aspecto:

enter image description here

(He repartido las dosis para que los puntos no se solapen tanto que sean difíciles de distinguir). Ahora, comprobemos las distribuciones de $Y$ (es decir, su distribución marginal / original), y los residuos:

enter image description here

Los gráficos qq nos muestran que $Y$ no es ni remotamente normal, pero que los residuos son razonablemente normales. Los gráficos de densidad del núcleo nos dan una imagen más intuitiva de las distribuciones. Está claro que $Y$ es trimodal mientras que los residuos tienen un aspecto muy parecido al de una distribución normal.

Pero qué pasa con el modelo de regresión ajustado, cuál es el efecto de la no normalidad $Y$ & $X$ (pero con residuos normales)? Para responder a esta pregunta, tenemos que especificar lo que nos puede preocupar sobre el rendimiento típico de un modelo de regresión en situaciones como ésta. La primera cuestión es si las betas, en promedio, son correctas. (Por supuesto, rebotarán un poco, pero a largo plazo, ¿están las distribuciones de muestreo de las betas centradas en los valores verdaderos?) Esta es la cuestión de sesgo . Otra cuestión es, ¿podemos confiar en los valores p que obtenemos? Es decir, cuando la hipótesis nula es verdadera, es $p<.05$ ¿sólo el 5% de las veces? Para determinar estas cosas, podemos simular los datos del proceso de generación de datos anterior y un caso paralelo en el que el fármaco no tiene efecto, un gran número de veces. Entonces podemos trazar las distribuciones de muestreo de $\beta_1$ y comprobar si están centrados en el valor verdadero, y también comprobar con qué frecuencia la relación era "significativa" en el caso nulo:

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

enter image description here

Estos resultados demuestran que todo funciona bien.

No voy a pasar por el aro, pero si $X$ había sido normalmente distribuido, con la misma configuración por lo demás, la distribución original / marginal de $Y$ se habrían distribuido normalmente al igual que los residuos (aunque con una SD mayor). Tampoco he ilustrado los efectos de una distribución sesgada de $X$ (que es lo que impulsó esta pregunta), pero el punto de @DikranMarsupial es igual de válido en ese caso, y podría ilustrarse de manera similar.

2 votos

Entonces, ¿la suposición de que los residuos se distribuyen normalmente es sólo para que los valores p sean correctos? ¿Por qué los valores p pueden ser erróneos si los residuos no son normales?

4 votos

@loganecolss, eso podría ser mejor como una nueva pregunta. En cualquier caso, tiene que ver con que los valores p sean correctos. Si sus residuos son suficientemente no normales y su N es bajo, entonces la distribución de muestreo diferirá de cómo se teoriza. Dado que el valor p es la parte de esa distribución de muestreo que está más allá de su estadística de prueba, el valor p será incorrecto.

-3voto

Cyrus Puntos 301

En el ajuste de un modelo de regresión, debemos comprobar la normalidad de la respuesta en cada nivel de $X$ pero no colectivamente en su conjunto, ya que es sin sentido para este propósito . Si realmente necesita comprobar la normalidad de $Y$ y luego comprobarlo para cada $X$ nivel.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X