Este es un lugar donde he encontrado que mirar algunas fórmulas ayuda, incluso para las personas con cierta ansiedad matemática (no estoy sugiriendo que lo hagas, necesariamente). La simple modelo de regresión lineal es esto:
$$ Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2_\varepsilon) $$ Lo que es importante señalar aquí es que este modelo establece explícitamente que una vez que se ha estimado la información significativa de los datos (que es la " $\beta_0+\beta_1X$ ") no queda más que ruido blanco. Además, los errores se distribuyen como Normal con una varianza de $\sigma^2_\varepsilon$ .
Es importante saber que $\sigma^2_\varepsilon$ no es un variable (aunque en el nivel de álgebra de la escuela secundaria, lo llamaríamos así). No varía. $X$ varía. $Y$ varía. El término de error, $\varepsilon$ , varía al azar es decir, es un variable aleatoria . Sin embargo, los parámetros ( $\beta_0,~\beta_1,~\sigma^2_\varepsilon)$ son marcadores de posición para valores que no conocemos no varían. En cambio, son constantes desconocidas . El resultado de este hecho para esta discusión es que no importa lo que $X$ es (es decir, qué valor se introduce allí), $\sigma^2_\varepsilon$ sigue siendo el mismo. En otras palabras, la varianza de los errores/residuos es constante. En aras del contraste (y quizás de una mayor claridad), consideremos este modelo:
$$ Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, f(X)) \\ ~ \\ \text{where } f(X)=\exp(\gamma_0+\gamma_1 X) \\ \text{and }\gamma_1\ne 0 $$ En este caso, introducimos un valor para $X$ (a partir de la tercera línea), pásalo por la función $f(X)$ y obtener la varianza del error que obtiene a ese valor exacto de $X$ . A continuación, nos movemos por el resto de la ecuación como de costumbre.
El debate anterior debería ayudar a comprender la naturaleza del supuesto; la pregunta también se refiere a cómo evaluar la misma. Existen básicamente dos enfoques: las pruebas de hipótesis formales y el examen de los gráficos. Las pruebas de heteroscedasticidad pueden utilizarse si se tienen datos de tipo experimental (es decir, que sólo se producen en valores fijos de $X$ ) o un ANOVA. Aquí analizo algunas de estas pruebas: Por qué la prueba de Levene de igualdad de varianzas en lugar de la razón F . Sin embargo, tiendo a pensar que mirar las parcelas es lo mejor. @Penquin_Knight ha hecho un buen trabajo mostrando el aspecto de la varianza constante mediante el trazado de los residuos de un modelo en el que se obtiene homocedasticidad frente a los valores ajustados. La heteroscedasticidad también puede detectarse en un gráfico de los datos brutos, o en un gráfico de localización de escala (también llamado nivel de dispersión). R traza convenientemente este último para usted con una llamada a plot.lm(model, which=2)
es la raíz cuadrada de los valores absolutos de los residuos frente a los valores ajustados, con un lowess curva útilmente superpuesta. Quieres que el ajuste lowess sea plano, no inclinado.
Considere los gráficos siguientes, que comparan el aspecto de los datos homocedasticos frente a los heteroscedasticos en estos tres tipos diferentes de figuras. Obsérvese la forma de embudo de los dos gráficos superiores heteroscedásticos, y la línea de baja pendiente ascendente en el último.
Para completar, aquí está el código que he utilizado para generar estos datos:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)