Este es un lugar donde he encontrado que ver algunas fórmulas ayuda, incluso para personas con algo de ansiedad matemática (no estoy sugiriendo que tú lo tengas, necesariamente). El simple modelo de regresión lineal es este:
Y=β0+β1X+εdonde ε∼N(0,σ2ε) Lo importante a tener en cuenta aquí es que este modelo declara explícitamente que una vez que has estimado la información significativa en los datos (que es "β0+β1X") no queda nada más que ruido blanco. Además, los errores se distribuyen como una Normal con una varianza de σ2ε.
Es importante darse cuenta de que σ2ε no es una variable (aunque en álgebra de nivel de secundaria podríamos llamarla así). No varía. X varía. Y varía. El término de error, ε, varía aleatoriamente; es decir, es una variable aleatoria. Sin embargo, los parámetros (β0, β1, σ2ε) son espacios reservados para valores que no conocemos, no varían. Más bien, son constantes desconocidas. La conclusión de este hecho para esta discusión es que no importa cuál sea el valor de X (es decir, qué valor se coloque allí), σ2ε sigue siendo el mismo. En otras palabras, la varianza de los errores/residuos es constante. Para contrastar (y tal vez para mayor claridad), considera este modelo:
Y=β0+β1X+εdonde ε∼N(0,f(X)) donde f(X)=exp(γ0+γ1X)y γ1≠0 En este caso, se introduce un valor para X (comenzando en la tercera línea), se pasa por la función f(X) y se obtiene la varianza del error que se obtiene en ese valor exacto de X. Luego se procede con el resto de la ecuación como de costumbre.
La discusión anterior debería ayudar a comprender la naturaleza de la suposición; la pregunta también trata sobre cómo evaluar esta. Básicamente hay dos enfoques: pruebas formales de hipótesis y examinar gráficos. Se pueden utilizar pruebas de heterocedasticidad si tienes datos de tipo experimental (es decir, que solo ocurren en valores fijos de X) o un ANOVA. Hablo de algunas pruebas de este tipo aquí: ¿Por qué la prueba Levene de igualdad de varianzas en lugar de la razón F?. Sin embargo, creo que mirar gráficos es lo mejor. @Penquin_Knight ha hecho un buen trabajo mostrando cómo se ve la varianza constante trazando los residuos de un modelo donde se obtiene homocedasticidad frente a los valores ajustados. La heterocedasticidad también se puede detectar posiblemente en un gráfico de los datos en bruto, o en un gráfico de escala-ubicación (también llamado nivel de dispersión). R convenientemente traza esto por ti con un llamado a plot(linear.model, which=3)
; es la raíz cuadrada de los valores absolutos de los residuos frente a los valores ajustados, con una curva lowess útilmente superpuesta. Deseas que el ajuste de lowess sea plano, no inclinado.
Considera los gráficos a continuación, que comparan cómo podrían verse datos homocedásticos vs. heterocedásticos en estos tres tipos de figuras diferentes. Observa la forma de embudo para los dos primeros gráficos heterocedásticos, y la línea lowess inclinada hacia arriba en el último.
![ingresar descripción de la imagen aquí]()
Por completitud, aquí está el código que utilicé para generar estos datos:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)