66 votos

¿Qué significa tener "varianza constante" en un modelo de regresión lineal?

¿Qué significa tener "varianza constante" en el término de error? Tal y como yo lo veo, tenemos unos datos con una variable y una variable independiente. Este es un supuesto de la regresión lineal. Me pregunto qué significa esta homocedasticidad. Ya que si tengo 500 filas tendría un solo valor de varianza que obviamente es constante. ¿Con qué variable debo comparar la varianza?

70voto

Sean Hanley Puntos 2428

Este es un lugar donde he encontrado que mirar algunas fórmulas ayuda, incluso para las personas con cierta ansiedad matemática (no estoy sugiriendo que lo hagas, necesariamente). La simple modelo de regresión lineal es esto:
$$ Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2_\varepsilon) $$ Lo que es importante señalar aquí es que este modelo establece explícitamente que una vez que se ha estimado la información significativa de los datos (que es la " $\beta_0+\beta_1X$ ") no queda más que ruido blanco. Además, los errores se distribuyen como Normal con una varianza de $\sigma^2_\varepsilon$ .

Es importante saber que $\sigma^2_\varepsilon$ no es un variable (aunque en el nivel de álgebra de la escuela secundaria, lo llamaríamos así). No varía. $X$ varía. $Y$ varía. El término de error, $\varepsilon$ , varía al azar es decir, es un variable aleatoria . Sin embargo, los parámetros ( $\beta_0,~\beta_1,~\sigma^2_\varepsilon)$ son marcadores de posición para valores que no conocemos no varían. En cambio, son constantes desconocidas . El resultado de este hecho para esta discusión es que no importa lo que $X$ es (es decir, qué valor se introduce allí), $\sigma^2_\varepsilon$ sigue siendo el mismo. En otras palabras, la varianza de los errores/residuos es constante. En aras del contraste (y quizás de una mayor claridad), consideremos este modelo:
$$ Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, f(X)) \\ ~ \\ \text{where } f(X)=\exp(\gamma_0+\gamma_1 X) \\ \text{and }\gamma_1\ne 0 $$ En este caso, introducimos un valor para $X$ (a partir de la tercera línea), pásalo por la función $f(X)$ y obtener la varianza del error que obtiene a ese valor exacto de $X$ . A continuación, nos movemos por el resto de la ecuación como de costumbre.


El debate anterior debería ayudar a comprender la naturaleza del supuesto; la pregunta también se refiere a cómo evaluar la misma. Existen básicamente dos enfoques: las pruebas de hipótesis formales y el examen de los gráficos. Las pruebas de heteroscedasticidad pueden utilizarse si se tienen datos de tipo experimental (es decir, que sólo se producen en valores fijos de $X$ ) o un ANOVA. Aquí analizo algunas de estas pruebas: Por qué la prueba de Levene de igualdad de varianzas en lugar de la razón F . Sin embargo, tiendo a pensar que mirar las parcelas es lo mejor. @Penquin_Knight ha hecho un buen trabajo mostrando el aspecto de la varianza constante mediante el trazado de los residuos de un modelo en el que se obtiene homocedasticidad frente a los valores ajustados. La heteroscedasticidad también puede detectarse en un gráfico de los datos brutos, o en un gráfico de localización de escala (también llamado nivel de dispersión). R traza convenientemente este último para usted con una llamada a plot.lm(model, which=2) es la raíz cuadrada de los valores absolutos de los residuos frente a los valores ajustados, con un lowess curva útilmente superpuesta. Quieres que el ajuste lowess sea plano, no inclinado.

Considere los gráficos siguientes, que comparan el aspecto de los datos homocedasticos frente a los heteroscedasticos en estos tres tipos diferentes de figuras. Obsérvese la forma de embudo de los dos gráficos superiores heteroscedásticos, y la línea de baja pendiente ascendente en el último.

enter image description here

Para completar, aquí está el código que he utilizado para generar estos datos:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

2 votos

Gracias, es muy útil. ¿Puede explicar también por qué necesitamos esta suposición en un lenguaje sencillo?

0 votos

Permítanme reformular mi pregunta: Si aplicamos la regresión lineal a unos datos que tienen una variable dependiente BINARIA(0,1), se viola el importante supuesto de "varianza constante" de la variable dependiente entre las variables independientes. ¿Puede explicar cómo?

6 votos

De nada, @Mukul. El supuesto de homocedasticidad (varianza constante) es necesario para que el estimador MCO (es decir, el procedimiento por defecto que utiliza el software para estimar las betas) sea el procedimiento de estimación que produzca distribuciones de muestreo de las betas que tengan los errores estándar más estrechos de todos los procedimientos de estimación que producen distribuciones de muestreo centradas en el valor verdadero. Es decir, es necesario que el estimador OLS sea el estimador insesgado de varianza mínima .

43voto

user2735206 Puntos 51

Significa que cuando se traza el error individual contra el valor predicho, la varianza del valor predicho del error debe ser constante. Si se ven las flechas rojas en la imagen de abajo, la longitud de las líneas rojas (una aproximación a su varianza) es la misma.

enter image description here

1 votos

¡¡¡Ok Entendido!!! Pero como es una suposición, ¿no necesitamos validar la suposición antes de ejecutar el modelo? Y por qué necesitamos esta suposición

3 votos

Algunas hipótesis sólo pueden comprobarse después de la ejecución del modelo. Calcular un modelo es sólo matemática y no es lo mismo que interpretar un modelo.

6 votos

El alcance no es igual a la varianza de Penguin Knight, por lo que es posible que desee actualizar su redacción aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X