Processing math: 100%

66 votos

¿Qué significa tener "varianza constante" en un modelo de regresión lineal?

¿Qué significa tener "varianza constante" en el término de error? Según lo veo, tenemos un conjunto de datos con una variable dependiente y una variable independiente. La varianza constante es una de las suposiciones de la regresión lineal. Me pregunto qué significa la homocedasticidad. Incluso si tengo 500 filas, tendría un único valor de varianza que obviamente es constante. ¿Con qué variable debería comparar la varianza?

70voto

Sean Hanley Puntos 2428

Este es un lugar donde he encontrado que ver algunas fórmulas ayuda, incluso para personas con algo de ansiedad matemática (no estoy sugiriendo que tú lo tengas, necesariamente). El simple modelo de regresión lineal es este:
Y=β0+β1X+εdonde εN(0,σ2ε) Lo importante a tener en cuenta aquí es que este modelo declara explícitamente que una vez que has estimado la información significativa en los datos (que es "β0+β1X") no queda nada más que ruido blanco. Además, los errores se distribuyen como una Normal con una varianza de σ2ε.

Es importante darse cuenta de que σ2ε no es una variable (aunque en álgebra de nivel de secundaria podríamos llamarla así). No varía. X varía. Y varía. El término de error, ε, varía aleatoriamente; es decir, es una variable aleatoria. Sin embargo, los parámetros (β0, β1, σ2ε) son espacios reservados para valores que no conocemos, no varían. Más bien, son constantes desconocidas. La conclusión de este hecho para esta discusión es que no importa cuál sea el valor de X (es decir, qué valor se coloque allí), σ2ε sigue siendo el mismo. En otras palabras, la varianza de los errores/residuos es constante. Para contrastar (y tal vez para mayor claridad), considera este modelo:
Y=β0+β1X+εdonde εN(0,f(X)) donde f(X)=exp(γ0+γ1X)γ10 En este caso, se introduce un valor para X (comenzando en la tercera línea), se pasa por la función f(X) y se obtiene la varianza del error que se obtiene en ese valor exacto de X. Luego se procede con el resto de la ecuación como de costumbre.


La discusión anterior debería ayudar a comprender la naturaleza de la suposición; la pregunta también trata sobre cómo evaluar esta. Básicamente hay dos enfoques: pruebas formales de hipótesis y examinar gráficos. Se pueden utilizar pruebas de heterocedasticidad si tienes datos de tipo experimental (es decir, que solo ocurren en valores fijos de X) o un ANOVA. Hablo de algunas pruebas de este tipo aquí: ¿Por qué la prueba Levene de igualdad de varianzas en lugar de la razón F?. Sin embargo, creo que mirar gráficos es lo mejor. @Penquin_Knight ha hecho un buen trabajo mostrando cómo se ve la varianza constante trazando los residuos de un modelo donde se obtiene homocedasticidad frente a los valores ajustados. La heterocedasticidad también se puede detectar posiblemente en un gráfico de los datos en bruto, o en un gráfico de escala-ubicación (también llamado nivel de dispersión). R convenientemente traza esto por ti con un llamado a plot(linear.model, which=3); es la raíz cuadrada de los valores absolutos de los residuos frente a los valores ajustados, con una curva lowess útilmente superpuesta. Deseas que el ajuste de lowess sea plano, no inclinado.

Considera los gráficos a continuación, que comparan cómo podrían verse datos homocedásticos vs. heterocedásticos en estos tres tipos de figuras diferentes. Observa la forma de embudo para los dos primeros gráficos heterocedásticos, y la línea lowess inclinada hacia arriba en el último.

ingresar descripción de la imagen aquí

Por completitud, aquí está el código que utilicé para generar estos datos:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2           ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

2 votos

Gracias, es muy útil. ¿Puedes también explicar por qué necesitamos esta suposición en un lenguaje sencillo?

0 votos

Déjame reformular mi pregunta: Si aplicamos regresión lineal en datos que tienen una variable dependiente BINARIA(0,1), la importante suposición de "varianza constante" de la variable dependiente entre variables independientes se viola. ¿Puedes explicar cómo?

6 votos

De nada, @Mukul. Se requiere la suposición de homocedasticidad (varianza constante) para que el estimador de MCO (es decir, el procedimiento predeterminado que el software utiliza para estimar betas) sea el procedimiento de estimación que producirá distribuciones muestrales de betas que tengan los errores estándar más estrechos de todos los procedimientos de estimación que producen distribuciones muestrales que están centradas en el valor real. Es decir, es necesario que el estimador de MCO sea el estimador insesgado de varianza mínima.

43voto

user2735206 Puntos 51

Significa que cuando trazas el error individual contra el valor predicho, la varianza del valor predicho del error debe ser constante. Observa las flechas rojas en la imagen a continuación, la longitud de las líneas rojas (un indicador de su varianza) es la misma.

introduce la descripción de la imagen aquí

1 votos

Ok Entendido.!! Pero dado que es una suposición, ¿no necesitamos validar la suposición antes de ejecutar el modelo? Y ¿por qué necesitamos esta suposición?

3 votos

Algunas suposiciones solo pueden ser probadas después de que se ejecute el modelo. Calcular un modelo es solo matemática y no es lo mismo que interpretar un modelo.

6 votos

El rango no es igual a la varianza del Pingüino Caballero, por lo que es posible que desees modificar tu redacción aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X