38 votos

¿Cuáles son los peligros de violar la homoscedasticity hipótesis de regresión lineal?

Como un ejemplo, considere la ChickWeight conjunto de datos en R. La varianza obviamente crece con el tiempo, así que si puedo utilizar una regresión lineal simple como:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Mis preguntas:

  1. Qué aspectos del modelo será cuestionable?
  2. Son los problemas que se limita a extrapolar fuera de la Time rango?
  3. Cómo tolerante es la regresión lineal de la violación de este supuesto (es decir, cómo heteroscedastic ¿tiene que ser a causa de problemas)?

29voto

Jay Puntos 395

El modelo lineal (o "de mínimos cuadrados ordinarios") todavía tiene su AZUL (Best Linear Unbiased Predictor) propiedades.

En la cara de heterocedasticidad en los términos de error, usted todavía tiene imparcial estimaciones de los parámetros, pero que se pierde en la matriz de covarianza: su inferencia (es decir, el parámetro de pruebas) puede ser apagado. El común de la solución es utilizar un método robusto para el cálculo de la matriz de covarianza aka los errores estándar. El que uso es algo de dominio-dependiente, pero la Blanca es un método de inicio.

Y para la integridad, la correlación serial de los términos de error es peor, ya que conducirá a sesgadas estimaciones de los parámetros.

12voto

zcrar70 Puntos 133

Ausencia de homoscedasticity puede dar fiable error estándar de las estimaciones de los parámetros. Las estimaciones de los parámetros son imparciales. Pero las estimaciones no eficaz(no AZUL). Usted puede encontrar algunos más en el siguiente enlace

12voto

dan90266 Puntos 609

Es bueno recordar que el tener imparcial estimadores no significa que el modelo es "derecho". En muchas situaciones, el criterio de mínimos cuadrados para la regresión coeficiente de estimación da lugar a un modelo que tiene (1) los coeficientes de regresión que no tienen el derecho significado o (2) predicciones que se inclina hacia la disminución de los grandes errores, pero que compensa por tener muchos pequeños errores. Por ejemplo, algunos analistas creen que, incluso cuando la transformación de a $\log(Y)$ hace que el ajuste del modelo también es válido para predecir $Y$ mediante OLS debido a que las estimaciones son imparciales. De esta manera se minimiza la suma de cuadrados de los errores, pero la partición de los efectos a través de la $\beta$s de forma incorrecta y resultar en una no-competitivo de la suma de los errores absolutos. A veces, la falta de constancia de la varianza de las señales más fundamentales de modelado problema.

Cuando se busca en los modelos de la competencia (por ejemplo, para $Y$ vs $\log(Y)$ vs regresión ordinal) me gusta comparar la exactitud de predicción utilizando medidas que no fueron optimizados por definición, por el proceso de ajuste.

2voto

Sean Hanley Puntos 2428

Hay buena información aquí en las otras respuestas, sobre todo a su primera pregunta. Yo pensaba que iba a añadir algo de información complementaria con respecto a tus dos últimas preguntas.

  1. Los problemas asociados con la heterocedasticidad no se limitan a la extrapolación. Ya que implican principalmente los intervalos de confianza, los valores de p, y la predicción de los límites de forma incorrecta, que se aplican en todo el rango de los datos.
  2. Estrictamente hablando, los problemas asociados con heterocedasticidad existen, incluso con la menor cantidad de heterocedasticidad. Sin embargo, como se podría sospechar, con muy poco heterocedasticidad, los problemas son muy pequeñas, así. No hay verdadera 'línea clara' donde heterocedasticidad se convierte en demasiado, pero una regla general es que los modelos lineales no son muy afectados por heterocedasticidad en la que la mayor varianza es $\le 4\times$ la más pequeña de la varianza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X