27 votos

¿Por qué es la normalidad de los residuos "apenas importante" para el propósito de la estimación de la recta de regresión?

Gelman y Hill (2006) escribe en p46 que:

La regresión de la suposición de que es generalmente menos importante es que los errores están distribuidos normalmente. De hecho, para el propósito de la estimación de la línea de regresión (en comparación con la predicción individual puntos de datos), el supuesto de normalidad es apenas importante en absoluto. Por lo tanto, en contraste con muchos de regresión de los libros de texto, no se recomienda el diagnóstico de la normalidad de la regresión de los residuos.

Gelman y Hill no parecen explicar este punto.

Son Gelman y la Colina de la correcta? Si es así, entonces:

  1. ¿Por qué "apenas importante en todo"? ¿Por qué es ni importante ni completamente irrelevante?

  2. ¿Por qué es la normalidad de los residuales importante a la hora de predecir los puntos de datos individuales?

Gelman, A., & Hill, J. (2006). El análisis de los datos mediante regresión multinivel y/modelos jerárquicos. Cambridge University Press

24voto

AdamSane Puntos 1825

Para la estimación de la normalidad no es exactamente una hipótesis, pero una consideración importante sería la eficiencia; en muchos casos un buen estimador lineal va a hacer bien y en ese caso (por Gauss-Markov) de la LS estimación sería la mejor de esas cosas-que-podría-ser-bien. (Si sus colas son muy pesados, o muy claro, tiene sentido considerar algo más)

En el caso de las pruebas y de la Cei, mientras que la normalidad se supone, generalmente, no todos los críticos (de nuevo, siempre que las colas no son realmente pesado o ligero, o tal vez uno de cada uno), en el que, al menos en el no-muy-pequeñas muestras de las pruebas y típico de la Cei tienden a tener cerca a su valor nominal de las propiedades (no muy lejos de reivindicada nivel de significación o de cobertura), y realizar el bien (poder razonable para situaciones típicas o CIs no mucho más amplio de alternativas).

Esto es debido a varios factores que operan juntos (uno de los cuales es la tendencia de las combinaciones lineales de las variables a tener cerca de distribución normal, mientras que hay un montón de valores en juego, y ninguno de ellos contribuyen con una gran fracción de la varianza total).

Sin embargo, en el caso de un intervalo de predicción basado en la normal de la asunción, la normalidad es relativamente más crítico, ya que el ancho del intervalo es fuertemente dependiente de la distribución de un único valor. Sin embargo, incluso allí, las más comunes, tamaño del intervalo (95% de intervalo), el hecho de que muchas distribuciones unimodales muy cerca del 95% de su distribución dentro de unos 2sds de la media tiende a producir razonable de rendimiento normal de un intervalo de predicción, incluso cuando la distribución no es normal. [Esto no lleva más de manera mucho más estrecho o más ancho de los intervalos de, digamos un 50% de intervalo o un 99.9% de intervalo, aunque.]

7voto

JornC Puntos 81

2: a la hora de predecir los puntos de datos, el intervalo de confianza en torno a que la predicción se supone que los residuos están normalmente distribuidos.

Esto no es muy diferente de la hipótesis general acerca de los intervalos de confianza, para ser válido, necesitamos entender la distribución, y la más común la suposición de normalidad. Por ejemplo, un estándar intervalo de confianza alrededor de la media de las obras, porque la distribución de la muestra significa enfoques de la normalidad, por lo que podemos utilizar un z o t distribución

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X