12 votos

Regresión: ¿por qué la prueba de la normalidad del total de los residuos, en lugar de los residuos condicional en ˆy^y?

Entiendo que en la regresión lineal de los errores se supone que se distribuye normalmente, con la condición de que el valor predicho de y. A continuación, nos fijamos en los residuos como una especie de proxy para los errores.

También se recomienda a menudo para generar una salida como esta: enter image description here. Sin embargo, no acabo de entender el punto de la obtención de los residuales para cada punto de datos y maceración de que juntos en una única parcela.

Entiendo que es poco probable que tenga suficientes puntos de datos para evaluar adecuadamente si hemos normal de los residuos en cada valor predicho de y.

Sin embargo, no es la cuestión de si hemos normal de los residuos en general uno por separado, y uno que no se relacionan claramente con el modelo de la hipótesis de normalidad de los residuos en cada valor predicho de y? No podía hemos normal de los residuos en cada valor predicho de y, a pesar de tener en general de los residuos que fueron bastante no-normal?

20voto

Jake Westfall Puntos 3777

No podía hemos normal de los residuos en cada valor predicho de y, a pesar de tener en general de los residuos que fueron bastante no-normal?

No, al menos no bajo el estándar de la hipótesis de que la varianza de los errores es constante.

Usted puede pensar en la distribución del total de los residuos como una mezcla de distribuciones normales (uno para cada nivel de ˆy^y). Por supuesto, todas estas normal de las distribuciones tienen la misma media (0) y la misma varianza. Así, la distribución de esta mezcla de normales de la misma es simplemente una distribución normal.

Así que a partir de esto podemos formar un poco de silogismo. Si el individuo de las distribuciones de los valores de la predictor X son normales (y sus varianzas son iguales), entonces la distribución del total de los residuos es normal. Así, si observamos que la distribución del total de los residuos es, aparentemente, no es normal, esto implica que las distribuciones de X dada no son normales con la misma varianza. Que es una violación de la hipótesis estándar.

3voto

Hoogendijk Puntos 45

A veces es importante que los residuos son homoscedástica. Es decir, que la varianza de los residuos es el mismo independientemente de donde debemos medir la variación de los residuos de magnitud en el eje x. Por ejemplo, suponga que el error de la medición aumenta proporcionalmente por el aumento de los valores de y. Entonces podríamos tomar el logaritmo de los valores antes de realizar la regresión. Si esto es hecho, la calidad de ajuste aumenta en comparación con el ajuste de un error de proporción en el modelo sin tomar un logaritmo. En general para obtener homoscedasticity, podría tener que tomar el recíproco de la y o eje x de datos, el logaritmo(s), el cuadrado o raíz cuadrada, o aplicar una exponencial. Una alternativa a esto es el uso de una función de ponderación, por ejemplo, a la regresión proporcional de a y-el valor de error problema, podemos encontrar que minimizar (ymodel)2y2(ymodel)2y2 funciona mejor que minimizar (ymodel)2(ymodel)2.

Habiendo dicho eso, es frecuente que la fabricación de los residuos más homoscedástica hace más de una distribución normal, pero con frecuencia, la homoscedástica de la propiedad es más importante. Esto último dependerá de por qué estamos llevando a cabo la regresión. Por ejemplo, si la raíz cuadrada de los datos es más normalmente distribuida de tomar el logaritmo, pero el error es proporcional tipo, entonces t-pruebas de que el logaritmo será más potente para detectar una diferencia entre las poblaciones o de las mediciones, pero para encontrar el valor esperado (modo) debemos utilizar la raíz cuadrada de los datos.

Por otra parte, es frecuente que no queremos una respuesta que nos da un mínimo de error de predicción de los valores del eje y, y los regresiones pueden ser fuertemente sesgada. Por ejemplo, a veces puede que quiera retroceder por lo menos error en x. O a veces sentimos el deseo de descubrir la relación entre y y x, que no es entonces una rutina de regresión problema. Podríamos entonces el uso de Theil, es decir, la mediana de la pendiente de la regresión, como un simple compromiso entre x y y menos de error de la regresión. O si sabemos lo que la varianza de la repetición de las medidas es para tanto x e y, se podría utilizar la regresión de Deming. Theil de regresión es mejor cuando tenemos valores atípicos, que hacer cosas horribles a los resultados de la regresión. Y, por la pendiente de la regresión, poco importa si los residuos siguen una distribución normal o no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X