Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

21 votos

Supuestos de regresión múltiple: ¿Cómo es diferente de suposición de varianza constante Asunción de normalidad?

He leído que estas son las condiciones para el uso del modelo de regresión múltiple:

  1. los residuos del modelo son casi normal,
  2. la variabilidad de los residuos es casi constante
  3. los residuos son independientes, y
  4. cada variable está relacionada linealmente con el resultado.

Cómo son la 1 y la 2 diferentes?

Usted puede ver aquí a la derecha:

enter image description here

Así en el gráfico anterior, dice que el residuo es 2 desviación estándar de distancia está a 10 minutos de Y-hat. Eso significa que los residuos siguen una distribución normal. No puede usted inferir 2 de este? Que la variabilidad de los residuos es casi constante?

46voto

Antoni Parellada Puntos 2762

1. La distribución Normal de los residuos:

La condición de normalidad entra en juego cuando usted está tratando de obtener los intervalos de confianza y/o p-valores.

ε|XN(0,σ2In) no es un Gauss Markov condición.


enter image description here

Esta parcela intenta ilustrar la distribución de puntos en la población en azul (con la población de la línea de regresión como una sólida línea cian), superpuesta sobre un conjunto de datos de ejemplo en las grandes puntos amarillos (con su estimación de la regresión de la línea trazada en línea discontinua de color amarillo). Evidentemente esto es sólo conceptual para el consumo, ya que no sería infinito de puntos para cada valor de X=x) - por lo que es una gráfica de iconográficos de la discretización del concepto de regresión como la distribución continua de los valores alrededor de la media (corresponde a la predicción del valor de la "independiente", variable) en cada valor dado de la variable, o de la variable explicativa.

Si ejecutamos de diagnóstico R parcelas en la simulación de la "población" de datos que nos iba a llegar...

enter image description here

La varianza de los residuos es constante a lo largo de todos los valores de X.

La típica trama sería:

enter image description here


Conceptualmente, la introducción de varios regresores o variables explicativas no altera la idea. Puedo encontrar el tutorial práctico del paquete swirl() extremadamente útil en la comprensión de cómo la regresión múltiple es realmente un proceso de regresión de las variables dependientes el uno contra el otro modo de llevar adelante la residual, inexplicable variación en el modelo; o más simplemente, una forma vectorial de la regresión lineal simple:

La técnica general es elegir un regresor y sustituyen a todas las demás variables por los residuos de sus regresiones en contra de eso.


2. La variabilidad de los residuos es casi constante (Homoskedasticity):

E[ \varepsilon_i^2 \vert X ] = \sigma^2

El problema con la violación de esta condición es:

Heterocedasticidad tiene graves consecuencias para el estimador de MCO. Aunque el estimador OLS sigue siendo imparcial, se estima que SE está mal. Debido a esto, los intervalos de confianza y pruebas de hipótesis no puede ser invocado. Además, el estimador OLS ya no es AZUL.


enter image description here

En esta parcela de la varianza aumenta con los valores de la variable (variable explicativa), en vez de mantenerse constante. En este caso, los residuos están normalmente distribuidos, pero la varianza de esta distribución normal de los cambios (aumentos) con la variable explicativa.

Aviso de que el "verdadero" (de la población) línea de regresión no cambia con respecto a la población de la regresión de la línea de bajo homoskedasticity en la primera parcela (sólido azul oscuro), pero es intuitivamente claro que las estimaciones van a ser más incierto.

Los gráficos de diagnóstico en el conjunto de datos se...

enter image description here

que corresponden a "pesado de cola" de la distribución, lo que tiene sentido es que estamos a telescopio todos los "side-by-side" vertical Gaussiano parcelas en una sola, que conservaría su forma de campana, pero tienen muy largas colas.


@Glen_b "... una completa cobertura de la distinción entre los dos también podría considerar homoskedastic-pero-no-normal".

enter image description here

Los residuos son altamente sesgada y la varianza aumenta con los valores de la variable explicativa.

Estos serían los gráficos de diagnóstico...

enter image description here

correspondiente a la marcada sesgada a la derecha-ness.

Para cerrar el ciclo, nos gustaría ver también sesgada-ness en un homoskedastic con el modelo de la no-distribución Gaussiana de errores:

enter image description here

con gráficos de diagnóstico como...

enter image description here

7voto

Jeff Bauer Puntos 236

No es el OP de la culpa, pero me estoy empezando a cansar de leer la desinformación como este.

He leído que estas son las condiciones para el uso de la regresión múltiple modelo:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

El "modelo de regresión múltiple" es sólo una etiqueta que declare que una variable puede ser expresada como una función de otras variables.

Ni el verdadero término de error ni los residuos del modelo necesita ser casi cualquier cosa en particular - si los residuos de aspecto normal, esto es bueno para la posterior inferencia estadística.

La variabilidad (varianza) de que el término de error no necesitan ser casi constante - si es que no, nosotros tenemos un modelo con heterocedasticidad que hoy en día es bastante fácil de manipular.

Los residuos no son independientes, en cualquier caso, ya que cada uno es una función de la totalidad de la muestra. El verdadero términos de error no necesita ser independiente -si no tenemos un modelo de autocorrelación, que, aunque es más difícil de heterocedasticidad, pueden ser tratados con hasta un grado.

Cada una de las variables no necesitan ser linealmente relacionada con el resultado. De hecho, la distinción entre "lineal" y "no-lineal" regresión no tiene nada que ver con la relación entre las variables, sino de cómo el desconocido coeficientes de entrar en la relación.

Lo que uno podría decir es que si los tres primeros espera y el cuarto está correctamente indicado, entonces obtendremos el "Clásico Normal Modelo de Regresión Lineal", que es sólo una (aunque históricamente el primero) variante de los modelos de regresión múltiple.

3voto

David Puntos 41

Antoni Parellada tenido una respuesta perfecta, con un bonito gráfico de la ilustración.

Solo quiero añadir un comentario para resumir la diferencia entre las dos declaraciones

  1. los residuos del modelo son casi normales

  2. la variabilidad de los residuos es casi constante

  • Declaración 1 se da la "forma" de la residual es "curva en forma de campana".
  • Declaración 2 refina la propagación de la "forma" (es constante), de Antoni Parellada de la parcela 3. hay 3 curvas en forma de campana, pero son diferentes de propagación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X