La condición de normalidad entra en juego cuando usted está tratando de obtener los intervalos de confianza y/o p-valores.
ε|X∼N(0,σ2In) no es un Gauss Markov condición.
![enter image description here]()
Esta parcela intenta ilustrar la distribución de puntos en la población en azul (con la población de la línea de regresión como una sólida línea cian), superpuesta sobre un conjunto de datos de ejemplo en las grandes puntos amarillos (con su estimación de la regresión de la línea trazada en línea discontinua de color amarillo). Evidentemente esto es sólo conceptual para el consumo, ya que no sería infinito de puntos para cada valor de X=x) - por lo que es una gráfica de iconográficos de la discretización del concepto de regresión como la distribución continua de los valores alrededor de la media (corresponde a la predicción del valor de la "independiente", variable) en cada valor dado de la variable, o de la variable explicativa.
Si ejecutamos de diagnóstico R parcelas en la simulación de la "población" de datos que nos iba a llegar...
![enter image description here]()
La varianza de los residuos es constante a lo largo de todos los valores de X.
La típica trama sería:
![enter image description here]()
Conceptualmente, la introducción de varios regresores o variables explicativas no altera la idea. Puedo encontrar el tutorial práctico del paquete swirl()
extremadamente útil en la comprensión de cómo la regresión múltiple es realmente un proceso de regresión de las variables dependientes el uno contra el otro modo de llevar adelante la residual, inexplicable variación en el modelo; o más simplemente, una forma vectorial de la regresión lineal simple:
La técnica general es elegir un regresor y sustituyen a todas las demás variables por los residuos de sus regresiones en contra de eso.
E[ \varepsilon_i^2 \vert X ] = \sigma^2
El problema con la violación de esta condición es:
Heterocedasticidad tiene graves consecuencias para el estimador de MCO. Aunque el estimador OLS sigue siendo imparcial, se estima que SE está mal. Debido a esto, los intervalos de confianza y pruebas de hipótesis no puede ser invocado. Además, el estimador OLS ya no es AZUL.
![enter image description here]()
En esta parcela de la varianza aumenta con los valores de la variable (variable explicativa), en vez de mantenerse constante. En este caso, los residuos están normalmente distribuidos, pero la varianza de esta distribución normal de los cambios (aumentos) con la variable explicativa.
Aviso de que el "verdadero" (de la población) línea de regresión no cambia con respecto a la población de la regresión de la línea de bajo homoskedasticity en la primera parcela (sólido azul oscuro), pero es intuitivamente claro que las estimaciones van a ser más incierto.
Los gráficos de diagnóstico en el conjunto de datos se...
![enter image description here]()
que corresponden a "pesado de cola" de la distribución, lo que tiene sentido es que estamos a telescopio todos los "side-by-side" vertical Gaussiano parcelas en una sola, que conservaría su forma de campana, pero tienen muy largas colas.
@Glen_b "... una completa cobertura de la distinción entre los dos también podría considerar homoskedastic-pero-no-normal".
![enter image description here]()
Los residuos son altamente sesgada y la varianza aumenta con los valores de la variable explicativa.
Estos serían los gráficos de diagnóstico...
![enter image description here]()
correspondiente a la marcada sesgada a la derecha-ness.
Para cerrar el ciclo, nos gustaría ver también sesgada-ness en un homoskedastic con el modelo de la no-distribución Gaussiana de errores:
![enter image description here]()
con gráficos de diagnóstico como...
![enter image description here]()