50 votos

¿Normalidad de la variable dependiente = normalidad de residuos?

Este problema parece asomar su fea cabeza todo el tiempo, y estoy tratando de decapitar por mi propia comprensión de la estadística (y la cordura!).

La hipótesis general de modelos lineales (t-test, ANOVA, regresión, etc.) incluyen la "asunción de la normalidad", pero he encontrado que esto rara vez se describen con claridad.

Me vienen a menudo a través de las estadísticas de los libros / manuales / etc. simplemente diciendo que la "asunción de la normalidad" se aplica a cada grupo (es decir, categórica X variables), y nosotros debemos examinar las desviaciones de la normalidad para cada grupo.

Preguntas:

  1. hace la suposición de referencia para los valores de Y o de los residuos de Y?

  2. para un determinado grupo, es posible tener una fuerte distribución no normal Y de valores (por ejemplo, sesgada), PERO aproximadamente (o al menos más de lo normal) la distribución de los residuos de Y?

    Otras fuentes indican que el supuesto se refiere a los residuos del modelo (en los casos donde hay grupos, por ejemplo, las pruebas t / ANOVA), y debemos estar examinando las salidas de la normalidad de estos residuos (es decir, sólo uno de los Q-Q plot/ejecutar la prueba).

  3. no normalidad de los residuos para el modelo implica la normalidad de los residuos para los grupos? En otras palabras, debe acabamos de examinar son los residuos del modelo (contrario a las instrucciones que aparecen en muchos textos)?

    Para poner esto en un contexto, considere este ejemplo hipotético:

    • Quiero comparar la altura de los árboles (Y) entre dos poblaciones (X).
    • En una población, la distribución de Y es muy sesgada de derecha (es decir, la mayoría de los árboles corto, muy pocos de altura), mientras que el otro es prácticamente normal
    • La altura es mayor, en general, en la distribución normal de la población (lo que sugiere no puede ser un 'real' de diferencia).
    • La transformación de los datos no mejorar sustancialmente la distribución de la primera población.
  4. En primer lugar, es válido comparar los grupos, dada la radicalmente diferente altura de las distribuciones?

  5. ¿Cómo puedo enfoque de la "asunción de la normalidad" aquí? Recordar altura en una población que no está normalmente distribuida. Puedo examinar los residuos de ambas poblaciones por separado O de los residuos para el modelo (t-test)?


Por favor, consulte las preguntas por el número de respuestas, la experiencia me ha demostrado que la gente se pierda o se distraen fácilmente (especialmente para mí!). Tenga en cuenta que yo no soy un estadístico; a pesar de que tengo un razonablemente conceptual (es decir, no técnica!) la comprensión de las estadísticas.

P. S. he buscado los archivos y leer los siguientes subprocesos que no se consolidó mi entender:

18voto

Eero Puntos 1612

Uno de los puntos que pueden ayudar a su comprensión:

Si $x$ se distribuye normalmente y $a$ $b$ son constantes, entonces $y=\frac{x-a}{b}$ también está distribuido normalmente (pero posiblemente con un diferente media y varianza).

Puesto que los residuos son sólo los valores de y menos de la estimación de la media (residuos estandarizados son también dividida por una estimación del error estándar) entonces, si los valores de y están distribuidos normalmente, a continuación, los residuos son así y la otra manera alrededor. Así que cuando hablamos de la teoría o hipótesis no importa de qué hablamos, porque lo uno implica lo otro.

Así que por las preguntas, esto nos lleva a:

  1. sí, tanto, tanto
  2. No, (sin embargo, el individuo y los valores vienen de las normales con diferentes medios que pueden hacer parecer no-normal, si están agrupados juntos)
  3. La normalidad de los residuos significa normalidad de los grupos, sin embargo, que puede ser bueno para examinar los residuos o los valores de y por grupos, en algunos casos (la agrupación que pueden dificultar la no-normalidad que es obvio en un grupo) o mirando a todos juntos en otros casos (que no son suficientes observaciones por grupo de determinar, pero en conjunto se puede decir).
  4. Esto depende de lo que entendemos por comparar, qué tan grande es el tamaño de la muestra es, y sus sentimientos en el "Aproximado". El supuesto de normalidad sólo se requiere para las pruebas o los intervalos en los resultados, se puede ajustar el modelo y describir las estimaciones puntuales si hay normalidad o no. El Teorema del Límite Central dice que si el tamaño de la muestra es suficientemente grande, a continuación, las estimaciones será aproximadamente normal, incluso si los residuos no son.
  5. Depende de lo que su pregunta está tratando de contestar y cómo "aproximado" tu estés contento con el.

Otro punto que es importante entender (pero a menudo se ha asociado en el aprendizaje) es que hay 2 tipos de residuos: El teórico de los residuos que son las diferencias entre los valores observados y el verdadero modelo teórico y el observado residuos que son las diferencias entre los valores observados y los estimados a partir de la actualidad el modelo ajustado. Suponemos que los teóricos de los residuos son iid normal. La observó residuos no son yo, yo, o distribuido normal (pero que tienen una media de 0). Sin embargo, para fines prácticos se observan residuos de hacer la estimación de los teóricos de residuos y, por lo tanto, útil para el diagnóstico.

10voto

RGA Puntos 113

Las respuestas cortas:

  1. residuos
  2. no
  3. depende, ambos enfoques tienen sus ventajas y desventajas
  4. ¿por qué no? Puede tener más sentido para comparar las medianas en lugar de los medios.
  5. a partir de lo que nos han dicho, el supuesto de normalidad es probablemente violado

La respuesta larga:

La suposición es que la variable dependiente (y) es la distribución normal, pero con medios diferentes para los diferentes grupos. Como consecuencia, si la trama sólo la distribución de y es fácil que se ven muy diferentes de su estándar en forma de campana de la curva normal. Los residuos representan la distribución de y con las diferencias en los medios "filtrados".

Alternativamente, usted puede mirar la distribución de y en cada grupo por separado. Esto también filtra las diferencias de medias entre grupos. La ventaja es que de esta manera usted también obtener información acerca de la distribución en cada grupo, que en su caso parece relevante. La desventaja es que cada grupo contiene menos observaciones que el conjunto de datos combinados que se tiene cuando se mira en los residuos. Por otra parte, usted no sería capaz de comparar de manera significativa a los grupos si usted tiene muchos grupos, por ejemplo, porque ha introducido muchas variables predictoras en el modelo o una (cuasi-)continua variable de predicción del modelo. Así que si su modelo consta de sólo uno de los predictores categóricos de la variable y el número de observaciones en cada grupo es lo suficientemente grande, entonces puede tener sentido para inspeccionar la distribución de y en cada grupo por separado. Siempre se puede inspeccionar los residuos.

1voto

auselen Puntos 121

Por definición de hipótesis, la variable aleatoria $Y$ es una combinación lineal de $X$ y los residuos, siendo los demás factores constantes.
Si $X$ es no estocástica, y los términos de error son normales, a continuación, $Y$ es normal y así son los residuos.

Pregunta 1)
La hipótesis se refiere a dos cosas. En primer lugar, a la normalidad de los términos de error. Segundo, la linealidad y la integridad del modelo. Ambas cosas son necesarias para la inferencia. Pero si estos supuestos se cumplen, entonces tanto los residuos de $e$ $Y$ están distribuidos normalmente y la solución puede calcularse con bastante facilidad, ya que dependen de los términos de error $\epsilon$, determinado $X$.
Por ejemplo, la distribución de $Y$ en regular OLS modelo podría ser $Y|X-N(X\beta,\sigma^2)$.
Si su $X$ grupo no es normal, entonces esto podría sesgar la incondicional $Y$. De hecho, es muy probable que suceda. Sin embargo, lo importante es que la distribución de $Y|X$ es normal.

Las preguntas 2)
Sí es posible tener sesgada valores de $Y$ a causa de la $X$. Sin embargo, los residuos será normal si todos los supuestos se cumplen (¿de qué otra manera podría usted hacer intervalos y pruebas de hipótesis?!). Para esta parte de tu pregunta hay una bonita respuesta definitiva en este hilo: ¿Qué pasa si los residuos están normalmente distribuidos, pero, y no es?

Pregunta 3)
Lo importante para el uso de modelos lineales que requieren la normalidad es que los residuos que no son normales, wgether esto es, en un grupo o no, son un indicador importante de que su modelo puede que no se ajuste a sus datos.
Si usted está haciendo ANOVA, luego de curso general de residuos no tienen que ser normales (o más bien homoscedástica), que no tendría sentido. En una regresión a pesar de que, que mejor que tener un modelo con el que termina con total normalidad de los residuos. Si no, el intervalo de los peritos y de las pruebas será malo. Este puede ser el caso de algunas de las autocorrelaciones, o la falta de un sesgo de variable. Si el modelo es 100% correcto (incluyendo tal vez quiebres estructurales y la ponderación de si es necesario), no es descabellada para asumir normal de los términos de error, incluso centrado alrededor de 0. Prácticamente la pregunta que a menudo se convierte en: ¿se Puede conseguir lejos con estas cosas si la muestra es lo suficientemente grande? No hay una respuesta definitiva, pero para un 100% de enfoque correcto sí, todos los residuos deben ser normal.

La pregunta 4 y 5)
Depende de a qué te refieres con que se compare. Dada la suposición de normalidad términos de error, puede probar basa en la suposición de dos distribuciones diferentes. También puede utilizar el GLS, la estimación de una regresión de la cuenta para los diferentes parámetros de la distribución - SI usted tiene el derecho de modelo... y supongo que sus propios grupos de trabajo como un indicador/variable binaria?
Entonces, probablemente sería muy difícil para la razón de que la distribución de residuos será normal a consecuencia de ello es que mientras que usted puede hacer cosas con tus datos, no será sobre la base de regular OLS.
Pero depende de lo que usted desea hacer con los datos.

Lo importante es, sin embargo: todavía no se llega a ir alrededor de los supuestos del modelo lineal que está utilizando. Usted puede hacer mejor los temas asumiendo asintótico de las grandes propiedades de las muestras, pero si supongo que dado que usted está pidiendo una respuesta definitiva, que no es lo que tienes en mente.
En el caso de tu ejemplo, si tiene datos de lo que podría explicar el skewedness que se recupere la normalidad en los residuos y en $Y|X$. Pero si sólo utiliza binario indicadores para una regresión, que son esencialmente utilizando el modelo equivocado. Es cierto que se pueden hacer pruebas con esto, pero cuando se trata de regresión su intervalo de resultados no será válido, en esencia lo que son los datos que faltan para completar el modelo.

Creo que una buena estrategia sería buscar en el álgebra de regular OLS con un enfoque en las distribuciones resultantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X