29 votos

¿Qué debo comprobar para la normalidad: datos brutos o residuos?

He aprendido que debo probar para normalidad no en los datos en bruto, pero sus residuos. ¿Debo calcular residuos y luego hacer el Shapiro-Wilk test W?

¿Se calculan los residuos como: $X_i - \text{mean}$?

Por favor vea esta pregunta anterior para mis datos y el diseño.

42voto

Eero Puntos 1612

¿Por qué debe usted de la prueba de normalidad?

El estándar de hipótesis en la regresión lineal es que los teóricos de los residuos son independientes y se distribuye normalmente. La observó residuos son una estimación de los teóricos residuls, pero no son independientes (no se transforma en el de los residuos que quitar parte de la dependencia, pero todavía le dan sólo una aproximación de la verdadera residuos). Así una prueba sobre lo observado residuos no garantizar que los teóricos de los residuos del partido.

Si los teóricos de los residuos no son exactamente una distribución normal, pero el tamaño de la muestra es lo suficientemente grande, entonces el Teorema del Límite Central dice que la costumbre de inferencia (pruebas e intervalos de confianza, pero no necesariamente intervalos de predicción), basado en la suposición de normalidad continuará siendo de aproximadamente correcta.

También tenga en cuenta que las pruebas de normalidad son la regla de los ensayos, se puede decir que es improbable que los datos provienen de una distribución normal. Pero si la prueba no es significativo el hecho de que no significa que los datos provenían de una distribución normal, también podría significar que usted simplemente no tiene el poder suficiente para ver la diferencia. Tamaños de muestras más grandes dan más poder detectar la no-normalidad, pero con muestras más grandes y la CLT significa que la no-normalidad es menos importante. Así que para pequeños tamaños de la muestra de la suposición de normalidad es importante, pero las pruebas son sin sentido, para tamaños de muestra grandes que las pruebas podrían ser más precisos, pero la pregunta exacta de la normalidad se vuelve sin sentido.

Por lo que la combinación de todas las anteriores, lo que es más importante que una prueba de normalidad exacta es la comprensión de la ciencia detrás de los datos para ver si la población está lo suficientemente cerca a la normalidad. Gráficos como qqplots que pueden ser un buen diagnóstico, pero la comprensión de la ciencia es necesario también. Si existe la preocupación de que hay demasiado asimetría o potencial de los valores extremos, entonces los métodos no paramétricos son disponibles que no requieren el supuesto de normalidad.

7voto

chs Puntos 77

En primer lugar, puede "globo ocular" el uso de un QQ-plot para obtener un sentido general aquí es cómo generar uno en R.

De acuerdo a la R manual puede alimentar a su vector de datos directamente en el shapiro.función test ().

Si desea calcular los residuos de sí cada residual se calcula que se forma sobre su conjunto de observaciones. Puedes ver más acerca de esto aquí.

7voto

Owen Fraser-Green Puntos 642

Asuumptions gaussiano se refieren a los residuos del modelo. No hay ninguna asunciones necesarias sobre los datos originales. Como un ejemplo de ello la distribución de las ventas de cerveza diaria enter image description here . Después de un modelo razonable que el día de la semana, los efectos de vacaciones, eventos, tendencias de cambios de nivel/tiempo obtenemosenter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X