Este problema parece asomar su fea cabeza todo el tiempo, y estoy tratando de decapitar por mi propia comprensión de la estadística (y la cordura!).
La hipótesis general de modelos lineales (t-test, ANOVA, regresión, etc.) incluyen la "asunción de la normalidad", pero he encontrado que esto rara vez se describen con claridad.
Me vienen a menudo a través de las estadísticas de los libros / manuales / etc. simplemente diciendo que la "asunción de la normalidad" se aplica a cada grupo (es decir, categórica X variables), y nosotros debemos examinar las desviaciones de la normalidad para cada grupo.
Preguntas:
hace la suposición de referencia para los valores de Y o de los residuos de Y?
-
para un determinado grupo, es posible tener una fuerte distribución no normal Y de valores (por ejemplo, sesgada), PERO aproximadamente (o al menos más de lo normal) la distribución de los residuos de Y?
Otras fuentes indican que el supuesto se refiere a los residuos del modelo (en los casos donde hay grupos, por ejemplo, las pruebas t / ANOVA), y debemos estar examinando las salidas de la normalidad de estos residuos (es decir, sólo uno de los Q-Q plot/ejecutar la prueba).
-
no normalidad de los residuos para el modelo implica la normalidad de los residuos para los grupos? En otras palabras, debe acabamos de examinar son los residuos del modelo (contrario a las instrucciones que aparecen en muchos textos)?
Para poner esto en un contexto, considere este ejemplo hipotético:
- Quiero comparar la altura de los árboles (Y) entre dos poblaciones (X).
- En una población, la distribución de Y es muy sesgada de derecha (es decir, la mayoría de los árboles corto, muy pocos de altura), mientras que el otro es prácticamente normal
- La altura es mayor, en general, en la distribución normal de la población (lo que sugiere no puede ser un 'real' de diferencia).
- La transformación de los datos no mejorar sustancialmente la distribución de la primera población.
En primer lugar, es válido comparar los grupos, dada la radicalmente diferente altura de las distribuciones?
¿Cómo puedo enfoque de la "asunción de la normalidad" aquí? Recordar altura en una población que no está normalmente distribuida. Puedo examinar los residuos de ambas poblaciones por separado O de los residuos para el modelo (t-test)?
Por favor, consulte las preguntas por el número de respuestas, la experiencia me ha demostrado que la gente se pierda o se distraen fácilmente (especialmente para mí!). Tenga en cuenta que yo no soy un estadístico; a pesar de que tengo un razonablemente conceptual (es decir, no técnica!) la comprensión de las estadísticas.
P. S. he buscado los archivos y leer los siguientes subprocesos que no se consolidó mi entender:
- ANOVA supuesto de normalidad/distribución normal de los residuos
- La normalidad de los residuales vs datos de la muestra; lo que acerca de las pruebas t?
- Es la normalidad de las pruebas "prácticamente inútil"?
- Pruebas de normalidad
- La evaluación de la normalidad de la distribución de
- ¿Qué pruebas debo utilizar para confirmar que los residuos están normalmente distribuidos?
- Qué hacer cuando la prueba de Kolmogorov-Smirnov es importante para los residuos de prueba paramétrica pero la asimetría y la curtosis aspecto normal?