Estaba a punto de comenzar a codificar una prueba ANOVA para estudiar las diferencias en los precios de las casas entre vecindarios. Leí que ANOVA es una gran manera de averiguar si hay una diferencia significativa en grupos nominales de datos contra una variable continua.
Pero luego leí sobre las tres suposiciones que deben cumplirse para asegurarse de que los resultados de su ANOVA puedan ser confiados:
- Los errores experimentales de sus datos están distribuidos de forma normal
- Varianzas iguales entre tratamientos - Homogeneidad de varianzas, Homoscedasticidad
- Independencia de muestras: Cada muestra está seleccionada al azar e independiente
Entonces, la parte 1 me lleva a creer que primero debe hacer algunas predicciones basadas en sus datos, y luego verificar los errores.
¿Eso significa que las pruebas ANOVA siempre se hacen post-hoc? ¿O está hablando de la diferencia entre una muestra y la media?
Pregunto, porque estoy buscando una manera de predecir si una variable nominal dada tiene alguna importancia para un modelo de regresión lineal. Si ANOVA debe hacerse DESPUÉS de modelar, entonces podría correr el modelo con y sin una variable dada, y ver cuál funciona mejor.
Luego, leí que tiene que realizar pruebas estadísticas en cada una de sus tres suposiciones. Entonces, básicamente, para un novato como yo, parece que está corriendo pruebas sobre pruebas sobre pruebas.
En la aplicación, ¿con qué frecuencia se prueban estas suposiciones? ¿Con qué frecuencia fallan dichas pruebas?
Me siento un poco abrumado por lo complicado que parece esto a primera vista. Mi formación en estadística es prácticamente nula, así que perdona mi falta de refinamiento.
En la segunda suposición, ¿qué se entiende por la palabra "tratamiento"?
Nuevamente, podría simplemente usar las fórmulas de Wikipedia para codificar algo, ¡pero no quiero ser un analista perezoso pasando por alto posiblemente detalles importantes! ¡Esto es lo que obtengo por no tomar estadísticas como especialidad en matemáticas!