3 votos

¿Puedes explicar ANOVA y sus supuestos a un principiante?

Estaba a punto de comenzar a codificar una prueba ANOVA para estudiar las diferencias en los precios de las casas entre vecindarios. Leí que ANOVA es una gran manera de averiguar si hay una diferencia significativa en grupos nominales de datos contra una variable continua.

Pero luego leí sobre las tres suposiciones que deben cumplirse para asegurarse de que los resultados de su ANOVA puedan ser confiados:

  1. Los errores experimentales de sus datos están distribuidos de forma normal
  2. Varianzas iguales entre tratamientos - Homogeneidad de varianzas, Homoscedasticidad
  3. Independencia de muestras: Cada muestra está seleccionada al azar e independiente

Entonces, la parte 1 me lleva a creer que primero debe hacer algunas predicciones basadas en sus datos, y luego verificar los errores.

¿Eso significa que las pruebas ANOVA siempre se hacen post-hoc? ¿O está hablando de la diferencia entre una muestra y la media?

Pregunto, porque estoy buscando una manera de predecir si una variable nominal dada tiene alguna importancia para un modelo de regresión lineal. Si ANOVA debe hacerse DESPUÉS de modelar, entonces podría correr el modelo con y sin una variable dada, y ver cuál funciona mejor.

Luego, leí que tiene que realizar pruebas estadísticas en cada una de sus tres suposiciones. Entonces, básicamente, para un novato como yo, parece que está corriendo pruebas sobre pruebas sobre pruebas.

En la aplicación, ¿con qué frecuencia se prueban estas suposiciones? ¿Con qué frecuencia fallan dichas pruebas?

Me siento un poco abrumado por lo complicado que parece esto a primera vista. Mi formación en estadística es prácticamente nula, así que perdona mi falta de refinamiento.

En la segunda suposición, ¿qué se entiende por la palabra "tratamiento"?

Nuevamente, podría simplemente usar las fórmulas de Wikipedia para codificar algo, ¡pero no quiero ser un analista perezoso pasando por alto posiblemente detalles importantes! ¡Esto es lo que obtengo por no tomar estadísticas como especialidad en matemáticas!

3voto

blank blankman Puntos 71

Creo que esta es una gran pregunta. En primer lugar, quiero advertirte que a menudo hay diferencias significativas entre las estadísticas presentadas en los libros de texto y las estadísticas utilizadas en la práctica. Así que aunque leas en el libro de texto que necesitas hacer esto y aquello y todo antes de hacer un ANOVA, en la práctica esto rara vez es el caso.

En la práctica, el ANOVA es una prueba muy simple para un problema muy simple. A partir de tu publicación, me parece que puedes venir de un fondo de aprendizaje automático donde el modelado es mucho más sofisticado que el ANOVA. El ANOVA se remonta a la primera mitad del siglo pasado, cuando las pruebas estadísticas aún se calculaban a mano. En ese momento, era un truco inteligente para probar la igualdad de las medias entre diferentes grupos. Tiene variantes más sofisticadas, por ejemplo, ANOVA de dos vías, tres vías, ANCOVA o incluso MANOVA. Pero todos estos fueron diseñados para hacerse sin computadoras, y de hecho, todos podrían hacerse de manera equivalente utilizando algún tipo de regresión lineal.

Para responder a tus preguntas:

  1. ¿Significa eso que las pruebas ANOVA siempre se realizan post hoc? ¿O se refiere a la diferencia entre una muestra y la media?

Sí y no. De hecho, lo que quieres decir con "post-hoc" en tu pregunta no es lo que los estadísticos generalmente consideran como "post-hoc". "Post-hoc" en estadísticas tradicionales significa realizar pruebas de hipótesis que están diseñadas después de haber examinado los datos. Por ejemplo, si hubieras decidido probar si los precios de las casas eran diferentes en diferentes vecindarios solo después de haber examinado los datos gráficamente, entonces sería "post-hoc". Si hubieras querido hacer esto antes de ver los datos y luego quisieras buscar una prueba para hacer esto adecuadamente, eso no sería "post-hoc".

En segundo lugar, el ANOVA se ocupa solo de la comparación de las medias de los grupos. Por lo tanto, no es necesario realizar un modelado más complicado. "Error" simplemente significa diferencia de la media. Hay una variante de ANOVA, llamada ANCOVA, que trata el caso en el que tienes otros "covariables" por los que deseas ajustar, pero bien podrías usar regresión lineal en ese caso.

En tercer lugar, a veces se recomienda realizar pruebas para determinar si se cumplen las suposiciones en los libros de texto, pero de hecho esto no siempre es aconsejable. En primer lugar, puede ser una cuestión de "a quién le importa", porque a menudo pruebas como estas están destinadas a ser exploratorias de todos modos, es decir, para dar al analista de datos una mejor idea de la estructura de los datos. En segundo lugar, el análisis de datos en la práctica no consiste en aplicar un algoritmo. No es el caso de "si la etapa 1 es significativa, entonces haz la prueba A, si no, haz la prueba B". Con mucha más frecuencia, las comprobaciones se hacen gráficamente o de forma informal para asegurarse de que las suposiciones no estén demasiado lejos de la realidad.

  1. En la aplicación, ¿con qué frecuencia se prueban estas suposiciones? ¿Con qué frecuencia fallan tales pruebas?

Así que supongo que lo anterior responde también a tu segunda pregunta.

  1. En la segunda suposición, ¿qué se entiende por la palabra "tratamiento"?

En presentaciones de libros de texto de ANOVA, el escenario que tienen en mente a menudo es la determinación de si un "tratamiento" (de una enfermedad, por ejemplo) es mejor que un "control". La hipótesis es que si es mejor, entonces las medias de los dos grupos (tratamiento vs. control) serían diferentes. A veces tienen más de dos grupos (más de un tratamiento) y, por lo tanto, utilizarían ANOVA.

Por cierto, si tu objetivo es estudiar los precios de las casas (en lugar de estudiar estadísticas), entonces probablemente haya métodos mejores en tu caso que el ANOVA, especialmente si tus datos son más grandes que los ejemplos de juguete que se ven en los libros de texto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X