4 votos

Uso de ANOVA univariante con datos no distribuidos normalmente

Si mis datos tienen una distribución no normal y estoy realizando un ANOVA de 2x2, ¿qué puedo hacer para corregir este problema y poder informar adecuadamente del efecto principal y de la interacción?

Sólo un resultado es significativo (uno de los efectos principales). He leído que el bootstrapping no puede aplicarse a un ANOVA univariante en el SPSS... También he probado esto en el SPSS y no he podido obtener ningún resultado con bootstrapping.

Más información:

Utilicé un ANOVA univariante de 2 x 2 (Edad [6 años, 7 años] × Clasificación educativa [Grupo A, Grupo B]) para explorar la hipótesis de que el rendimiento en las pruebas (porcentaje de ítems correctos) aumentaría con la edad para los niños del Grupo B, pero no diferiría significativamente con la edad para los alumnos del Grupo A.

Transformé los porcentajes en valores de arcoseno para cumplir con el supuesto de una variable dependiente continua.

Mi muestra es pequeña, por lo que el tamaño de la muestra para cada celda creada por el 2 x 2 es el siguiente Grupo A de 6 años = 10, Grupo A de 7 años = 13, Grupo B de 6 años = 20 y Grupo B de 7 años = 14.

Sé que las puntuaciones se distribuyen de forma no normal en el Grupo A y en el Grupo B debido a que la mayoría de los estudiantes obtienen puntuaciones altas en la prueba (y he realizado pruebas de normalidad y he mirado los gráficos Q-Q). El grupo A, que también es el más pequeño de los dos, tiene una varianza mayor.

Pero, ¿debo realizar pruebas de normalidad para los 4 grupos creados por el 2 x 2? Encontré un efecto principal para la clasificación educativa, pero no para la edad, y no hubo interacción.

Sólo quiero saber si mis hallazgos son válidos dada la no normalidad, o si debo encontrar una manera de solucionar este problema en SPSS (por ejemplo, bootstrapping).

3voto

AdamSane Puntos 1825

Dejando a un lado el SPSS (no puedo ayudarte con eso, lo siento, no he usado el SPSS en décadas), es un asunto relativamente sencillo usar el bootstrapping en un ANOVA, pero antes de que uno intente hacerlo es importante considerar lo que se está asumiendo y si tiene sentido con tus variables. Así que debería decirnos algunas cosas sobre su respuesta (VD).

El primer punto a destacar es que en el ANOVA la distribución marginal de la respuesta no se asume como normal; es la distribución condicional. Cómo ¿llegas a la conclusión de que tus datos son no normales (cómo identificas la distribución?), y de qué grado de no normalidad estamos hablando?

El segundo punto es que la importancia de la normalidad cambia con el tamaño de la muestra, pero no mencionas el tamaño total de la muestra.


En el uso del bootstrap, tendrá que considerar alguna colección de cantidades como intercambiables. En un ANOVA de dos vías, esto sería normalmente alguna forma de residuo, pero para que los residuos sean intercambiables, se necesita (por ejemplo) que la varianza y la forma de la distribución no cambien con la media. Estas consideraciones suelen descartar su aplicación a los datos de recuento, por ejemplo.

Tiene alternativas; para algunos tipos de datos podría considerar aplicar un GLM para ajustar un modelo tipo ANOVA - creo que es algo que puede hacer en el SPSS.


Editar en respuesta a la información adicional en su edición a su pregunta:

  • El "porcentaje de elementos correctos" es un recuento (número de elementos correctos) dividido por un total fijo (número de elementos). Dejando de lado la escala, se trata de un tipo de datos de recuento, para los que el ANOVA no sería normalmente apropiado, ya que probablemente no habrá linealidad (porque la respuesta está acotada por arriba y por abajo, aunque esto sólo afectará al tamaño de la interacción en su caso), y el supuesto de varianza igual no se mantendrá a través de diferentes medias (la varianza debe variar en función de la media, debido a los límites).

  • un arcsin raíz cuadrada La transformación ayudaría a estabilizar la varianza, pero no "hará que los datos sean continuos": seguirán siendo tan discretos como antes. Puede ayudar un poco con la asimetría, pero puede que no haya mucha diferencia.

  • Hay modelos más adecuados para los datos de recuento 2x2 (por ejemplo, GLM binomiales, modelos loglineales, incluso pruebas de chi-cuadrado), pero sus datos podrían no ajustarse a los modelos habituales de recuento porque las preguntas de los tests rara vez tienen una dificultad uniforme y, aun dentro de los subgrupos, las personas rara vez tienen una capacidad uniforme. [Podrías probar un modelo binomial y ver si es plausible. Es posible que un modelo binomial negativo pueda tratar la posible heterogeneidad].

  • Si está pensando en un arcsin raíz cuadrada transformación, suele ser una indicación de que debería haber utilizado un MLG.

0 votos

He añadido más información sobre mis datos a mi consulta inicial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X