2 votos

No-normalidad y heterogeneidad en ANCOVA

Estoy realizando un ANCOVA. Mi variable dependiente es el número de días que un estudiante está ausente de la escuela. Como se puede imaginar, esta variable no sigue una distribución normal, por lo que realicé una transformación logarítmica. Cuando ejecuto el análisis con la variable transformada, no encuentro una relación significativa con mi variable de interés. Sin embargo, cuando lo hago con la variable dependiente original, la relación es significativa. Además, la suposición de homogeneidad se viola con la variable dependiente original, pero no con la variable transformada. Dadas las violaciones, pensaba que la potencia estadística debería reducirse. ¿Por qué obtengo resultados significativos solo cuando estas suposiciones se violan? ¿Alguien puede ayudarme a entender esto? También debo mencionar que mis tamaños de muestra son bastante desiguales y, en este caso, la celda más pequeña tiene una varianza menor en la variable dependiente.

5voto

Zizzencs Puntos 1358

En primer lugar, sin ver los datos, es difícil, si no imposible, determinar exactamente por qué obtienes significancia con el modelo que viola las suposiciones pero no con el que no lo hace. Sin embargo, una posible (probable) razón es que tenías algunos estudiantes con un gran número de ausencias que también tenían un valor inusual en la variable independiente (sea lo que sea - podrías decirnos). Esto podría ser un punto influyente y causar una relación extraña.

En segundo lugar, no es la variable dependiente la que tiene que ser normal, son los residuos del modelo. ¿Los has probado?

En tercer lugar, los días de ausencia es una variable de conteo. Por lo tanto, a menos que el promedio de días de ausencia sea bastante alto, no deberías estar haciendo ANCOVA en absoluto, deberías estar haciendo alguna forma de regresión de conteo. Posiblemente de Poisson pero más probablemente de regresión binomial negativa. Si esto es durante un período de tiempo relativamente corto, entonces es posible que incluso necesites un modelo inflado en cero, pero es difícil decirlo sin los datos.

En cuarto lugar, ¿cómo tomaste el logaritmo del número de días ausente? Seguramente algunos estudiantes no tuvieron días de ausencia? Log(0) no está definido.

4voto

AdamSane Puntos 1825

La variable dependiente no necesita tener una distribución normal (incondicional), incluso si la estás utilizando para inferencia.

Su distribución condicional debería estar cerca de lo normal a menos que el tamaño de la muestra sea bastante grande, de lo contrario la inferencia se verá algo afectada.

Nota que la suposición de linealidad y la suposición de homocedasticidad se ven afectadas por tu transformación - no puedes simplemente transformar variables sin tener en cuenta tus otras suposiciones. Incluso la aditividad del término de error se ve afectada.

Quizás lo peor de todo -- tomar logaritmos de conteos hará perder todos los casos donde el conteo es cero. En algunos casos esto puede arruinar por completo tu análisis. De hecho, esa pérdida de puntos podría ser incluso una explicación (entre muchas posibles) para el problema significativo/no significativo.

Probablemente deberías estar utilizando un modelo apropiado para datos de conteo, como un GLM con una respuesta binomial (asumiendo una probabilidad constante de ausencia dentro de cada caso), o un Poisson (probablemente lo intentaría primero), o cuasi-Poisson o incluso binomial negativo.

Si es necesario que uses regresión lineal, y consideras que la igualdad de la varianza es lo más importante, las transformaciones que estabilizan la varianza incluyen el Anscombe y Freeman-Tukey. Estas solían usarse más antes de que el software GLM se volviera ampliamente utilizado. Todas estas mejoran bastante bien la aproximación normal siempre y cuando los conteos tiendan a no ser bajos.

Sin embargo, la suposición de linealidad es, en mi opinión, generalmente la suposición más central; debes considerar si alguna transformación está empeorando en lugar de mejorar eso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X