8 votos

¿Qué es lo peor que puede ocurrir cuando se viola el supuesto de homocedasticidad en el ANOVA?

Esta es una pregunta de seguimiento que tengo después de revisar este post: ¿Prueba estadística de diferencia de medias para datos no normales y heteroscedásticos?

Para que quede claro, lo pregunto desde una perspectiva pragmática (sin sugerir que las respuestas teóricas no sean bienvenidas). Cuando la normalidad entre los grupos es presente (diferente del título de la pregunta referida anteriormente), pero las varianzas de los grupos son sustancialmente diferentes, ¿qué es lo peor que podría observar un investigador?

Según mi experiencia, el problema que más surge con este escenario son los patrones "extraños" en el post hoc comparaciones. (Esto se ha observado tanto en mi trabajo publicado, como en entornos pedagógicos... estaré encantado de proporcionar detalles al respecto en los comentarios más abajo). Lo que he observado es algo parecido a esto: Tienes tres grupos con $M_1 < M_2 < M_3$ . El ANOVA (ómnibus) da $p<\alpha$ y el par de $t$ -sugieren las pruebas $M_2$ es estadísticamente diferente de los otros dos grupos... pero $M_1$ y $M_3$ no son significativamente diferentes desde el punto de vista estadístico. Parte de mi pregunta es si esto es lo que otros han observado, pero también, ¿qué otros problemas han observado con escenarios comparables?

Una rápida revisión de mis textos de referencia sugiere que el ANOVA es bastante robusto ante violaciones leves o moderadas del supuesto de homocedasticidad, y aún más con tamaños de muestra grandes. Sin embargo, estas referencias no indican específicamente (1) qué podría salir mal o (2) qué podría ocurrir con un gran número de grupos.

1 votos

No estoy seguro de por qué no aparece el enlace a la pregunta original (sólo aparece como texto sin formato)... además, en la otra pregunta, el título dice "no normal", pero la discusión es sobre datos normales

0 votos

Es porque has incluido HTML en tu pregunta. Sólo tiene que utilizar las opciones de formato que se presentan en la barra de herramientas de formato - se formateará todo correctamente.

2 votos

Obtienes asupernova

5voto

jsakaluk Puntos 544

Se suele decir que las comparaciones de grupos de medias basadas en el modelo lineal general son generalmente robustas a las violaciones del supuesto de homogeneidad de la varianza. Sin embargo, hay ciertas condiciones en las que esto no es definitivamente el caso, y una relativamente simple es una situación en la que se viola el supuesto de homogeneidad de la varianza y se tienen disparidades en el tamaño de los grupos. Esta combinación puede aumentar su tasa de error de tipo I o de tipo II, dependiendo de la distribución de las disparidades en las varianzas y los tamaños de las muestras entre los grupos .

Una serie de simulaciones simples de $p$ -valores le mostrará cómo. En primer lugar, veamos cómo una distribución $p$ -Los valores deberían ser como cuando la nulidad es verdadera, se cumple el supuesto de homogeneidad de la varianza y los tamaños de los grupos son iguales. Simularemos puntuaciones estandarizadas iguales para 200 observaciones en dos grupos ( x y y ), ejecute una paramétrica $t$ -prueba, y guarda el resultado $p$ -(y repetirlo 10.000 veces). A continuación, trazaremos un histograma de los valores simulados $p$ -valores:

nSims <- 10000
h0 <-numeric(nSims)

for(i in 1:nSims){ 
x<-rnorm(n = 200, mean = 0, sd = 1) 
y<-rnorm(n = 200, mean = 0, sd = 1)  
z<-t.test(x,y, var.equal = T) 
h0[i]<-z$p.value 
}

hist(h0, main="Histogram of p-values [H0 = T, HoV = T, Cell.Eq = T]", xlab=("Observed p-value"), breaks=100)

enter image description here

La distribución de $p$ -es relativamente uniforme, como debería ser. Pero, ¿y si hacemos que el grupo y 5 veces mayor que la del grupo x (es decir, se viola la homogeneidad de la varianza)?

enter image description here

Sigue siendo bastante uniforme. Pero cuando combinamos la homogeneidad violada de la suposición de la varianza con las disparidades en el tamaño del grupo (ahora grupo decreciente x a 20), nos encontramos con problemas importantes. enter image description here

La combinación de una desviación estándar mayor en un grupo y un tamaño de grupo menor en el otro produce una inflación bastante dramática en nuestra tasa de error de tipo I. Pero las disparidades en ambos pueden funcionar también en el otro sentido. Si, en cambio, especificamos una población en la que el nulo es falso (grupo x es 0,4 en lugar de 0), y un grupo (en este caso, el grupo y ) tiene tanto una desviación estándar más grande como el tamaño de la muestra más grande, entonces podemos perjudicar nuestro poder para detectar un efecto real:

enter image description here

Así que, en resumen, la homogeneidad de la varianza no es un gran problema cuando los tamaños de los grupos son relativamente iguales, pero cuando los tamaños de los grupos son desiguales (como pueden serlo en muchas áreas de la investigación cuasi-experimental), la homogeneidad de la varianza puede realmente inflar sus tasas de error de tipo I o II.

4voto

Isabella Ghement Puntos 9964

Gregg, ¿te refieres a datos normales y heteroscedásticos? Tu segundo párrafo parece sugerirlo.

He añadido una respuesta a la entrada original a la que haces referencia, en la que sugiero que si los datos son normales pero heteroscedásticos, el uso de mínimos cuadrados generalizados proporciona el enfoque más flexible para tratar las características de los datos que mencionas. Si no se tienen en cuenta explícitamente esas características, se obtendrán resultados subóptimos y posiblemente engañosos, como has observado en tu propia práctica. Lo subóptimos o engañosos que puedan ser los resultados dependerá en última instancia de las peculiaridades de cada conjunto de datos.

Una buena forma de entender esto sería establecer un estudio de simulación en el que se puedan variar dos factores: el número de grupos y la medida en que cambia la variabilidad entre los grupos. Entonces podría seguir el impacto de estos factores en los resultados de la prueba de diferencias entre cualquiera de las medias y los resultados de las comparaciones post-hoc entre pares de medias cuando se utiliza el ANOVA estándar (que ignora la heteroscedasticidad) frente a gls (que tiene en cuenta la heteroscedasticidad).

Tal vez podría empezar su ejercicio de simulación con un ejemplo sencillo con sólo 3 grupos, en el que mantenga la variabilidad de los dos primeros grupos igual, pero cambie la variabilidad del tercer grupo por un factor f en el que f sea cada vez más grande. Esto le permitiría ver si ese tercer grupo empieza a dominar los resultados y cuándo. (Para simplificar, las diferencias en los valores medios de los resultados entre cada uno de los tres grupos podrían mantenerse iguales, aunque podría ver cómo la magnitud de la diferencia común juega con la magnitud de la variabilidad en el tercer grupo).

Creo que sería difícil hacer una evaluación general de lo que podría ir mal exactamente cuando se ignora la heteroscedasticidad, aparte de advertir a la gente de que ignorar la heteroscedasticidad es desaconsejable cuando existen mejores métodos para tratarla.

0 votos

Sí, el escenario aquí se refiere sólo a las violaciones de la hipótesis homocedástica

0 votos

Sí, ese post original era un poco confuso, ya que mencionaba la no normalidad de los datos en su título pero la normalidad en la pregunta real. Gracias por la aclaración.

3voto

Jay Querido Puntos 589

Bueno, para datos heteroskedásticos no normales, en el peor de los casos, podría no tener ningún significado. Considere las variables extraídas de $$\frac{1}{2\pi}\frac{\sigma}{\left[\left(r_1-\mu_1\right)^2+(r_2-\mu_2)^2+\sigma^2\right]^{\frac{3}{2}}},$$ que se obtendría si se extrajeran los rendimientos de dos valores de renta variable, entonces el ANOVA produciría un resultado totalmente aleatorio no correlacionado con la realidad. Tendría una potencia de cero independientemente del tamaño de la muestra.

0 votos

Gracias por esto, aunque el escenario específico que me interesa aquí es para normal pero heteroscedástica (perdón por la confusión del enlace a la pregunta anterior)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X