6 votos

¿Qué medida del tamaño del efecto en ANOVA tiene modo en cero bajo el nulo (a diferencia de $\eta^2$ que no lo hace)?

He encontrado un efecto extraño al calcular la eta al cuadrado en ANOVA. He aquí una breve simulación para demostrarlo.

Simulo $k$ grupos con $n=10$ cada uno, con todos los valores extraídos de una distribución normal estándar (es decir, bajo la hipótesis nula de no diferencia entre grupos). Realizo un ANOVA unidireccional para comparar estos grupos y calculo la eta al cuadrado $\eta^2 = \mathrm{SS}_\mathrm{btw}/\mathrm{SS}_\mathrm{tot}$ como medida del tamaño del efecto. A continuación, trazo el histograma de los valores resultantes a lo largo de muchas simulaciones. He aquí el gráfico de $k=2,5,10$ :

Distribution of eta squared in one-way ANOVA under null hypothesis

Se puede observar que mientras que en $k=2$ la distribución alcanza un máximo en cero, con más grupos la distribución empieza a alcanzar un máximo en un valor positivo distinto de cero. Tengo varias preguntas sobre este fenómeno.

  1. He buscado un poco en Google (y en este foro) y he visto que eta al cuadrado suele denominarse una medida "sesgada" del tamaño del efecto. ¿Se refiere esto exactamente a lo que he encontrado?

    Actualización: no. Como @gung y @Silverfish aclaran a continuación, eta al cuadrado está trivialmente sesgada porque está restringida a ser positiva, y por tanto $\mathbb{E}(\eta^2) \ne 0$ bajo el nulo, lo que significa que está sesgado por definición. Estoy hablando de un diferente fenómeno que no parece tener nombre (?), por lo que lo llamaré "modo-biased-under-null".

  2. ¿En qué condiciones aparece este modo-bias-under-null? No lo consigo con una prueba t ( $k=2$ ), tanto con tamaños de muestra iguales como no iguales, y parecen no conseguirlo con $k=3$ . ¿Qué es una condición (en términos de $k$ et $n_i$ ) que garantice que el modo estará a cero?

    Actualización: parece que la respuesta es $k \le 3$ . Véase el debate aquí: ¿Cuál es la distribución de $R^2$ en regresión lineal bajo la hipótesis nula? ¿Por qué su moda no está en cero cuando $k>3$ ?

  3. ¿Cuáles son las alternativas a eta al cuadrado que no sufren de este extraño modo-biadness-under-null?

    Me gustaría disponer de una medida del tamaño del efecto (informalmente: medida de "separabilidad" entre grupos) que:

    • es imparcial puede estar sesgada, pero debería alcanzar un máximo de cero bajo la hipótesis nula;
    • está entre $0$ et $1$ para que $0$ puede interpretarse como un solapamiento total entre grupos y $1$ como distribuciones no superpuestas de grupos (es decir. $100\%$ precisión de clasificación mediante un algoritmo trivial);
    • no tiene por qué venir dada por una fórmula sencilla, siempre que pueda calcularse (por ejemplo, para $k=2$ un área bajo una curva ROC sería una opción);
    • funciona con grupos desequilibrados;
    • se generaliza a ANOVA de n vías con varios factores, como eta al cuadrado se generaliza a eta al cuadrado parcial (pero no me interesa el anidamiento, las medidas repetidas u otros diseños ANOVA desagradables; sólo, por ejemplo, dos factores con una interacción).

Actualización: ¿por qué iba a importarme?

En mi campo (neurociencia), la gente a menudo prueba un montón de DVs (actividad de neuronas individuales) para la dependencia de algunos IVs categóricos. A menudo esto se hace cuando sólo hay un IV categórico de interés, y es binario. En este caso, se suele trazar un histograma de los tamaños del efecto en una población de neuronas. He aquí un ejemplo de este artículo de Nature :

Kepecs et al. histogram

Aquí $563$ neuronas, $136$ mostraron diferencias significativas en $p<0.05$ y el tamaño del efecto ("preferencia de resultado") se calculó como un área bajo la curva ROC a una escala adecuada.

Quiero hacer un histograma similar, pero cuando se comprueba la sintonía de las neuronas no con un factor binario, sino con un factor multinivel. Así que iba a ejecutar ANOVA y utilizar $\eta^2$ como el tamaño del efecto (o quizás con signo $\eta$ ya que mi factor es de hecho ordinal, por lo que se puede asignar un signo significativo a $\sqrt{\eta^2}$ ), pero el histograma resultante no tiene un pico en cero (y en el caso de signatura $\eta$ es bimodal), lo que sin duda confundirá a los todos los lectores.

2 votos

"es insesgado (picos en cero bajo la hipótesis nula)": Puede que me esté perdiendo algo aquí, pero relacionando esto de nuevo con la regresión múltiple, es casi imposible que $R^2 = 0$ incluso bajo $H_0$ . Tendrías que tener suerte con tu $X$ siendo ortogonal a lo observado $Y$ . Exigir que $\mathbb{E}(R^2) = 0$ bajo el nulo es obviamente un requisito irrazonable porque casi siempre va a ser positivo, pero nunca negativo (consideraciones similares pero no idénticas para $R^2_{adj}$ ). En $\rho^2$ es cero bajo el nulo, $R^2$ no es sorprendentemente parcial. Pero, ¿quizá se refiere a otra cosa con "tendencioso"?

0 votos

@Silverfish, no estoy muy familiarizado con este tema, así que es muy posible que mis preguntas sean ingenuas. Perdón por ello y gracias por comprender. Pero estoy confundido. ¿Es $\eta^2 = R^2$ va a llegar a cero para una prueba t? En caso afirmativo, ¿qué relación tiene con lo que has escrito? O tal vez debería estar pensando en $r$ y no sobre $r^2$ ? Espera, ¿entonces el problema es que para muchos grupos / muchos predictores no hay forma de "sacar una raíz cuadrada" de $R^2$ y asignarle un signo significativo?

0 votos

Me temo que cada vez que veo un ANOVA empiezo a pensar en una regresión. Los usuarios cuyos cerebros funcionan en "modo ANOVA" están mejor preparados que yo para responder a esta pregunta, pero $R^2$ et $\eta^2$ son estrechamente vinculados .

5voto

Sean Hanley Puntos 2428

$\eta^2$ es lo mismo que $R^2$ en un ANOVA unidireccional. Está limitado por $[0,\ 1]$ . Cuando se cumple la hipótesis nula, el valor verdadero de $\eta^2$ es $0$ . Por tanto, el estimador $SSB/SST$ debe ser sesgada a menos que sólo pueda devolver $0$ cuando la hipótesis nula es verdadera, o si la mitad de su distribución es $<0$ . Dado que no se puede $<0$ y puede arrojar valores distintos de cero, incluso cuando se obtiene el nulo, debe ser sesgada. Por otra parte, es coherente, en el sentido de que $\eta^2\rightarrow 0$ como $N$ va a infinito cuando se cumple el nulo.

0 votos

Gracias, Gung. Tu respuesta y los comentarios de @Silverfish más arriba dejaron claro y obvio que $\eta^2$ está sesgada por la trivial razón de estar obligada a ser positiva. Si se elige cualquier forma de asignar signo a $\pm \sqrt{\eta^2}$ entonces $\eta$ se distribuirá simétricamente alrededor de cero bajo $H_0$ y, por tanto, imparcial. Sin embargo, lo que me preocupa es que la distribución de $\eta^2$ tiene un modo distinto de cero para $k>3$ grupos; por lo tanto, la distribución de mi $\eta$ será bimodal. Mi actual La pregunta es si existe alguna medida del tamaño del efecto sin esta extraña propiedad. Voy a editar para aclarar.

0 votos

@amoeba De hecho el cartel de $R$ es decir $\eta$ no es arbitraria, como ya he explicado aquí ¡! $R$ es la correlación entre equipado et observado de la variable dependiente.

0 votos

Lo que en esencia explicas ahí es que el signo siempre es positivo. Yo diría que en algunos casos puede haber convenciones más significativas. Ya lo comenté allí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X