Aunque en general parece acertado exigir una investigación más profunda de los datos, los autores pasaron por alto hechos importantes que debilitan su argumentación. Mostraré estos hechos en los ejemplos ilustrativos que proporcionan.
1) La primera es sobre la posible interacción del sexo y el estado de salud del niño con el "dolor" (¿por la muerte del niño?). Esto se mide -como a menudo en psicometría- en una escala ordinal, no métrica. Por lo tanto, no se permite calcular las diferencias en el duelo. (¿Qué debería ser si después de todo? ¿Hasta qué punto se está inclinado hacia el suelo con la pena?) Esto erradica un requisito importante de la argumentación del autor, a saber, la descomposición de los efectos en interacción y efecto principal tomando las diferencias de las medias (tampoco es apropiado en el análisis ordinal). Al final, para una disposición ordinal de este tipo, todo lo que se puede decir es, de hecho, "hombre sano > mujer sana > mujer enferma > hombre enfermo".
Esto va unido a una nota del término "interacción" en estos escenarios, y a otro defecto tanto de los autores como de los que critican. A saber, la única forma de demostrar una $2\times 2$ La interacción ordinal para ser significativa sería un gráfico de interacción en forma de X. (Como en la Figura 1 del artículo). ¿Por qué?
Supongamos un gráfico de interacción en forma de "<" como en el primer ejemplo (Tabla 1). Como el tamaño de las diferencias en la escala de la pena, puede elegir una transformación monótona que mueva el 3 cerca de 1 y el -1 cerca de -3. Esto no destruye el contenido de información esencial en los datos. Pero ahora casi se tiene un gráfico de interacción en forma de "=" y se concluiría (incluso a partir del ANOVA, que no es apropiado para los datos ordinales de todos modos; uno debería usar procedimientos no paramétricos allí) que no hay interacción.
Así, una interacción ordinal habría sido "hombre sano >= mujer enferma > mujer sana >= hombre enfermo". Este patrón en forma de X no puede ser destruido cambiando monotónicamente la escala ordinal (arbitraria) de la "pena".
2) En cuanto al segundo ejemplo, hay un fallo totalmente diferente.
Este ejemplo considera algo métrico, a saber, el número de hits de los jugadores de béisbol, que fueron sometidos a $2\times 2$ condiciones que posiblemente interactúen. Ahora está bien calcular las diferencias de aciertos, y se permite una descomposición en efecto principal y efecto de interacción. Pero, ¿es única?
Nunca podemos saberlo. Considere la Tabla 6:
a0 a1
b0 b1 b0 b1
group mean 3 3 5 7
row effect -1.5 -1.5 1.5 1.5
column effect -0.5 0.5 -0.5 0.5
grand mean 4.5
interaction +0.5 -0.5 -0.5 +0.5
¿Qué hace creer a los autores que -1,5 es un estimador insesgado del efecto fila de a0
y 1,5 de a1
? Eligieron estos valores de forma análoga a la estimación por mínimos cuadrados, pero LSE sólo puede estimar el valor esperado. No puede decirnos cómo descomponer los parámetros desconocidos en sumandos aún más desconocidos.
¡Y nos interesan estos sumandos desconocidos! ¿Por qué hay un efecto colum de +/-0,5 entre a0b0
y a0b1
si los valores de ambas celdas son exactamente iguales? Es debido a las otras celdas. Es decir, debido a los jugadores de béisbol completamente diferentes, es decir, los que están bajo la condición a1
concluimos que si tratáramos a un jugador del grupo a0 con la condición b1
en lugar de b0
¿Golpearía una vez más por partido? Aunque en el grupo a0
no hay diferencia entre la condición b1
y b0
¿se ha observado? ¿Puede ser esto cierto? ¿O es simplemente un espejismo estadístico?
El fondo estadístico de este fenómeno ha sido descubierto por Rao (1962) y se denomina estimabilidad . Se puede demostrar que en este sencillo $2\times2$ disposición con los cuatro efectos de interacción, los efectos principales no son estimables, lo que significa que dependen de algo arbitrario. Eso provoca este espejismo.
Los estimadores del efecto principal sólo pueden ser únicos si eliminamos las interacciones del modelo. Así que Rosnow y Rosenthal quieren comparar términos que simplemente no están presentes al mismo tiempo.
Este error lleva también a la conclusión errónea de que las interacciones significativas tienen siempre forma de X.
Pero no están completamente equivocados: si no se encuentra una interacción significativa en el ANOVA y se quiere empezar a considerar sólo los efectos principales, hay que tener en cuenta que podría haberse producido un error de tipo II, y que de hecho hay una interacción que sesga la estimación y las pruebas de los efectos principales. Por lo tanto, un gráfico de interacción con intervalos de confianza sería una buena idea, ya que también arroja más luz sobre los propios efectos.
1 votos
Después de todo un año, creo que esta pregunta merece al menos un comentario y un upvote.