Evidentemente, esta pregunta procede de un estudio con un diseño bidireccional no equilibrado, analizado en R con el método aov()
función; esta página ofrece un ejemplo más reciente y detallado de esta cuestión.
La respuesta general a esta pregunta, como a tantas, es: "Depende". Aquí depende de si el diseño está equilibrado y, si no lo está, de qué tipo de ANOVA se elija.
En primer lugar, depende de si el diseño es equilibrado. En el mejor de los mundos posibles, con el mismo número de casos en todas las celdas de un diseño factorial, no habría diferencias debidas al orden de introducción de los factores en el modelo, independientemente de cómo se realice el ANOVA.* Los casos que nos ocupan, evidentemente de una cohorte clínica retrospectiva, parecen proceder de un mundo real en el que no se encontró tal equilibrio. Así que el orden puede asunto.
En segundo lugar, depende de cómo se realice el ANOVA, que es una cuestión un tanto polémica. Los tipos de ANOVA para diseños no equilibrados difieren en el orden de evaluación de los efectos principales y las interacciones. La evaluación de las interacciones es fundamental para los ANOVA de dos vías y de orden superior, por lo que existen controversias sobre la mejor forma de proceder. Véase esta página con validación cruzada para una explicación y debate. Vea los detalles y la advertencia para el Anova()
(con "A" mayúscula) en la función manual del car
paquete para una visión diferente.
El orden de los factores hace materia en diseños desequilibrados según el aov()
en R, que utiliza lo que se denominan pruebas de tipo I. Se trata de atribuciones secuenciales de la varianza a los factores en el orden de entrada en el modelo, como se preveía en la presente pregunta. El orden no materia con las pruebas de tipo II o III previstas por la Anova()
en la función car
en R. Estas alternativas, sin embargo, tienen sus propias desventajas potenciales señaladas en los enlaces anteriores.
Por último, considere la relación con la regresión lineal múltiple como con lm()
en R, que es esencialmente el mismo tipo de modelo si se incluyen términos de interacción. El orden de entrada de las variables en lm()
no importa en términos de coeficientes de regresión y p -valores comunicados por summary(lm())
en el que un factor categórico de nivel k se codifica como (k-1) variables ficticias binarias y se presenta un coeficiente de regresión para cada variable ficticia.
Sin embargo, es posible envolver el lm()
salida con anova()
("a" minúscula, de la R stats
paquete) o Anova()
para resumir la influencia de cada factor sobre todos sus niveles, como se espera en el ANOVA clásico. Entonces importará el orden de los factores con anova()
en cuanto a aov()
y no importará con Anova()
. Del mismo modo, volverían las disputas sobre qué tipo de ANOVA utilizar. Así que no es seguro asumir la independencia del orden de entrada de los factores con todos los usos posteriores de lm()
modelos.
*Tener el mismo número de observaciones en todas las celdas es suficiente pero, según tengo entendido, no es necesario para que el orden de los factores sea irrelevante. Los tipos de equilibrio menos exigentes pueden permitir la independencia del orden.