27 votos

El orden de las variables en ANOVA importa, ¿no?

¿Estoy en lo cierto al entender que el orden en que se especifican las variables en un ANOVA multifactorial marca la diferencia, pero que el orden no importa cuando se hace una regresión lineal múltiple?

Así que asumiendo un resultado como pérdida de sangre medida y y dos variables categóricas

  1. método de adenoidectomía a ,
  2. método de amigdalectomía b .

El modelo y~a+b es diferente al modelo y~b+a (o eso parece indicar mi implementación en R).

¿Estoy en lo cierto al entender que el término aquí es que ANOVA es un jerárquico ya que primero atribuye toda la varianza que puede al primer factor antes de intentar atribuir la varianza residual al segundo factor?

En el ejemplo anterior, la jerarquía tiene sentido porque siempre hago primero la adenoidectomía antes de hacer la amigdalectomía, pero ¿qué pasaría si uno tuviera dos variables sin orden inherente?

27voto

EdM Puntos 5716

Evidentemente, esta pregunta procede de un estudio con un diseño bidireccional no equilibrado, analizado en R con el método aov() función; esta página ofrece un ejemplo más reciente y detallado de esta cuestión.

La respuesta general a esta pregunta, como a tantas, es: "Depende". Aquí depende de si el diseño está equilibrado y, si no lo está, de qué tipo de ANOVA se elija.

En primer lugar, depende de si el diseño es equilibrado. En el mejor de los mundos posibles, con el mismo número de casos en todas las celdas de un diseño factorial, no habría diferencias debidas al orden de introducción de los factores en el modelo, independientemente de cómo se realice el ANOVA.* Los casos que nos ocupan, evidentemente de una cohorte clínica retrospectiva, parecen proceder de un mundo real en el que no se encontró tal equilibrio. Así que el orden puede asunto.

En segundo lugar, depende de cómo se realice el ANOVA, que es una cuestión un tanto polémica. Los tipos de ANOVA para diseños no equilibrados difieren en el orden de evaluación de los efectos principales y las interacciones. La evaluación de las interacciones es fundamental para los ANOVA de dos vías y de orden superior, por lo que existen controversias sobre la mejor forma de proceder. Véase esta página con validación cruzada para una explicación y debate. Vea los detalles y la advertencia para el Anova() (con "A" mayúscula) en la función manual del car paquete para una visión diferente.

El orden de los factores hace materia en diseños desequilibrados según el aov() en R, que utiliza lo que se denominan pruebas de tipo I. Se trata de atribuciones secuenciales de la varianza a los factores en el orden de entrada en el modelo, como se preveía en la presente pregunta. El orden no materia con las pruebas de tipo II o III previstas por la Anova() en la función car en R. Estas alternativas, sin embargo, tienen sus propias desventajas potenciales señaladas en los enlaces anteriores.

Por último, considere la relación con la regresión lineal múltiple como con lm() en R, que es esencialmente el mismo tipo de modelo si se incluyen términos de interacción. El orden de entrada de las variables en lm() no importa en términos de coeficientes de regresión y p -valores comunicados por summary(lm()) en el que un factor categórico de nivel k se codifica como (k-1) variables ficticias binarias y se presenta un coeficiente de regresión para cada variable ficticia.

Sin embargo, es posible envolver el lm() salida con anova() ("a" minúscula, de la R stats paquete) o Anova() para resumir la influencia de cada factor sobre todos sus niveles, como se espera en el ANOVA clásico. Entonces importará el orden de los factores con anova() en cuanto a aov() y no importará con Anova() . Del mismo modo, volverían las disputas sobre qué tipo de ANOVA utilizar. Así que no es seguro asumir la independencia del orden de entrada de los factores con todos los usos posteriores de lm() modelos.


*Tener el mismo número de observaciones en todas las celdas es suficiente pero, según tengo entendido, no es necesario para que el orden de los factores sea irrelevante. Los tipos de equilibrio menos exigentes pueden permitir la independencia del orden.

0voto

Horst Grünbusch Puntos 2742

El término modelo jerárquico se refiere a la estructura entre los factores. Por ejemplo, un estudio multicéntrico es jerárquico: los pacientes están anidados dentro de los hospitales que los tratan. Cada hospital trata a los pacientes con placebo y verum, pero recibir cada uno de ellos en el hospital A o B es ligeramente diferente debido a algún efecto común del hospital que gobierna en todos sus pacientes (incluso podría ser un efecto de interacción con el agente experimental). Entonces se llama efecto jerárquico.

Ahora bien, sus métodos de ectomía pueden ser jerárquicos: ¿es plausible que un determinado método de amigdalectomía sea ligeramente diferente (en sí mismo, todavía no en el efecto, porque eso es lo que va a estimar y probar) en función del método de adenoidectomía utilizado anteriormente en el mismo paciente? En caso afirmativo, debería especificarlo en su modelo.

Tu observación de que y~a+b puede ser diferente de y~b+a indica que hay algo que no funciona. Los efectos aditivos se conmutan, por lo que no debería haber diferencias (aparte de pequeñas diferencias numéricas). No es plausible ni deseable que el efecto de los métodos de cirugía pueda depender del orden en que el estadístico especifique posteriormente los efectos. Así que probablemente eligió el enfoque equivocado para alimentar R con los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X