Actualmente estoy intentando crear un modelo lineal en R con algunas variables categóricas y otras continuas como las siguientes:
lm(Cost ~ factor(Factor1) + factor(Factor2) + Continuousvariable)
Soy consciente de que cuando se utilizan factores (variables categóricas) el valor por defecto en R elige el primer factor alfanumérico para ser el factor de referencia (es decir, coeficiente de 0 en el modelo).
He comprobado que en mi modelo particular, al ordenar los factores de una manera, estos factores tienen valores de significación bastante altos (Pr(>|t|)), sin embargo, si invierto el orden de los factores cambiando el factor de referencia, los valores de significación disminuyen considerablemente.
Vea los ejemplos de resultados más abajo:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 89.644 7.739 11.584 < 2e-16 ***
factor(Factor1)2 19.252 8.908 2.161 0.03184 *
factor(Factor1)3 48.936 7.714 6.344 1.42e-09 ***
factor(Factor2)2 13.234 10.323 1.282 0.20132
factor(Factor2)3 29.701 10.362 2.866 0.00459 **
factor(Factor2)4 66.499 10.849 6.129 4.49e-09 ***
factor(Factor2)5 117.743 11.364 10.361 < 2e-16 ***
factor(Factor2)6 155.489 10.077 15.429 < 2e-16 ***
Ahora se recodifica para invertir las etiquetas de los factores:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 319.832 6.933 46.135 < 2e-16 ***
factor(Factor1)2 -29.684 9.208 -3.224 0.001474 **
factor(Factor1)3 -48.936 7.714 -6.344 1.42e-09 ***
factor(Factor2)2 -37.746 10.369 -3.640 0.000345 ***
factor(Factor2)3 -88.990 9.725 -9.150 < 2e-16 ***
factor(Factor2)4 -125.788 9.911 -12.692 < 2e-16 ***
factor(Factor2)5 -142.256 9.690 -14.681 < 2e-16 ***
factor(Factor2)6 -155.489 10.077 -15.429 < 2e-16 ***
Mi pregunta es ¿cuál es el razonamiento que hay detrás de esto y hay una regla general a la hora de ordenar los factores para mejorar la importancia de los factores en mi modelo?
Espero que tenga sentido, ¡gracias de antemano!