Intento comprender La respuesta de Ben Bolker a esta pregunta.
En primer lugar, creamos un marco de datos:
set.seed(101)
d <- data.frame(x=sample(1:4,size=30,replace=TRUE))
d$y <- rnorm(30,1+2*d$x,sd=0.01)
Entonces el Sr. Bolker dice:
x como factor ordenado
coef(lm(y~ordered(x),d))
## (Intercept) ordered(x).L ordered(x).Q ordered(x).C
## 5.998121421 4.472505514 0.006109021 -0.003125958
Ahora el intercepto especifica el valor de y
en el media nivel de factor (a medio camino entre 2 y 3); el L
(lineal) da una medida de la tendencia lineal (no muy seguro que puedo explicar el valor particular ...), Q
y C
especifique los términos cuadrático y cúbico (que son próximos a cero en este caso porque el patrón es lineal); si hubiera más niveles, los contrastes de orden superior se numerarían 5, 6, ...
Mi pregunta es, ¿cómo es explícitamente la fórmula de regresión?
Pensaba lm()
hace un modelo como este:
y = 5,9981 + 4,4725 (x_1) + 0,0061 (x_2) - 0,00312 (x_3)
donde, dado que el x_i
son categorías, sólo pueden ser 0 ó 1.
No entiendo qué tienen que ver los términos cuadrático y cúbico con un modelo lineal. Aun así, elevar al cuadrado/cubo cualquiera de las variables no supondría ninguna diferencia, ya que 0 ^ 3= 0 y 1^3 = 1.