Decir que un enfoque es correcto es bastante difícil. En diferentes contextos, diferentes respuestas. Así que voy a comparar dos enfoques aquí.
Codificación ordinal
Considere la codificación ordinal:
$$x_i = \left[\matrix{\mathcal I_{z>1} & \mathcal I_{z>2} & \mathcal I_{z>3}}\right]$$
$\mathcal I_{c}$ es una variable indicadora que supone:
$$\mathcal I_{c}=\cases{0, \quad\text{if $ c $ is false} \\ 1, \quad\text{if $ c $ is true}}$$
Así, para los cuatro valores posibles de la escala $z$ obtenemos la siguiente codificación:
$$\left(\matrix{1 \\ 2 \\ 3 \\ 4}\right)\rightarrow \left(\matrix{ 0 & 0 & 0 \\ 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 1 & 1}\right)$$
Entonces, nuestro modelo de la expectativa asume la siguiente forma:
$$\hat y_i = \beta_0 + \beta_1 \mathcal I_{x_i>1}+ \beta_2 \mathcal I_{x_i>2}+ \beta_3 \mathcal I_{x_i>3}$$
Considere lo que esto significa para diferentes valores de $x_i$ :
Si $x_i = 1$ , $\hat y_i = \beta_0$
Si $x_i = 2$ , $\hat y_i = \beta_0 + \beta_1$
Si $x_i = 3$ , $\hat y_i = \beta_0 + \beta_1 + \beta_2$
Si $x_i = 4$ , $\hat y_i = \beta_0 + \beta_1 + \beta_2 + \beta_3$
Así que cada uno de $\beta_j$ representa el cambio esperado en la respuesta, con respecto al nivel anterior.
Codificación ficticia
Notarás una codificación ficticia como:
$$\left(\matrix{1 \\ 2 \\ 3 \\ 4}\right)\rightarrow \left(\matrix{ 0 & 0 & 0 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1}\right)$$
funcionaría igual, pero ahora se compararía contra el valor base, representado como $\beta_0$ . Utilizando esta codificación:
Si $x_i = 1$ , $\hat y_i = \beta_0$
Si $x_i = 2$ , $\hat y_i = \beta_0 + \beta_1$
Si $x_i = 3$ , $\hat y_i = \beta_0 + \beta_2$
Si $x_i = 4$ , $\hat y_i = \beta_0 + \beta_3$
Los coeficientes se pueden convertir de una codificación a otra, definiendo $\beta_i^*$ como la codificación ordinal de antes, tenemos que $\beta_1 = \beta_1^*$ , $\beta_2= \beta_1^*+\beta_2^*$ y $\beta_3 = \beta_1^*+\beta_2^*+\beta_3^*$ .
Sin codificación
Considera lo que ocurre si mantienes la variable como estaba.
$$\hat y_i = \beta_0 + \beta_1 x$$
Si $x_i = 1$ , $\hat y_i = \beta_0 + \beta_1$
Si $x_i = 2$ , $\hat y_i = \beta_0 + 2\beta_1$
Si $x_i = 3$ , $\hat y_i = \beta_0 + 3\beta_1$
Si $x_i = 4$ , $\hat y_i = \beta_0 + 4\beta_1$
Por analogía, podemos ver que este modelo corresponde a un modelo con codificación, en el que el cambio en la respuesta a partir de un cambio de nivel en la variable explicativa es siempre el mismo.
En la codificación ordinal, esto significaría $\beta_1 = \beta_2 = \beta_3$ . En la codificación ficticia, esto implica $3\beta_1 = \beta_1+\beta_2 = \beta_3$ .
Además, fíjate en que el nivel "base" $1$ corresponde al efecto de $\beta_0 + \beta_1$ en la respuesta. Si quitas 1 de cada nivel, entonces bajaría $\beta_1$ y ser más rápidamente comparable a los otros enfoques. Sin embargo, he optado por mantenerlo a partir de uno, ya que es el enfoque directo.
Esta es una hipótesis más restrictiva. Requiere que la diferencia de nivel en la variable explicativa sea directamente proporcional a un cambio en la respuesta.
La codificación es más flexible, en el sentido de que el cambio entre niveles puede ser, y probablemente será, diferente. También presenta una complicación, que puede ser beneficiosa: el cambio en la respuesta puede cambiar de signo. Si no se ajusta al significado en el modelo, los coeficientes pueden limitarse según sea necesario.