Cómo utilizar datos ordinales como variables explicativas en OLS

Question

Cómo utilizar datos ordinales como variables explicativas en OLS

Preguntado el 22 de Noviembre, 2020: Cuando se hizo la pregunta
123 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Cuál es la forma correcta de tratar las variables ordinales en la regresión múltiple? (Esto puede parecer muy básico para algunos de ustedes). Estoy utilizando una variable ordinal en un modelo de regresión múltiple OLS (1-4, siendo 1 el mejor y 4 el peor), los datos ya son numéricos, en el sentido de que tienen los valores de 1 a 4. Estoy utilizando R para estimar el modelo - ¿Debo especificar a R que se trata de una variable ordinal o puedo ejecutar la regresión con sólo la variable tal como es?

Cualquier ayuda será muy apreciada.

Preguntado el 22 de Noviembre, 2020 por dgl

Answer 1

1 Respuestas

Answer 2

2voto

ssn Puntos 472

Decir que un enfoque es correcto es bastante difícil. En diferentes contextos, diferentes respuestas. Así que voy a comparar dos enfoques aquí.

Codificación ordinal

Considere la codificación ordinal:

$x_i = \left[\matrix{\mathcal I_{z>1} & \mathcal I_{z>2} & \mathcal I_{z>3}}\right]$

$\mathcal I_{c}$ es una variable indicadora que supone:

$\mathcal I_{c}=\cases{0, \quad\text{if $ c $ is false} \\ 1, \quad\text{if $ c $ is true}}$

Así, para los cuatro valores posibles de la escala $z$ obtenemos la siguiente codificación:

$\left(\matrix{1 \\ 2 \\ 3 \\ 4}\right)\rightarrow \left(\matrix{ 0 & 0 & 0 \\ 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 1 & 1}\right)$

Entonces, nuestro modelo de la expectativa asume la siguiente forma:

$\hat y_i = \beta_0 + \beta_1 \mathcal I_{x_i>1}+ \beta_2 \mathcal I_{x_i>2}+ \beta_3 \mathcal I_{x_i>3}$

Considere lo que esto significa para diferentes valores de $x_i$ :

Si $x_i = 1$ , $\hat y_i = \beta_0$

Si $x_i = 2$ , $\hat y_i = \beta_0 + \beta_1$

Si $x_i = 3$ , $\hat y_i = \beta_0 + \beta_1 + \beta_2$

Si $x_i = 4$ , $\hat y_i = \beta_0 + \beta_1 + \beta_2 + \beta_3$

Así que cada uno de $\beta_j$ representa el cambio esperado en la respuesta, con respecto al nivel anterior.

Codificación ficticia

Notarás una codificación ficticia como:

$\left(\matrix{1 \\ 2 \\ 3 \\ 4}\right)\rightarrow \left(\matrix{ 0 & 0 & 0 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1}\right)$

funcionaría igual, pero ahora se compararía contra el valor base, representado como $\beta_0$ . Utilizando esta codificación:

Si $x_i = 1$ , $\hat y_i = \beta_0$

Si $x_i = 2$ , $\hat y_i = \beta_0 + \beta_1$

Si $x_i = 3$ , $\hat y_i = \beta_0 + \beta_2$

Si $x_i = 4$ , $\hat y_i = \beta_0 + \beta_3$

Los coeficientes se pueden convertir de una codificación a otra, definiendo $\beta_i^*$ como la codificación ordinal de antes, tenemos que $\beta_1 = \beta_1^*$ , $\beta_2= \beta_1^*+\beta_2^*$ y $\beta_3 = \beta_1^*+\beta_2^*+\beta_3^*$ .

Sin codificación

Considera lo que ocurre si mantienes la variable como estaba.

$\hat y_i = \beta_0 + \beta_1 x$

Si $x_i = 1$ , $\hat y_i = \beta_0 + \beta_1$

Si $x_i = 2$ , $\hat y_i = \beta_0 + 2\beta_1$

Si $x_i = 3$ , $\hat y_i = \beta_0 + 3\beta_1$

Si $x_i = 4$ , $\hat y_i = \beta_0 + 4\beta_1$

Por analogía, podemos ver que este modelo corresponde a un modelo con codificación, en el que el cambio en la respuesta a partir de un cambio de nivel en la variable explicativa es siempre el mismo.

En la codificación ordinal, esto significaría $\beta_1 = \beta_2 = \beta_3$ . En la codificación ficticia, esto implica $3\beta_1 = \beta_1+\beta_2 = \beta_3$ .

Además, fíjate en que el nivel "base" $1$ corresponde al efecto de $\beta_0 + \beta_1$ en la respuesta. Si quitas 1 de cada nivel, entonces bajaría $\beta_1$ y ser más rápidamente comparable a los otros enfoques. Sin embargo, he optado por mantenerlo a partir de uno, ya que es el enfoque directo.

Esta es una hipótesis más restrictiva. Requiere que la diferencia de nivel en la variable explicativa sea directamente proporcional a un cambio en la respuesta.

La codificación es más flexible, en el sentido de que el cambio entre niveles puede ser, y probablemente será, diferente. También presenta una complicación, que puede ser beneficiosa: el cambio en la respuesta puede cambiar de signo. Si no se ajusta al significado en el modelo, los coeficientes pueden limitarse según sea necesario.

Respondido el 23 de Noviembre, 2020 por ssn (472 Puntos )

Cómo utilizar datos ordinales como variables explicativas en OLS

Respuesta

Codificación ordinal

Codificación ficticia

Sin codificación

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Cómo utilizar datos ordinales como variables explicativas en OLS

Respuesta

Codificación ordinal

Codificación ficticia

Sin codificación

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: