1 votos

Cómo utilizar datos ordinales como variables explicativas en OLS

¿Cuál es la forma correcta de tratar las variables ordinales en la regresión múltiple? (Esto puede parecer muy básico para algunos de ustedes). Estoy utilizando una variable ordinal en un modelo de regresión múltiple OLS (1-4, siendo 1 el mejor y 4 el peor), los datos ya son numéricos, en el sentido de que tienen los valores de 1 a 4. Estoy utilizando R para estimar el modelo - ¿Debo especificar a R que se trata de una variable ordinal o puedo ejecutar la regresión con sólo la variable tal como es?

Cualquier ayuda será muy apreciada.

2voto

ssn Puntos 472

Decir que un enfoque es correcto es bastante difícil. En diferentes contextos, diferentes respuestas. Así que voy a comparar dos enfoques aquí.


Codificación ordinal

Considere la codificación ordinal:

xi=[Iz>1Iz>2Iz>3]

Ic es una variable indicadora que supone:

Ic={0,if c is false1,if c is true

Así, para los cuatro valores posibles de la escala z obtenemos la siguiente codificación:

(1234)(000100110111)

Entonces, nuestro modelo de la expectativa asume la siguiente forma:

ˆyi=β0+β1Ixi>1+β2Ixi>2+β3Ixi>3

Considere lo que esto significa para diferentes valores de xi :

Si xi=1 , ˆyi=β0

Si xi=2 , ˆyi=β0+β1

Si xi=3 , ˆyi=β0+β1+β2

Si xi=4 , ˆyi=β0+β1+β2+β3

Así que cada uno de βj representa el cambio esperado en la respuesta, con respecto al nivel anterior.


Codificación ficticia

Notarás una codificación ficticia como:

(1234)(000100010001)

funcionaría igual, pero ahora se compararía contra el valor base, representado como β0 . Utilizando esta codificación:

Si xi=1 , ˆyi=β0

Si xi=2 , ˆyi=β0+β1

Si xi=3 , ˆyi=β0+β2

Si xi=4 , ˆyi=β0+β3

Los coeficientes se pueden convertir de una codificación a otra, definiendo βi como la codificación ordinal de antes, tenemos que β1=β1 , β2=β1+β2 y β3=β1+β2+β3 .


Sin codificación

Considera lo que ocurre si mantienes la variable como estaba.

ˆyi=β0+β1x

Si xi=1 , ˆyi=β0+β1

Si xi=2 , ˆyi=β0+2β1

Si xi=3 , ˆyi=β0+3β1

Si xi=4 , ˆyi=β0+4β1

Por analogía, podemos ver que este modelo corresponde a un modelo con codificación, en el que el cambio en la respuesta a partir de un cambio de nivel en la variable explicativa es siempre el mismo.

En la codificación ordinal, esto significaría β1=β2=β3 . En la codificación ficticia, esto implica 3β1=β1+β2=β3 .

Además, fíjate en que el nivel "base" 1 corresponde al efecto de β0+β1 en la respuesta. Si quitas 1 de cada nivel, entonces bajaría β1 y ser más rápidamente comparable a los otros enfoques. Sin embargo, he optado por mantenerlo a partir de uno, ya que es el enfoque directo.


Esta es una hipótesis más restrictiva. Requiere que la diferencia de nivel en la variable explicativa sea directamente proporcional a un cambio en la respuesta.

La codificación es más flexible, en el sentido de que el cambio entre niveles puede ser, y probablemente será, diferente. También presenta una complicación, que puede ser beneficiosa: el cambio en la respuesta puede cambiar de signo. Si no se ajusta al significado en el modelo, los coeficientes pueden limitarse según sea necesario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X