2 votos

¿Está bien escupir variables no normales en terciles y ponerlas en modelos de regresión multivariante?

Ahora estoy revisando un artículo en el que los autores decidieron predecir una VD mediante una regresión lineal utilizando, además de otras variables, variables ficticias obtenidas de una división en terciles de las variables continuas, que no se distribuían normalmente. En otras palabras, por ejemplo, tomaron una variable no distribuida normalmente, dividieron la variable en tres tertiles, crearon tres variables ficticias para cada tertil (me imagino que asignaron 1 al sujeto que caía en el tertil seleccionado en cada variable), y pusieron todas las variables ficticias en el modelo de regresión. Sus modelos de regresión obtienen un valor R^2 realmente alto (.90). ¿Es correcto hacerlo?

1voto

Runcible Puntos 539

Se puede hacer esto (poner una variable continua en bines) pero generalmente se considera una pérdida de información.

Sería apropiado si hay claramente un efecto diferente al pasar de una casilla a otra o si la relación entre el IV y el VD parece ser escalonada: mismo efecto de 0 a 5, diferente efecto de 5 a 10, etc. Debería comprobar un gráfico de dispersión para ver cómo es la relación univariante para el IV y el VD clasificados. Si la relación parece lineal, no entendería por qué decidieron dividir la variable en bines.

Tenga en cuenta que las variables ficticias se interpretan en relación con la única variable ficticia que se deja fuera del modelo, que probablemente sería el primer tertil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X