Ahora estoy revisando un artículo en el que los autores decidieron predecir una VD mediante una regresión lineal utilizando, además de otras variables, variables ficticias obtenidas de una división en terciles de las variables continuas, que no se distribuían normalmente. En otras palabras, por ejemplo, tomaron una variable no distribuida normalmente, dividieron la variable en tres tertiles, crearon tres variables ficticias para cada tertil (me imagino que asignaron 1 al sujeto que caía en el tertil seleccionado en cada variable), y pusieron todas las variables ficticias en el modelo de regresión. Sus modelos de regresión obtienen un valor R^2 realmente alto (.90). ¿Es correcto hacerlo?
Respuesta
¿Demasiados anuncios?Se puede hacer esto (poner una variable continua en bines) pero generalmente se considera una pérdida de información.
Sería apropiado si hay claramente un efecto diferente al pasar de una casilla a otra o si la relación entre el IV y el VD parece ser escalonada: mismo efecto de 0 a 5, diferente efecto de 5 a 10, etc. Debería comprobar un gráfico de dispersión para ver cómo es la relación univariante para el IV y el VD clasificados. Si la relación parece lineal, no entendería por qué decidieron dividir la variable en bines.
Tenga en cuenta que las variables ficticias se interpretan en relación con la única variable ficticia que se deja fuera del modelo, que probablemente sería el primer tertil.