Hago una regresión múltiple en la que el espacio entre líneas es una de las cuatro variables. Sin embargo, este espaciado entre líneas varía, por lo que las he agrupado en cinco clases designadas con los números del 1 al 5. El número 1 representa el caso de ausencia de líneas; el número 2 representa que el espaciado entre líneas supera los 20 m; el 3 representa un espaciado de 16 - 20 m; el 4 representa un espaciado de 11 - 15 m; y el 5 representa un espaciado de 10 m o menos. ¿Los números 1 a 5 pueden llamarse "variables ficticias" o tienen que llamarse de otra forma?. Según tengo entendido, las variables ficticias sólo pueden tener los valores 1 y 0.
Respuesta
¿Demasiados anuncios?En primer lugar, no veo por qué esta variable debe ser binned. En general, la división en segmentos conlleva una pérdida de información. Para más información sobre problemas de binning, véase Sitio web de la Universidad de Vanderbilt . El único problema será "no hay líneas presentes", pero eso quizás debería ser una variable diferente. Si hay no linealidades en la relación entre el espaciado y su DV, puede utilizar splines o términos polinómicos para tratar con él.
En segundo lugar, si decide clasificar, probablemente debería utilizar clasificaciones categóricas. (Que yo sepa, las variables independientes ordinales no se tratan fácilmente). Entonces tendría 4 variables ficticias para los 5 niveles de su IV.
Otra opción es utilizar la papelera número como si fuera continuo. Realmente no puedo recomendarlo.