Tengo dos variables en un problema de regresión, donde predigo el tipo de interés final para una solicitud de préstamo.
- x1: banda de riesgo (A+,A,B,C)
- x2: tasa inicial (6%, 7%, 8%, 9%)
A partir de estas dos variables, intento predecir cuál será la tasa final real, y, (es decir, el 6,3%).
La banda de riesgo depende del tipo inicial y viceversa, es decir, A+ -> 6%. Tendría que convertir la banda de riesgo en 0s y 1s para cada grado de libertad de la categoría.
He leído que la regresión lineal requiere que las características de entrada sean independientes. En mi caso, no lo son. ¿Tendría sentido incluir ambas en el modelo?
Por lo tanto, un posible vector de características de entrada podría tener este aspecto:
[0,0,1,9] -> Banda de riesgo C, tasa inicial del 9%.
[0,0,0,6] -> Banda de riesgo A+, tasa inicial del 6%.
Puedo hacer una puntuación z de la tasa inicial para que los rangos sean más pequeños.
Teniendo en cuenta la respuesta de abajo, si decido representar la tasa inicial como una característica categórica también, entonces tendría un problema porque serían múltiplos escalares de la banda de riesgo. Por ejemplo
[0,0,1,0,0,1] -> Banda de riesgo C, tasa inicial del 9%
[0,0,0,0,0] -> Una banda de riesgo, tasa inicial del 6%.
Sin embargo, si utilizo una característica ordinal para la tasa inicial, no debería haber ningún problema, porque no son múltiplos escalares de la banda de riesgo. Por ejemplo,
[0,0,1,9] -> Banda de riesgo C, tasa inicial del 9%.
[0,0,0,6] -> Banda de riesgo A+, tasa inicial del 6%.
¿Es eso correcto?