1 votos

Variables dependientes en la regresión

Tengo dos variables en un problema de regresión, donde predigo el tipo de interés final para una solicitud de préstamo.

  • x1: banda de riesgo (A+,A,B,C)
  • x2: tasa inicial (6%, 7%, 8%, 9%)

A partir de estas dos variables, intento predecir cuál será la tasa final real, y, (es decir, el 6,3%).

La banda de riesgo depende del tipo inicial y viceversa, es decir, A+ -> 6%. Tendría que convertir la banda de riesgo en 0s y 1s para cada grado de libertad de la categoría.

He leído que la regresión lineal requiere que las características de entrada sean independientes. En mi caso, no lo son. ¿Tendría sentido incluir ambas en el modelo?

Por lo tanto, un posible vector de características de entrada podría tener este aspecto:

[0,0,1,9] -> Banda de riesgo C, tasa inicial del 9%.

[0,0,0,6] -> Banda de riesgo A+, tasa inicial del 6%.

Puedo hacer una puntuación z de la tasa inicial para que los rangos sean más pequeños.


Teniendo en cuenta la respuesta de abajo, si decido representar la tasa inicial como una característica categórica también, entonces tendría un problema porque serían múltiplos escalares de la banda de riesgo. Por ejemplo

[0,0,1,0,0,1] -> Banda de riesgo C, tasa inicial del 9%

[0,0,0,0,0] -> Una banda de riesgo, tasa inicial del 6%.

Sin embargo, si utilizo una característica ordinal para la tasa inicial, no debería haber ningún problema, porque no son múltiplos escalares de la banda de riesgo. Por ejemplo,

[0,0,1,9] -> Banda de riesgo C, tasa inicial del 9%.

[0,0,0,6] -> Banda de riesgo A+, tasa inicial del 6%.

¿Es eso correcto?

2voto

Gegtik Puntos 158

EDIT: Si el mapeo es constante, es decir, A+ siempre \=> 6%, entonces debes eliminar x1 o x2. Son la misma variable. Mi respuesta a continuación es relevante para las dependencias sutiles, pero en este caso la respuesta es mucho más simple.


Está bien pero no es lo ideal. Cuanto más dependientes sean las características, menos útiles serán para tu modelo final, pero no te perjudicarán. Vea aquí una explicación de los métodos para cuando las variables son dependientes: http://www.psych.yorku.ca/lab/psy6140/lectures/MultivariateRegression2x2.pdf

Si son dependientes, es decir, si una de sus características es un múltiplo escalar de la otra. Porque entonces terminarás con una matriz simétrica (A^T * A) que no es invertible - y entonces tienes problemas. Así que está bien si están correlacionados, pero no a un múltiplo escalar.

Básicamente, lo que hace la regresión lineal es transformar todos los ejemplos de entrenamiento x como ecuaciones lineales

0 * x1 + 0 * x2 + 1 * x3 + 9 * x4 + 1 * x5 = 0.09

en una matriz A con cada fila como una ecuación y cada columna como una característica o variable. En general, si nuestras dimensiones son m x n , donde m es el número de características (más el x5 que es para nuestro desplazamiento de origen) y n es el número de ejemplos.

Resolver la ecuación

x = (A^T * A)^(-1) * A^T * b

donde b es los índices objetivo, le dará los coeficientes de su línea que minimiza el error cuadrado del conjunto de entrenamiento. (¡Nótese la inversión de A^T * A!)

El siguiente paso es incluir características de orden superior, como los cuadrados o cubos de los datos; es muy posible que descubra que la relación en el verdadero modelo subyacente no es lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X