Tengo un problema de regresión múltiple, que he intentado resolver utilizando la regresión múltiple simple:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Esto parece explicar el 85% de la varianza (según el R-cuadrado), lo que parece bastante bueno.
Sin embargo, lo que me preocupa es el extraño aspecto de los residuos frente al gráfico ajustado, véase a continuación:
Sospecho que la razón por la que tenemos líneas tan paralelas es porque el valor Y sólo tiene 10 valores únicos que corresponden a unos 160 de los valores X.
¿Quizás deba utilizar otro tipo de regresión en este caso?
Editar : He visto en el siguiente documento un comportamiento similar. Ten en cuenta que es un trabajo de una sola página, así que cuando lo previsualices podrás leerlo entero. Creo que explica bastante bien por qué observo este comportamiento, pero todavía no estoy seguro de si alguna otra regresión funcionaría mejor aquí?
Edición 2: El ejemplo más cercano a nuestro caso que se me ocurre es el cambio de los tipos de interés. La FED anuncia un nuevo tipo de interés cada pocos meses (no sabemos cuándo y con qué frecuencia). Mientras tanto, reunimos nuestras variables independientes a diario (como la tasa de inflación diaria, los datos de la bolsa, etc.). Como resultado, tendremos una situación en la que podemos tener muchas medidas para un tipo de interés.
1 votos
Es casi seguro que necesitas alguna otra forma de regresión. Si los datos de Y son ordinales (lo cual sospecho), entonces probablemente quiera una regresión logística ordinal. Un
R
paquete que hace esto esordinal
pero también hay otros0 votos
En realidad, la Y es el precio que intentamos predecir, que cambia cada pocos meses. Tenemos variables de registro semanal (X) para el precio correspondiente (Y) que cambia cada pocos meses. ¿Funcionaría la regresión logística en este caso cuando no conocemos el precio futuro?
2 votos
Tienes razón en cuanto a la explicación; tu referencia lo ha clavado. Pero tu situación parece inusual: parece que sólo tienes una decena de independiente respuestas (que se sitúan en una escala continua, no en una discreta), pero está utilizando múltiples variables explicativas que varían con el tiempo. Esta es una situación que no contemplan la mayoría de las técnicas de regresión. Más información sobre lo que significan estas variables y cómo se miden podría ayudarnos a identificar un buen enfoque analítico.