12 votos

Líneas rectas paralelas en el diagrama de residuos frente a los ajustes

Tengo un problema de regresión múltiple, que he intentado resolver utilizando la regresión múltiple simple:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Esto parece explicar el 85% de la varianza (según el R-cuadrado), lo que parece bastante bueno.

Sin embargo, lo que me preocupa es el extraño aspecto de los residuos frente al gráfico ajustado, véase a continuación:

enter image description here

Sospecho que la razón por la que tenemos líneas tan paralelas es porque el valor Y sólo tiene 10 valores únicos que corresponden a unos 160 de los valores X.

¿Quizás deba utilizar otro tipo de regresión en este caso?

Editar : He visto en el siguiente documento un comportamiento similar. Ten en cuenta que es un trabajo de una sola página, así que cuando lo previsualices podrás leerlo entero. Creo que explica bastante bien por qué observo este comportamiento, pero todavía no estoy seguro de si alguna otra regresión funcionaría mejor aquí?

Edición 2: El ejemplo más cercano a nuestro caso que se me ocurre es el cambio de los tipos de interés. La FED anuncia un nuevo tipo de interés cada pocos meses (no sabemos cuándo y con qué frecuencia). Mientras tanto, reunimos nuestras variables independientes a diario (como la tasa de inflación diaria, los datos de la bolsa, etc.). Como resultado, tendremos una situación en la que podemos tener muchas medidas para un tipo de interés.

1 votos

Es casi seguro que necesitas alguna otra forma de regresión. Si los datos de Y son ordinales (lo cual sospecho), entonces probablemente quiera una regresión logística ordinal. Un R paquete que hace esto es ordinal pero también hay otros

0 votos

En realidad, la Y es el precio que intentamos predecir, que cambia cada pocos meses. Tenemos variables de registro semanal (X) para el precio correspondiente (Y) que cambia cada pocos meses. ¿Funcionaría la regresión logística en este caso cuando no conocemos el precio futuro?

2 votos

Tienes razón en cuanto a la explicación; tu referencia lo ha clavado. Pero tu situación parece inusual: parece que sólo tienes una decena de independiente respuestas (que se sitúan en una escala continua, no en una discreta), pero está utilizando múltiples variables explicativas que varían con el tiempo. Esta es una situación que no contemplan la mayoría de las técnicas de regresión. Más información sobre lo que significan estas variables y cómo se miden podría ayudarnos a identificar un buen enfoque analítico.

5voto

Oscar Cabrero Puntos 2922

Un modelo posible es el de una variable "redondeada" o "censurada": dejemos $y_1,\ldots y_{10}$ siendo sus 10 valores observados. Se podría suponer que hay una variable latente $Z$ que representa el precio "real", que usted no conoce del todo. Sin embargo, puede escribir $Y_i=y_j\Rightarrow{}y_{j-1}\leq{}Z_i\leq{}y_{j+1}$ (con $y_0=-\infty, y_{11}=+\infty$ (si me perdonan este abuso de notación). Si se está dispuesto a arriesgar una afirmación sobre la distribución de Z en cada uno de estos intervalos, una regresión bayesiana se convierte en algo trivial; una estimación de máxima verosimilitud necesita un poco más de trabajo (pero no mucho, por lo que veo). Los análogos de este problema son tratados por Gelman y Hill (2007).

2 votos

Esta es una buena idea. Se encarga de la fenómeno pero me pregunto si no se puede pasar por alto un problema mayor: incluso si los precios pueden considerarse censurados, lo más probable es que estén altamente correlacionados en serie.

0 votos

He probado el paquete censReg R pero no he podido hacerlo funcionar. Aunque es posible que no haya entendido tu idea. La cuestión es que conocemos todas las variables dependientes, por lo que no tenemos una situación en la que Y = 0 (censurada), sino que la Y se mantiene estable durante algunos meses. Acabo de hacer otra edición así que espero que esto explique mejor nuestro caso de uso.

1 votos

Radek, creo que la idea es la siguiente: supongamos que el precio $Y(t)$ depende del tiempo, pero sólo cambia en momentos puntuales $t_1,t_2,\ldots$ . Lo concebimos como la manifestación de alguna variable subyacente no observada (el "precio real") $Z(t)$ y nosotros esperanza que entre los tiempos $t_i$ y $t_{i+1}$ $Z(t)$ siempre estará entre $Y(t_i)$ y $Y(t_{i+1})$ . En efecto, entonces, vemos el precio observado en cualquier momento $t$ en este intervalo como $Z(t)$ como censurado tanto a la izquierda como a la derecha por $Y(t_i)$ y $Y(t_{i+1})$ . (Debo subrayar "esperanza": esta es la "declaración arriesgada" a la que se refiere).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X