1 votos

Ajuste del modelo lineal a través de los datos ruidosos

Actualmente estoy trabajando en un proyecto de modelado predictivo. Tengo que predecir $Y$ variables dadas $X_1,X_2,X_3$ y $X_4$ que no son necesariamente independientes. Nuestra primera idea fue proponer un modelo de regresión lineal definido como $$Y = \beta_0+\beta_1 X_1 + \beta_2 X_2+ \beta_3 X_3 + \beta_4 X_4.$$

En mi conjunto de datos ( $10^5$ observaciones), he observado que muchos datos están como "agrupados". Para aclarar 'agrupado', tengo datos $(x_{1i}, x_{2i},x_{3i},x_{4i},y_{i})$ y $(x_{1j},y_{2j},x_{3j},x_{4j},y_{j})$ donde $$x_{1i} = x_{1j}, x_{2i} = x_{2j}, x_{3i} = x_{3j}, x_{4i} \neq x_{4j}, y_i \neq y_j.$$

donde $1 \leq i,j \leq 10^5$ y donde $x_{kl}$ es el $l$ La observación de la variable $X_k$ con $k \in \{1,2,3,4\}$ .

Por lo tanto, una gran cantidad de datos donde $X_1,X_2$ y $X_3$ coinciden y donde el $X_4$ y el $Y$ son relativamente diferentes. Después de ajustar el modelo, el rendimiento fue realmente malo. Creo que estos datos "agrupados" tienen un gran impacto en la bondad del ajuste, ya que el modelo intenta ajustarse a tantos datos como sea posible, lo que lleva a un sobreajuste.

¿Existe alguna forma de solucionar esto?

Gracias de antemano.

2voto

Steve Guidi Puntos 8831

Si entiendo bien tu pregunta, el problema es que X1, X2 y X3 están muy correlacionados. Eso es un problema con multicolinealidad entre sus predictores en lugar de la no independencia en sus datos (agrupación).

Hay varias soluciones para ello. La solución más sencilla es eliminar las variables redundantes, si te parece bien. Si X1, X2 y X3 están muy correlacionadas, entonces un modelo que sólo incluya X1 y X4 podría estar bien. Si por alguna razón no quiere eliminar ninguna variable, puede utilizar el análisis de componentes principales para separarlas en componentes ortogonales, o utilizar otro tipo de modelo que maneje bien la multicolinealidad, como la regresión ridge. Aquí hay una respuesta relevante con algunos enlaces útiles: https://stats.stackexchange.com/a/124232/131407

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X