Actualmente estoy trabajando en un proyecto de modelado predictivo. Tengo que predecir $Y$ variables dadas $X_1,X_2,X_3$ y $X_4$ que no son necesariamente independientes. Nuestra primera idea fue proponer un modelo de regresión lineal definido como $$Y = \beta_0+\beta_1 X_1 + \beta_2 X_2+ \beta_3 X_3 + \beta_4 X_4.$$
En mi conjunto de datos ( $10^5$ observaciones), he observado que muchos datos están como "agrupados". Para aclarar 'agrupado', tengo datos $(x_{1i}, x_{2i},x_{3i},x_{4i},y_{i})$ y $(x_{1j},y_{2j},x_{3j},x_{4j},y_{j})$ donde $$x_{1i} = x_{1j}, x_{2i} = x_{2j}, x_{3i} = x_{3j}, x_{4i} \neq x_{4j}, y_i \neq y_j.$$
donde $1 \leq i,j \leq 10^5$ y donde $x_{kl}$ es el $l$ La observación de la variable $X_k$ con $k \in \{1,2,3,4\}$ .
Por lo tanto, una gran cantidad de datos donde $X_1,X_2$ y $X_3$ coinciden y donde el $X_4$ y el $Y$ son relativamente diferentes. Después de ajustar el modelo, el rendimiento fue realmente malo. Creo que estos datos "agrupados" tienen un gran impacto en la bondad del ajuste, ya que el modelo intenta ajustarse a tantos datos como sea posible, lo que lleva a un sobreajuste.
¿Existe alguna forma de solucionar esto?
Gracias de antemano.