Tengo 20 variables de respuesta $Y = (Y_1, \dots, Y_{20})$ y 1600 variables predictoras $X = (X_1, \dots, Y_{1600})$ . Hay 128 observaciones. Quería saber qué pares de $X$ puede predecir mejor cada uno de $Y$ .
Así que generé todas las combinaciones de $(Y_i, X_j, X_k)$ e hicimos regresiones lineales para cada combinación para encontrar el R-cuadrado. Basándome en el R-cuadrado, extraje las 100 mejores combinaciones para analizar más a fondo qué pares de $X$ son los mejores predictores de $Y$ .
No he considerado la multicolinealidad entre ningún par de predictores. ¿Debo considerar la multicolinealidad?
Mi objetivo es encontrar los mejores pares de $X_j,$ $X_k$ que puede predecir un $Y_k$ . ¿Puede dar algunas sugerencias para mejorar este procedimiento y hacerlo estadísticamente válido?