1 votos

Selección de variables para la regresión múltiple a partir de un gran número de predictores

Tengo 20 variables de respuesta $Y = (Y_1, \dots, Y_{20})$ y 1600 variables predictoras $X = (X_1, \dots, Y_{1600})$ . Hay 128 observaciones. Quería saber qué pares de $X$ puede predecir mejor cada uno de $Y$ .

Así que generé todas las combinaciones de $(Y_i, X_j, X_k)$ e hicimos regresiones lineales para cada combinación para encontrar el R-cuadrado. Basándome en el R-cuadrado, extraje las 100 mejores combinaciones para analizar más a fondo qué pares de $X$ son los mejores predictores de $Y$ .

No he considerado la multicolinealidad entre ningún par de predictores. ¿Debo considerar la multicolinealidad?

Mi objetivo es encontrar los mejores pares de $X_j,$ $X_k$ que puede predecir un $Y_k$ . ¿Puede dar algunas sugerencias para mejorar este procedimiento y hacerlo estadísticamente válido?

1voto

ThomasKlausch Puntos 968

Su problema se conoce como el $p>n$ problema, por lo que tiene más covariables que observaciones. En la regresión estándar, la inversa de la matriz de varianza-covarianza no es positiva definida y, por tanto, no hay solución a las ecuaciones normales (estimación por mínimos cuadrados). Un enfoque es utilizar alguna forma de regresión penalizada, como Lasso o Ridge Regresión. Su objetivo es minimizar el número de predictores incluidos en su modelo.

El enfoque de los elementos pares de $X$ como predictores probablemente siempre serán inferiores a los modelos que incluyen más predictores, excepto en el caso especial de que se sepa a priori que hay exactamente dos predictores que hay que encontrar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X