Tengo una variable de respuesta (y) y 20 variables independientes (Xs). Quiero seleccionar varias Xs en la regresión lineal, pero no estoy seguro de cuántas variables deben seleccionarse. Para seleccionar el mejor número de variables, utilizo la suma de los residuos cuadrados (Res) en la validación cruzada de 10 veces dadas N variables seleccionadas (N=2~20). El proceso se repite 1.000 veces para cada N. Mi idea es que Res debería primero disminuir, ya que más variables podrían explicar mejor y, y luego debería aumentar, ya que demasiadas variables conducirían a un ajuste excesivo. Para mi sorpresa, la Res disminuye continuamente a medida que aumenta N (véase la figura). No sé cómo explicarlo. ¿Significa que las 20 variables contribuyen a y, o que se ha producido un sobreajuste?
P.D: hay unos 600 puntos de datos. La Res se calcula como la suma del cuadrado de la diferencia entre la y observada y la y predicha en cada validación cruzada de 10 veces.