Supongamos que queremos ajustar un modelo para predecir una variable respuesta dada $Y$. Supongamos que algunas variables explicativas son redundantes. Se considera que una variable explicativa es redundante si proporciona información similar a otra variable explicativa disponible. Por ejemplo, si $x_1$ es una variable de conteo, una variable redundante sería la función indicadora: $x_2=1(x_1>=1)$. Si $x_3$ es una variable cuantitativa no negativa, una variable redundante sería la función indicadora: $x_4=1(x_3>0).
Mis preguntas son:
- ¿Deberían descartarse las variables explicativas redundantes del conjunto de entrenamiento? Si es así, ¿por qué no podemos agregar todas las variables explicativas y permitir que los algoritmos de selección de variables (por ejemplo, método hacia adelante para modelos lineales, procedimiento de construcción MARS, lasso y la capacidad de selección de variables de CART) elijan qué variables valen la pena estar dentro del modelo y cuáles no?
- Si las variables explicativas redundantes deben eliminarse, ¿cuál es la forma correcta de proceder? ¿Debería agregar solo $x_1$ y $x_3$ (sin $x_2$ y $x_4)$, ver los resultados, luego agregar solo $x_2$ y $x_4$ (sin $x_1$ y $x_3)$, ver los resultados y finalmente decidir qué predictores usar?
Intuitivamente, no veo cómo el error de predicción puede disminuir al agregar más variables explicativas. En otras palabras, no entiendo por qué no deberíamos considerar también las variables explicativas redundantes. En cuanto a la inferencia, si los predictores redundantes no se descartan del conjunto de entrenamiento, ¿puedo obtener resultados contradictorios (por ejemplo, en un modelo lineal, un coeficiente de regresión positivo para $x_1$ pero un coeficiente negativo para $x_2$)? Si es así, ¿es esta la única razón por la que se deben eliminar los predictores redundantes?