Tengo un gran conjunto de datos compuesto por los valores de varios cientos de variables financieras que podrían utilizarse en una regresión múltiple para predecir el comportamiento de un fondo indexado a lo largo del tiempo. Me gustaría reducir el número de variables a una decena, pero conservando el mayor poder predictivo posible. Añadido: El conjunto reducido de variables tiene que ser un subconjunto del conjunto original de variables para conservar el significado económico de las variables originales. Así, por ejemplo, no debería acabar con combinaciones lineales o agregados de las variables originales.
Algunas ideas (probablemente ingenuas) sobre cómo hacerlo:
- Realice una regresión lineal simple con cada variable y elija las diez con mayor $R^2$ valores. Por supuesto, no hay garantía de que las diez mejores variables individuales combinadas sean el mejor grupo de diez.
- Realice un análisis de componentes principales e intente encontrar las diez variables originales con las mayores asociaciones con los primeros ejes principales.
No creo que pueda realizar una regresión jerárquica porque las variables no están realmente anidadas. Probar todas las combinaciones posibles de diez variables es inviable desde el punto de vista informático porque hay demasiadas combinaciones.
¿Existe un enfoque estándar para abordar este problema de reducir el número de variables en una regresión múltiple?
Parece que este sería un problema lo suficientemente común como para que hubiera un enfoque estándar.
Una respuesta muy útil sería aquella que no sólo mencionara un método estándar, sino que también diera una visión general de cómo y por qué funciona. Por otra parte, si no hay un método estándar, sino varios con diferentes puntos fuertes y débiles, una respuesta muy útil sería la que analizara sus pros y sus contras.
El comentario de whuber más abajo indica que la petición del último párrafo es demasiado amplia. En su lugar, aceptaría como una buena respuesta una lista de los principales enfoques, quizás con una descripción muy breve de cada uno. Una vez que tenga los términos, podré buscar los detalles de cada uno yo mismo.