Tengo un series temporales y estoy un poco perdido sobre cómo realizar el análisis.
Tengo una variable dedependiente y unas 2000 variables independientes para alguna entidad durante un periodo de tiempo de unas 2500 observaciones diarias (como el comportamiento de consumo diario de un individuo a lo largo del tiempo para 2000 productos). De hecho, esas 2000 variables "van juntas". Para ser precisos: Cada una de las 2000 variables puede asignarse a una de las tres "categorías principales" (por ejemplo, 600 variables pertenecen a la categoría principal 1, 1200 a la categoría principal 2 y 200 a la categoría principal 3). Además, las variables que pertenecen a una categoría están, en la mayoría de los casos, entre moderada y altamente correlacionadas.
Obviamente, no tendrá mucho sentido realizar una regresión con 2000 variables independientes. Para mi propósito está completamente bien obtener al final un solo coeficiente para cada "variable de categoría principal" (así que tres coeficientes en lugar de 2000). Sin embargo, desconozco las técnicas para "condensar" mis variables en tres variables principales antes de realizar las regresiones finales. No puedo simplemente eliminar variables individuales de la configuración para reducir los regresores y, por ejemplo, elegir sólo un subconjunto de variables "más útiles".
¿Alguna idea sobre cómo solucionar este problema?
0 votos
Además de las dos respuestas, otra opción son los mínimos cuadrados parciales.
1 votos
¿Qué quieres hacer con el modelo? ¿Cómo entran en juego las series temporales? La respuesta del ACP es bastante sencilla de aplicar si se puede ignorar la dimensión temporal y tratar las 2.500 observaciones como independientes. Sin embargo, si quiere predecir la serie temporal en el futuro, esto no le servirá de nada. Por lo tanto, ¿qué quiere obtener de su modelo?