1 votos

Modelo de regresión con demasiadas variables. ¿Cómo condensar el problema?

Tengo un series temporales y estoy un poco perdido sobre cómo realizar el análisis.

Tengo una variable dedependiente y unas 2000 variables independientes para alguna entidad durante un periodo de tiempo de unas 2500 observaciones diarias (como el comportamiento de consumo diario de un individuo a lo largo del tiempo para 2000 productos). De hecho, esas 2000 variables "van juntas". Para ser precisos: Cada una de las 2000 variables puede asignarse a una de las tres "categorías principales" (por ejemplo, 600 variables pertenecen a la categoría principal 1, 1200 a la categoría principal 2 y 200 a la categoría principal 3). Además, las variables que pertenecen a una categoría están, en la mayoría de los casos, entre moderada y altamente correlacionadas.

Obviamente, no tendrá mucho sentido realizar una regresión con 2000 variables independientes. Para mi propósito está completamente bien obtener al final un solo coeficiente para cada "variable de categoría principal" (así que tres coeficientes en lugar de 2000). Sin embargo, desconozco las técnicas para "condensar" mis variables en tres variables principales antes de realizar las regresiones finales. No puedo simplemente eliminar variables individuales de la configuración para reducir los regresores y, por ejemplo, elegir sólo un subconjunto de variables "más útiles".

¿Alguna idea sobre cómo solucionar este problema?

0 votos

Además de las dos respuestas, otra opción son los mínimos cuadrados parciales.

1 votos

¿Qué quieres hacer con el modelo? ¿Cómo entran en juego las series temporales? La respuesta del ACP es bastante sencilla de aplicar si se puede ignorar la dimensión temporal y tratar las 2.500 observaciones como independientes. Sin embargo, si quiere predecir la serie temporal en el futuro, esto no le servirá de nada. Por lo tanto, ¿qué quiere obtener de su modelo?

2voto

Imansoor Puntos 11

En primer lugar, puede realizar el análisis de componentes principales de sus variables independientes y, a continuación, realizar la regresión de su variable dependiente en función de los coeficientes del ACP. Una alternativa a esto es hacer la regresión Lasso, es decir, utilizar la regularización que obliga a utilizar el menor número posible de variables en la regresión.

1 votos

Tal vez sería bueno elaborar cómo aplicar el ACP a los datos de series temporales.

0voto

ccsv Puntos 506

Tiene varias opciones para la selección de variables en función de lo que quiera hacer. Pero la mayoría son métodos de regularización.

Regresión Ridge: utiliza la regularización para la selección de variables haciendo que las variables que convergen a cero se eliminen más rápidamente

LASSO añade una fuerza de penalización (lambda) a las variables que se acercan a cero. Los coeficientes se ponen a cero a medida que aumenta el parámetro lambda.

Este post sería útil para determinar qué técnica utilizar ¿Cuándo debo utilizar el lazo frente a la cresta?

Si tiene grandes cantidades de datos en los que hay más características que muestras y una gran cantidad de correlaciones, utilice las redes elásticas. La red elástica tiene un trazado de cresta más pronunciado que LASSO.

0 votos

La regresión Ridge no hace selección de variables -- penaliza la norma L2 del vector de regresión, lo que significa que tendrá valores pequeños (pero los mínimos de la pérdida se encuentran en regiones densas del espacio de parámetros). Si desea algunos componentes necesita un enfoque L1 como LASSO

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X