Para empezar, en términos de un marco analítico...yo diría que usted tiene 15 variables independientes para elegir. Usted no tiene 15 variables independientes se tiene que incluir en el modelo. Dado que, tengo un par de ideas. Esperemos que uno de ellos va a ser útil. Antes de intentar cualquiera de las siguientes ideas, me gustaría examinar los valores atípicos. Yo no dudaría en tirar un par de esos (o utilizar una variable ficticia para el respectivo período de tiempo).
La primera idea es tratar de lo que yo llamaría manual de regresión paso a paso. Primero hacer una regresión lineal simple con la variable independiente que tiene la mayor correlación absoluta con la variable dependiente. A continuación, calcular los residuos de esta regresión. Y la mirada de la variable independiente entre el resto de los que tiene la mayor correlación con los residuales de la regresión. A continuación, vuelva a ejecutar la regresión con esas dos variables independientes. Usted puede añadir una 3ª o 4ª variable, repitiendo este proceso hasta se puede decir que ninguna de las restantes variables están correlacionadas suficiente para el residual de su última regresión. Normalmente, después de seleccionar 3 o 4 variables independientes de esta manera, usted está hecho. El modelo normalmente se rompe en pedazos cuando se agrega nada más que eso. Este proceso suele ser robusto, y por lo general no ocasiona "overfit" modelos porque se selecciona el par de variables.
Mi segunda idea es la de tratar de análisis de componentes principales (PCA), que es adecuado para tratar con multicollinear variables. Para que funcione, puede que tenga que reducir el número de variables de todos modos. Después de hacer la regresión paso a paso de la exploración, se convertirá en claro qué variables son superfluas. El reto de la PCA es que es bastante difícil. A menos que usted tenga el adecuado software estadístico, es bastante inaccesible. También a menudo se crea un poco de una caja negra. Los principales componentes son esencialmente los índices de la variable independiente combinaciones. A veces las combinaciones de las variables pueden tener una exposición narrativa (el S&P 500 es un buen índice de la captura de la actuación de 500 poblaciones diferentes). Desafortunadamente, la mayoría de componentes principales no tienen tan claro que una interpretación como el S&P 500.
En cualquier caso, espero que esas ideas de ayuda.