7 votos

Realización de "todas las regresiones posibles" en R

Estoy intentando aplicar todas las regresiones posibles para seleccionar los mejores predictores del rendimiento de las acciones a partir de una lista exhaustiva de posibles variables económicas/fundamentales.

Mi variable de respuesta y (es decir, los rendimientos de las acciones) es un panel de 3000 valores (sección transversal), cada uno con 384 observaciones (serie temporal).

¿Podría alguien sugerir la mejor manera de manejar este procedimiento en R, en el contexto de datos de panel? He encontrado el paquete leaps pero aborda el caso de y como respuesta vector en lugar de una respuesta matriz .

Muchas gracias,

4voto

terryk2 Puntos 81

Tras releer su pregunta, creo que se refiere a la selección del modelo entre las variables predictoras candidatas, y no a la ejecución de todas las regresiones posibles. El ajuste de todos los modelos posibles a partir de un conjunto determinado de predictores está sujeto a un alto grado de sesgo de minería de datos. Dado que muchos de esos submodelos estarán muy correlacionados entre sí (porque incluyen casi en su totalidad el mismo conjunto de factores), usted podría necesitas ajustar tus estadísticas t para tener en cuenta la probabilidad de que, entre todo el conjunto de modelos correlacionados, algunos modelos tengan éxito al azar dentro de los datos de muestra concretos que se tienen. Ajustar para tantos modelos implicaría que necesitaría un estadístico t irrealmente alto para tener alguna confianza en los coeficientes del modelo que finalmente seleccione.

Algunos enfoques mejores podrían ser Regresión lineal bayesiana donde se especifica qué distribución a priori se considera realista para el coeficiente de cada uno de los predictores, o una regresión regularizada como Lazo o Cresta donde se impone algún término de penalización por lo denso o grande que sea el conjunto de coeficientes estimados (por ejemplo, el procedimiento de ajuste intentará favorecer los modelos con menos términos en un sentido adecuado).

Si se parte de una de estas perspectivas, entonces hay menos riesgo en probar un par de modelos que se cree que tienen pruebas previas sólidas.

Pero, en general, si nos limitamos a examinar todos los subconjuntos de factores n-elegidos-k, para k = 1 hasta n, por simple azar, algún modelo parecerá muy sólido, pero no debido a la eficacia real de la previsión. Hay que evitarlo.

0voto

paxdiablo Puntos 341644

Le sugiero que utilice el enfoque habitual de análisis de datos de panel [en R esto implica el uso de plm paquete). Hay tres categorías de variables explicativas (observadas o no observadas) que este enfoque tiene en cuenta. En primer lugar, la variable que es la misma para todas las acciones pero varía con el tiempo (fundamentos económicos); en segundo lugar, la variable que varía para todas las acciones pero no cambia con el tiempo (por ejemplo, el estilo de gestión); y en tercer lugar, la variable que varía con el tiempo y también para todas las acciones (beneficios de la empresa). Si las dos primeras variables son inobservables, se tienen en cuenta utilizando efectos fijos bidireccionales (efectos de acción y efectos de año), por lo que el uso de datos de panel evita el sesgo de variable omitida derivado de la exclusión de estas dos categorías de variables. Así pues, el único sesgo que surge de la exclusión se debe a la omisión de la última categoría de variables. Si está seguro de que su modelo incluye todo lo que pertenece a la última categoría, entonces no hay sesgo de variable omitida. La importancia de estas variables indica que podrían ser importantes a la hora de influir en el rendimiento de las acciones. Dicho esto, el enfoque que se utilice dependerá del objetivo de la investigación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X