5 votos

¿Qué elegir BIC AIC/canto/elástico neto?

Tengo el siguiente problema de regresión

Tengo alrededor de 60 variables independientes; algunos de ellos tienen una alta correlación con los demás. Tengo alrededor de 3 millones de observaciones

(1) - Mi objetivo principal es fuera de la muestra de predicción, por lo que mi principal pregunta es: ¿qué método de regularización se debe utilizar en este caso?

Más preguntas a los (supuestos que tengo, probablemente un poco confundido)

(2) - regresión Ridge, aunque no completamente, la eliminación de los coeficientes de mantener los coeficientes bajos que el lazo elástico/net/BIC sería eliminar completamente, ¿es correcto? (Si no, sería un problema?)

(3) - Si yo quería usar AIC/BIC en este caso, tendría que probar todas las combinaciones posibles de los 60 independiente de las variables?

(4) - Tendría sentido empezar con el AIC/BIC, luego de hacer la regresión contraída con el resto de las variables independientes? (Supongo que cresta de regresión después de la AIC/BIC podría tener sentido debido a que algunas de las variables independientes se correlacionan con los demás?)

Gracias

3voto

Zizzencs Puntos 1358

Parece ser que hay dos cuestiones relacionadas aquí: 1) el Sobreajuste y 2) de la Colinealidad. Como @fg dijo en un comentario, con tantas observaciones de sobreajuste no es probable que sea un problema real. Sin embargo, la multicolinealidad puede ser.

Correlaciones altas entre IVs es a menudo un signo de la problemática de la colinealidad, es decir, la colinealidad que puede causar que el modelo sea mal estimadas - pero que no es ni una condición necesaria ni condición suficiente para que. Dado que usted es la estimación de un modelo lineal que yo sugeriría conseguir la condición de índices y proporción de la varianza explicada de la matriz (no dice si usted está usando R, SAS, SPSS o qué, pero este está disponible en todos los tres de ellos y, probablemente, otros). Altos índices de condición (30 o así, es un umbral recomendado) que se han asociado a la alta proporción de la varianza explicada en dos o más variables puede causar problemas.

Una alternativa a este (que también funciona bien para modelos no lineales), si usted está usando R, es la perturb paquete.

El principal problema causado es que pequeños cambios en la señal de entrada puede causar grandes cambios en el modelo (y, por lo tanto, posiblemente grandes cambios en las predicciones).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X