Estoy buscando un modelo de regresión donde un gran número de posibles variables explicativas están siendo evaluados, y un pequeño número son finalmente elegidos a través del lazo método de selección de variables. El parámetro de ajuste en el lazo es elegido por mirar la validación cruzada pronóstico del rendimiento, que es bastante estándar. Sin embargo, cuando me tome la lista de variables seleccionadas y sólo tiene que ejecutar la OPERACIÓN sobre ellos, muchos resultan ser estadísticamente insignificante. Que puede estar perfectamente bien si son conjuntamente significativas, y la previsión de rendimiento es superior a la de otros modelos (además, no sería una cuestión de lo que la prueba de t significa cuando ya se ha defendido de las variables en un paso independiente, pero estoy dejando eso a un lado). Tengo curiosidad aunque si tiene sentido la significación estadística de las variables individuales en un modelo elegido por el lazo utilizando CV pronóstico de rendimiento para seleccionar el parámetro de ajuste. El problema es que el lazo termina seleccionando diferentes variables ficticias que son sólo cierto en pequeños segmentos de la población y que son insignificantes en OLS, y no es una pregunta natural en cuanto a si el modelo debe ser de forma enjuiciadora simplificado.
Respuesta
¿Demasiados anuncios?
Bonsi Scott
Puntos
191
Este documento intenta proporcionar enfoque para calcular los valores de p en elasticnet. He estado tratando de encontrar tiempo para implementarlo, como parece que es experimental y no esta incluido en cualquier paquete oficial de R.
http://statweb.Stanford.edu/~Tibs/FTP/covtest.pdf
No responde la parte teórica de su pregunta, pero puede traerle más cerca a una respuesta si se calculan los valores de p para elasticnet.