Me recibí de otros puestos que no se puede atributo de "importancia" o "significado" a las variables predictoras que entrar en un lazo modelo ya que el cálculo de las variables " p-valores o desviaciones estándar es todavía un trabajo en progreso.
Bajo ese razonamiento, es correcto afirmar que NO se puede decir que las variables que fueron EXCLUIDOS del lazo modelo de "irrelevante" o "insignificante"?
Si es así, ¿qué puedo realmente reclamación acerca de las variables que están excluidos o incluidos en un lazo de modelo? En mi caso particular, he seleccionado el parámetro de ajuste lambda repitiendo 10-fold cross-validation 100 veces con el fin de reducir randonmess y el promedio de las curvas de error.
UPDATE1: he seguido una sugerencia que aparece a continuación y re-corrió lazo utilizando muestras bootstrap. Tuve que ir con 100 muestras (que cantidad era lo que mi equipo de alimentación podría gestionar la noche) y algunos surgieron patrones. 2 de mis 41 las variables que entraron en el modelo de más de 95% de las veces, 3 variables más del 90% y 5 variables que más de un 85%. Los 5 variables se encuentran entre los 9 que entraron en el modelo, cuando me había quedado con la muestra original, y eran los únicos con los más altos valores del coeficiente de entonces. Si me quedo lazo con decir de bootstrap de 1000 muestras y los patrones se mantienen, ¿cuál sería la mejor manera de presentar los resultados de mi?
¿De bootstrap de 1000 muestras de sonido suficiente? (Mi tamaño de la muestra es 116)
Debo lista de todas las variables y la frecuencia con la que entrar en el modelo, y luego argumentar que aquellos que entran con más frecuencia son más propensos a ser significativo?
Es que, tan lejos como puedo ir con mis reclamos? Porque es un trabajo en progreso (ver arriba) no puedo utilizar un valor de corte, ¿verdad?
UPDATE2: a raíz de una sugerencia a continuación, he calculado los siguientes: en promedio, el 78% de las variables en el modelo original introducido los modelos generados para el 100 muestras bootstrap. Por otro lado, sólo el 41% de la otra manera alrededor. Esto tiene que ver en gran parte con el hecho de que los modelos generados para el arranque de las muestras tienden a incluir más variables (17 en promedio) que el modelo original (9).
UPDATE3: Si usted me podría ayudar en la interpretación de los resultados que obtuve desde el arranque y la simulación de Monte Carlo, por favor, eche un vistazo a este otro post.