Actualmente me estoy centrando en criterios de selección de modelos más específicamente: pruebas de hipótesis secuenciales , criterios de información (como BIC y AIC), Lazo . Todo ello en el marco de la regresión. Estos métodos son útiles para solucionar el problema del sobreajuste y, en cierto modo, nos permiten gestionar el equilibrio entre la parsimonia y la exhaustividad de los modelos a la luz de la función de pérdida de predicción. En otras palabras, estos métodos permiten gestionar compensación entre sesgo y varianza . Ahora bien, en mi referencia principal, estos métodos se utilizan como "métodos en muestra" en el sentido de que los modelos se estiman sobre todos los datos. El mejor modelo se elige sin medidas fuera de muestra.
Sin embargo, el problema en cuestión (sobreajuste) se expresa de forma natural dividiendo la muestra en dos partes (dentro y fuera). Mi duda está relacionada con el hecho de que, incluso si los métodos anteriores permiten una buena selección entre los predictores y luego entre los modelos, la estimación implica todos los datos. Me parece que en cierta medida las métricas como el MSE resultan demasiado optimistas. Mi idea es simplemente utilizar los métodos anteriores, después de dividir los datos. A continuación, utilizar sólo "en la muestra" parte para fines de estimación y, a continuación, comparar los modelos de rendimiento, en términos de función de pérdida como MSE, en los datos nunca antes visto "fuera de la muestra".
¿Es una buena idea? En caso negativo, ¿por qué? ¿No es mejor que estimar todos los datos?