2 votos

modelo de sobreajuste y selección

Actualmente me estoy centrando en criterios de selección de modelos más específicamente: pruebas de hipótesis secuenciales , criterios de información (como BIC y AIC), Lazo . Todo ello en el marco de la regresión. Estos métodos son útiles para solucionar el problema del sobreajuste y, en cierto modo, nos permiten gestionar el equilibrio entre la parsimonia y la exhaustividad de los modelos a la luz de la función de pérdida de predicción. En otras palabras, estos métodos permiten gestionar compensación entre sesgo y varianza . Ahora bien, en mi referencia principal, estos métodos se utilizan como "métodos en muestra" en el sentido de que los modelos se estiman sobre todos los datos. El mejor modelo se elige sin medidas fuera de muestra.

Sin embargo, el problema en cuestión (sobreajuste) se expresa de forma natural dividiendo la muestra en dos partes (dentro y fuera). Mi duda está relacionada con el hecho de que, incluso si los métodos anteriores permiten una buena selección entre los predictores y luego entre los modelos, la estimación implica todos los datos. Me parece que en cierta medida las métricas como el MSE resultan demasiado optimistas. Mi idea es simplemente utilizar los métodos anteriores, después de dividir los datos. A continuación, utilizar sólo "en la muestra" parte para fines de estimación y, a continuación, comparar los modelos de rendimiento, en términos de función de pérdida como MSE, en los datos nunca antes visto "fuera de la muestra".

¿Es una buena idea? En caso negativo, ¿por qué? ¿No es mejor que estimar todos los datos?

1voto

Dhananjay Puntos 11

Lo que describes es simplemente la división en datos de entrenamiento y datos de prueba donde los datos de prueba no se utilizan en absoluto para el entrenamiento.

Sólo se utilizan los datos de entrenamiento para entrenar el modelo. Para evitar el sobreajuste (en métricas como el MSE), puedes utilizar ideas como la validación cruzada o el bootstrapping.

Puede estimar el error de generalización sobre datos no vistos (que aún no tiene) comparando su predicción con el modelo aprendido sobre los datos de prueba con los resultados reales de los datos de prueba.

A veces se dividen los datos de entrenamiento en datos de entrenamiento y datos de datos de validación cuando los datos de validación no se utilizan para entrenar el modelo, sino para evaluar si el entrenamiento es suficientemente bueno (por ejemplo, en procedimientos iterativos como las redes neuronales).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X