La opción 1 es la correcta. Usted puede agregar la validación de un conjunto de datos para la actualización de los parámetros del modelo.
Esa es la respuesta. Ahora vamos a hablar de ello. El hecho de que lo que hice fue su opción 1. encima es más claro si lo hice bien k-fold cross-validation de bootstrapping (y usted debería haber hecho eso - no está claro en tu pregunta).
En 5 veces validación cruzada, que se dividen los datos en 5 grupos aleatorios de igual tamaño. Vamos a llamar a, B,C, D y E. a Continuación, puede aprender de los parámetros del modelo (del modelo) en 4 de los conjuntos, digamos a,B,C y D, y la prueba o validación en el quinto modelo de E.
(Esto no lo hizo). Pero, a continuación, seleccione otro conjunto como la prueba de validación/(dicen D) y aprender el uso de los otros 4 (a,B,C y E). La prueba de D, repita.
El error que su modelo predictivo es el error promedio de las 5 pruebas - y usted tiene algún conocimiento sobre cómo el error predictivo depende del aprendizaje y conjuntos de pruebas. En el mejor de los casos 5 todas las medidas de error son similares y puede ser razonable, seguro de que su modelo se va a realizar en ese nivel en el futuro.
Pero, ¿qué modelo?? Para cada conjunto de aprendizaje establece tendrá un parámetro diferente para el modelo. Aprendizaje con a,B,C,D genera un conjunto de parámetros P1, aprendiendo, con a,B,C,E, el conjunto de parámetros P2 a P5. Ninguno de ellos es su modelo.
Lo que prueba es el error esperado de un procedimiento para la construcción de modelos, el procedimiento que ha de seguirse cuando el aprendizaje era el conjunto a,B,C,D y cuando fue a,B,C,E y así sucesivamente. Es este procedimiento el que se genera un modelo con lo que se espera de error.
Entonces, ¿cuál es el modelo final? Es la aplicación del procedimiento en todos los datos disponibles (a,B,C,D y E). Un nuevo modelo con un conjunto de parámetros P0, que nunca se genera antes, usted no tiene datos para probar (ya que "utiliza" todos los datos en la determinación de los parámetros P0) y, sin embargo, tiene una expectativa razonable de que se va a realizar en el futuro los datos como los otros modelos (P1, P2...) construyeron utilizando el mismo procedimiento que hizo.
Lo que si no se realizó una validación cruzada o de arranque (bootstrap es un poco más complejo de explicar - lo dejo fuera de esta discusión)? Lo que si sólo se realiza un aprendizaje de validación/split y una medida de error. Entonces, el argumento 2. puede ser algo correcto, pero usted tiene un problema mayor - usted tiene sólo una medida del error del modelo y no sabes cómo hacerlo dependiente de que el error está en que los datos utilizados para validar. Tal vez, por suerte, su 20% conjunto de validación fue particularmente fácil de predecir. De no haber hecho múltiples medidas de error, será muy arriesgado suponer que la tasa de errores, de su modelo predictivo seguirá siendo el mismo para el futuro de los datos.
Que es el "mayor riesgo"? Asumir que el error seguirá siendo básicamente el mismo para el futuro de los datos, o asumir que la adición de más datos para conocer su modelo, de alguna manera, "tornillo" de la modelo y el aumento de su tasa de error en el futuro? Realmente no sé cómo responder a esto, pero me gustaría ser sospechoso de modelos que empeoran con más datos....