13 votos

Cuando la construcción de un modelo de regresión mediante modelado por separado/conjuntos de validación, es apropiado "recirculación" la validación de datos?

Supongamos que tengo un 80/20 dividida entre el modelado y validación de las observaciones. He ajuste de un modelo para el modelado de datos, y me siento cómodo con el error que estoy viendo en la validación del conjunto de datos. Antes de rodar fuera de mi modelo de puntuación de futuras observaciones, es conveniente combinar la validación de vuelta con el modelado de datos para actualizar las estimaciones de los parámetros en el 100% de los datos? He escuchado las dos perspectivas sobre esto:

  1. La validación que he realizado fue una de validación de la estructura del modelo, es decir, el conjunto de predictores y de las transformaciones que he aplicado. No tiene sentido dejar el 20% de mis datos en la tabla, cuando podría utilizar para actualizar mis estimaciones.

  2. La validación que he realizado fue en parte una validación de las estimaciones de los parámetros que he calculado en mi modelado conjunto de datos. Si puedo actualizar el ajuste del modelo, he cambiado las estimaciones y yo ya no tengo una manera objetiva para probar el rendimiento de la actualización del modelo.

Siempre he seguido argumento #1, pero más recientemente, he oído a varias personas argumentan #2. Yo quería ver lo que otros piensan acerca de esto. Has visto alguna buena debates en la literatura o en otra parte de este tema?

6voto

BillyJean Puntos 118

La opción 1 es la correcta. Usted puede agregar la validación de un conjunto de datos para la actualización de los parámetros del modelo.

Esa es la respuesta. Ahora vamos a hablar de ello. El hecho de que lo que hice fue su opción 1. encima es más claro si lo hice bien k-fold cross-validation de bootstrapping (y usted debería haber hecho eso - no está claro en tu pregunta).

En 5 veces validación cruzada, que se dividen los datos en 5 grupos aleatorios de igual tamaño. Vamos a llamar a, B,C, D y E. a Continuación, puede aprender de los parámetros del modelo (del modelo) en 4 de los conjuntos, digamos a,B,C y D, y la prueba o validación en el quinto modelo de E. (Esto no lo hizo). Pero, a continuación, seleccione otro conjunto como la prueba de validación/(dicen D) y aprender el uso de los otros 4 (a,B,C y E). La prueba de D, repita.

El error que su modelo predictivo es el error promedio de las 5 pruebas - y usted tiene algún conocimiento sobre cómo el error predictivo depende del aprendizaje y conjuntos de pruebas. En el mejor de los casos 5 todas las medidas de error son similares y puede ser razonable, seguro de que su modelo se va a realizar en ese nivel en el futuro.

Pero, ¿qué modelo?? Para cada conjunto de aprendizaje establece tendrá un parámetro diferente para el modelo. Aprendizaje con a,B,C,D genera un conjunto de parámetros P1, aprendiendo, con a,B,C,E, el conjunto de parámetros P2 a P5. Ninguno de ellos es su modelo.

Lo que prueba es el error esperado de un procedimiento para la construcción de modelos, el procedimiento que ha de seguirse cuando el aprendizaje era el conjunto a,B,C,D y cuando fue a,B,C,E y así sucesivamente. Es este procedimiento el que se genera un modelo con lo que se espera de error.

Entonces, ¿cuál es el modelo final? Es la aplicación del procedimiento en todos los datos disponibles (a,B,C,D y E). Un nuevo modelo con un conjunto de parámetros P0, que nunca se genera antes, usted no tiene datos para probar (ya que "utiliza" todos los datos en la determinación de los parámetros P0) y, sin embargo, tiene una expectativa razonable de que se va a realizar en el futuro los datos como los otros modelos (P1, P2...) construyeron utilizando el mismo procedimiento que hizo.

Lo que si no se realizó una validación cruzada o de arranque (bootstrap es un poco más complejo de explicar - lo dejo fuera de esta discusión)? Lo que si sólo se realiza un aprendizaje de validación/split y una medida de error. Entonces, el argumento 2. puede ser algo correcto, pero usted tiene un problema mayor - usted tiene sólo una medida del error del modelo y no sabes cómo hacerlo dependiente de que el error está en que los datos utilizados para validar. Tal vez, por suerte, su 20% conjunto de validación fue particularmente fácil de predecir. De no haber hecho múltiples medidas de error, será muy arriesgado suponer que la tasa de errores, de su modelo predictivo seguirá siendo el mismo para el futuro de los datos.

Que es el "mayor riesgo"? Asumir que el error seguirá siendo básicamente el mismo para el futuro de los datos, o asumir que la adición de más datos para conocer su modelo, de alguna manera, "tornillo" de la modelo y el aumento de su tasa de error en el futuro? Realmente no sé cómo responder a esto, pero me gustaría ser sospechoso de modelos que empeoran con más datos....

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X