35 votos

Debería final de producción (listo) modelo de ser capacitados sobre los datos completos o sólo en el conjunto de entrenamiento?

Supongamos que he entrenado varios modelos en el conjunto de entrenamiento, elegir el mejor uno mediante validación cruzada para establecer y medir el desempeño en la prueba de conjunto. Así que ahora tengo un final mejor modelo. Debo entrenar de nuevo en mi todos los datos disponibles o de la nave de solución formado sólo en el conjunto de entrenamiento? Si es esto último, entonces, ¿por qué?

ACTUALIZACIÓN: Como @P. Windridge señaló el envío de un recapacitar modelo básicamente significa que el envío de un modelo sin validación. Pero podemos informe conjunto de pruebas de rendimiento y después de que reeducar el modelo de datos completo con rectitud esperando que el rendimiento sea mejor, porque hacemos nuestro mejor modelo, además de ser más datos. ¿Qué problemas pueden surgir a partir de esa metodología?

P. S. Mi pregunta es hipotética, lo que significa que no tienen tal problema ahora, me pregunto.

24voto

dan90266 Puntos 609

Casi siempre obtener un mejor modelo después de volver a colocar en la totalidad de la muestra. Pero como otros han dicho que no tienen ninguna validación. Esto es un error fundamental en los datos de la división de enfoque. No sólo es de los datos de la división de una oportunidad perdida para directamente ejemplo de modelo de diferencias en un modelo general, pero es inestable, a menos que su totalidad de la muestra es tal vez más de 15.000 sujetos. Esta es la razón de 100 repeticiones de 10-fold cross-validation es necesario (dependiendo del tamaño de la muestra) para lograr la precisión y la estabilidad, y por qué el bootstrap para el fuerte de validación interna es aún mejor. El bootstrap también expone cómo difícil y arbitrario, es la tarea de selección de características.

He descrito los problemas con los 'externos' de validación en más detalle en http://biostat.mc.vanderbilt.edu/ClinStat en Bioestadística en la Investigación Biomédica Sección 9.11.

-1voto

Hamid Shahid Puntos 1035

Usted no necesita volver a entrenar de nuevo. Cuando se informe de sus resultados, siempre se informe de los datos de prueba resultados, ya que dan mejor comprensión. Por el conjunto de datos de prueba podemos ver con más precisión la eficacia de un modelo es probable que se realice sobre los datos de muestra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X