6 votos

¿Qué hace con los datos de sus pruebas?

Suponga que realiza un estudio de selección de parámetros en un entorno con no tantos puntos de datos. Divides los datos disponibles en un conjunto de entrenamiento y pruebas y planeas validar el futuro modelo en un conjunto de validación separado.

Haces todas tus heurísticas en el set de entrenamiento y cuando estás contento con los parámetros seleccionados, obtienes un modelo y lo pruebas en el set de pruebas. A veces, afinarás tu modelo, de acuerdo con los resultados del conjunto de pruebas, pero mantendrás estos afinamientos al mínimo.

Ahora está listo para publicar su modelo y validarlo usando un conjunto de datos externos de validación. ¿Reentrenaría el modelo (re-calibraría los parámetros) usando la combinación del entrenamiento y el conjunto de pruebas, o se ceñiría a lo que tiene?

2voto

John Richardson Puntos 1197

Reentrenaría el modelo utilizando las particiones de entrenamiento y prueba; no parece haber mucho que perder al hacerlo, y el modelo final probablemente tendrá un rendimiento ligeramente mejor que la estimación de rendimiento pesimista (ya que se basa en un conjunto de entrenamiento más pequeño).

Si el conjunto de datos es pequeño, una mejor solución sería combinar el entrenamiento y los conjuntos de pruebas y utilizar la replicación de bootstrap. Puede utilizar el estimador de rendimiento fuera de la bolsa para cualquier ajuste fino que necesite hacer, y puede utilizar el mismo comité de bootstrap (es decir, embolsado) para las predicciones del conjunto de validación.

Para conjuntos de datos pequeños, el embolsado es muy útil porque si se utiliza una sola división de prueba/entrenamiento, el rendimiento del conjunto de pruebas es muy variable dado el pequeño tamaño del conjunto de pruebas, por lo que es un estimador poco fiable del verdadero rendimiento. El estimador fuera de la bolsa generalmente tiene una menor varianza y es una mejor guía de rendimiento. De la misma manera, el predictor en sí mismo es menos variable con el embolsado que si se entrena en un solo conjunto de entrenamiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X