3 votos

¿Qué pasa si tengo un método que funciona peor en el desarrollo pero mejor en el conjunto de pruebas?

Supongamos que tengo un sistema de referencia y un método propuesto por mí, y quiero comprobar si mi método es mejor que el sistema de referencia o no.

Los utilizo a ambos para entrenar en el mismo conjunto de entrenamiento y ajusto los hiperparámetros detrás de cada método (por ejemplo, el término de regularización) en el mismo conjunto de desarrollo, y elijo los mejores modelos para el sistema de referencia y mi método por separado en el conjunto de desarrollo y los evalúo en el mismo conjunto de pruebas ahora.

Es bastante común que un método pueda funcionar bien en el conjunto de desarrollo en comparación con el sistema de referencia, pero peor que el sistema de referencia en el conjunto de pruebas, y podemos decir que este método podría estar sobreajustado en el conjunto de desarrollo.

Sin embargo, ¿qué pasa si funciona de la otra manera y mi método funciona peor que el sistema de referencia en el conjunto de desarrollo pero mejor que el sistema de referencia en el conjunto de pruebas? ¿Significa que la generalización del modelo es buena, o podemos sacar algunas conclusiones útiles aquí?

2voto

user2514608 Puntos 11

Suponiendo que el conjunto de pruebas y el conjunto de desarrollo se muestrean de forma independiente e idéntica a partir de una distribución fija, el rendimiento en cada conjunto debería ser el mismo más algún ruido. Cuando eliges el punto que tiene el mejor rendimiento en el conjunto de desarrollo, probablemente elegiste uno donde el "ruido" te favorece. Tiene sentido que la exactitud en el conjunto de pruebas sea menor que en el conjunto de desarrollo debido a la regresión a la media.

El nivel de ruido está relacionado con el tamaño de la muestra. Si tu muestra es pequeña, entonces el ruido puede tener un efecto mayor. No sería demasiado sorprendente que el conjunto de pruebas ocasionalmente tenga un mejor desempeño que el de desarrollo. Si la muestra es grande, entonces el rendimiento debería ser similar en ambos.

Si el rendimiento en el conjunto de pruebas es significativamente mejor que en el conjunto de desarrollo, es evidencia de que la partición de los datos no fue aleatoria. Tal vez haya alguna razón estructural por la cual el conjunto de pruebas sea más fácil, como que la distribución de etiquetas sea diferente o que contenga datos seleccionados de un período de tiempo diferente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X