¿Cuánta diferencia entre los errores del conjunto de entrenamiento y de prueba puede indicar un ajuste excesivo? Por ejemplo, en la regresión logística. Estoy tratando de clasificar 11746 comentarios basados en sus sentimientos en tres clases utilizando la regresión logística. Mi precisión en el conjunto de entrenamiento es del 100%, pero en la prueba obtengo una precisión del 52%. Quiero saber cuánta diferencia entre estos factores puede indicar un ajuste excesivo.
Respuesta
¿Demasiados anuncios?La precisión en el entrenamiento es del 100%, pero en la prueba obtengo una precisión del 52%.
Esto es definitivamente un exceso de ajuste. Normalmente queremos que el rendimiento en el entrenamiento y en la prueba sea casi el mismo. Además, en la mayoría de los casos, no queremos que la precisión del entrenamiento sea del 100%, ya que los datos de entrenamiento pueden contener ruido y queremos que el modelo sea más "general" que los datos de entrenamiento.
Mi respuesta aquí da una orientación para utilizar la curva de aprendizaje para el diagnóstico de sobreajuste.
¿Cómo saber si una curva de aprendizaje de un modelo SVM sufre un sesgo o una varianza?