38 votos

La precisión de la prueba es mayor que la del entrenamiento. ¿Cómo se interpreta?

Tengo un conjunto de datos que contiene como máximo 150 ejemplos (divididos en entrenamiento y prueba), con muchas características (más de 1000). Necesito comparar los clasificadores y los métodos de selección de características que funcionan bien en los datos. Por lo tanto, estoy utilizando tres métodos de clasificación (J48, NB, SVM) y 2 métodos de selección de características (CFS, WrapperSubset) con diferentes métodos de búsqueda (Greedy, BestFirst).

Al comparar, me fijo en la precisión del entrenamiento (pliegue cruzado de 5 veces) y en la precisión de la prueba.

Este es uno de los resultados de J48 y CFS-BestFirst:

{ "accuracyTraining" : 95,83, "accuracyTest" : 98,21 }

Muchos resultados son así, y en la SVM hay muchos resultados que indican que la precisión de la prueba es mucho mayor que la del entrenamiento (entrenamiento: 60%, prueba: 98%)

¿Cómo puedo interpretar significativamente este tipo de resultados? Si fuera más bajo, diría que es un exceso de ajuste. ¿Hay algo que decir sobre el sesgo y la varianza en este caso mirando todos los resultados? ¿Qué puedo hacer para que esta clasificación tenga sentido, como por ejemplo volver a seleccionar los conjuntos de entrenamiento y prueba o simplemente utilizar la validación cruzada en todos los datos?

Tengo 73 instancias de entrenamiento y 58 de prueba. Algunas respuestas no tenían esta información cuando se publicaron.

1voto

bsamek Puntos 545

Tuve el mismo problema con el paquete R de Caret, sin embargo, tenga en cuenta que lo que obtenemos al final de la formación suele ser el gama de rendimiento de los modelos entrenados en el conjunto de datos de validación cruzada. Por lo tanto, hay que volver a predecir el conjunto de datos de entrenamiento con el mejor modelo ( Modelo$bestTune ) y obtener métricas (por ejemplo, RMSE, AUC y etc.) de nuevo, entonces al predecir de nuevo se pueden obtener datos de prueba, cuando se comparan estos dos verás que la etapa de entrenamiento tiene mejores métricas de rendimiento

0voto

Kristina Thai Puntos 180

Esto puede ocurrir utilizando cualquier algoritmo de ML e incluso clasificadores personalizados. Pruebe diferentes esquemas de validación cruzada k-fold, es decir, 2 o 10 veces también. Con una k más alta, se espera que el error de la prueba se reduzca.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X