Tengo un conjunto de datos que contiene como máximo 150 ejemplos (divididos en entrenamiento y prueba), con muchas características (más de 1000). Necesito comparar los clasificadores y los métodos de selección de características que funcionan bien en los datos. Por lo tanto, estoy utilizando tres métodos de clasificación (J48, NB, SVM) y 2 métodos de selección de características (CFS, WrapperSubset) con diferentes métodos de búsqueda (Greedy, BestFirst).
Al comparar, me fijo en la precisión del entrenamiento (pliegue cruzado de 5 veces) y en la precisión de la prueba.
Este es uno de los resultados de J48 y CFS-BestFirst:
{ "accuracyTraining" : 95,83, "accuracyTest" : 98,21 }
Muchos resultados son así, y en la SVM hay muchos resultados que indican que la precisión de la prueba es mucho mayor que la del entrenamiento (entrenamiento: 60%, prueba: 98%)
¿Cómo puedo interpretar significativamente este tipo de resultados? Si fuera más bajo, diría que es un exceso de ajuste. ¿Hay algo que decir sobre el sesgo y la varianza en este caso mirando todos los resultados? ¿Qué puedo hacer para que esta clasificación tenga sentido, como por ejemplo volver a seleccionar los conjuntos de entrenamiento y prueba o simplemente utilizar la validación cruzada en todos los datos?
Tengo 73 instancias de entrenamiento y 58 de prueba. Algunas respuestas no tenían esta información cuando se publicaron.