Tengo un bonito conjunto de datos grande (~300 casos con ~40 atributos continuos, binario etiqueta) que he usado para crear diferentes alternativas de modelos de predicción. Para ello, el conjunto fue dividido para el entrenamiento y validación de los subconjuntos (~60:40% respectivamente).
He notado que hay varios ejemplos (tanto en el entrenamiento y la validación de subconjuntos) que están siendo clasificados erróneamente por todos o la mayoría de los modelos alternativos que puedo probar.
Sospecho que hay algo especial acerca de estos "problemas para hacer" las muestras. ¿Cuáles son las pautas generales para el descubrimiento de las posibles razones detrás de la mala conducta de los modelos específicos de muestras?
Actualización 1 estoy usando regresión logística para esta tarea. La selección de parámetros se realiza mediante una búsqueda exhaustiva de las combinaciones de hasta 4 predictores con 10-fold cross valiation. Vale la pena mencionar que los valores de P que es calculado por el modelo para el mal clasificado muestras suelen ser muy diferente de la predeterminada clasificación umbral de 0.5. En otras palabras, no sólo es el modelo equivocado acerca de esos casos, también es muy segura de sí misma
Actualización 2 -- lo que ya he hecho
Estoy de acuerdo en que la comprensión del dominio de estudio son cruciales, pero hasta la fecha no hemos podido descubrir algo importante. También, he probado a quitar el "malo" de las muestras del conjunto de entrenamiento, y mantener el conjunto de validación y la selección de parámetros del algoritmo de la virgen. Esto condujo a un mejor rendimiento en el conjunto de entrenamiento (de forma natural), sino que también ha mejorado significativamente el rendimiento en el conjunto de validación. Es esto una indicación de que el "malo" de las muestras fueron realmente "malo"?