He estado trabajando con WEKA para construir predictores de clase usando esto (bastante viejo..) conjunto de datos sobre el cáncer de mama . El conjunto de datos se divide en un entrenamiento y un conjunto de pruebas. He estado probando diferentes esquemas de aprendizaje (la mayoría enfocados en la selección de características) usando experimentos de validación cruzada 10 veces en el conjunto de entrenamiento. Desafortunadamente, cuando pruebo los modelos de entrenamiento en el conjunto de pruebas no parece haber ninguna correlación entre los resultados de la validación cruzada y el rendimiento real del conjunto de pruebas.
¿Es este un problema constante para los datos de microarreglos u otros datos de alta dimensión / bajo conteo de muestras? ¿Existe otro enfoque más adecuado que la validación cruzada para evaluar los modelos sobre los datos de capacitación?