Estoy utilizando una red neuronal multicapa para la extracción de características (similar a la red de creencia profunda).
Pruebo el rendimiento de mi modelo con validación cruzada.
Cuando utilizo la retropropagación para entrenar mi red, obtengo una variación muy grande en el rendimiento.
Parece que es realmente crucial qué muestras (¿y quizás en qué orden?) se utilizan para la retropropagación.
¿Es un problema conocido de NN?
He intentado utilizar los métodos de aquí (tengo clases desiguales) http://www.springerlink.com/content/2wmmd867cyvbbk3h/
que ayudó al rendimiento pero no a la varianza.
ACTUALIZACIÓN: Estoy utilizando 256 características y tengo unas 2000 muestras de entrenamiento. Estoy entrenando mi red con preentrenamiento por capas y luego con retropropagación. Estoy utilizando el decaimiento de peso (alrededor de 0,02) y una tasa de aprendizaje de alrededor de 0,01 .
Gracias.