4 votos

Gran variación de rendimiento al utilizar la retropropagación en redes neuronales para la extracción de características

Estoy utilizando una red neuronal multicapa para la extracción de características (similar a la red de creencia profunda).

Pruebo el rendimiento de mi modelo con validación cruzada.

Cuando utilizo la retropropagación para entrenar mi red, obtengo una variación muy grande en el rendimiento.

Parece que es realmente crucial qué muestras (¿y quizás en qué orden?) se utilizan para la retropropagación.

¿Es un problema conocido de NN?

He intentado utilizar los métodos de aquí (tengo clases desiguales) http://www.springerlink.com/content/2wmmd867cyvbbk3h/

que ayudó al rendimiento pero no a la varianza.

ACTUALIZACIÓN: Estoy utilizando 256 características y tengo unas 2000 muestras de entrenamiento. Estoy entrenando mi red con preentrenamiento por capas y luego con retropropagación. Estoy utilizando el decaimiento de peso (alrededor de 0,02) y una tasa de aprendizaje de alrededor de 0,01 .

Gracias.

1voto

matt Puntos 11

Sí, es sabido que hay muchos mínimos locales. La forma de inicializar la red y de ordenar los datos afecta al rendimiento, lo que significa que hay un gran componente aleatorio.

Incluso con una capa oculta, el número de mínimos locales puede ser exponencial en el número de nodos ocultos. Esto es fácil de ver. Suponga que está aproximando una función de una variable que es constante fuera de dos parches pequeños. Una neurona que no está saturada en ambos parches no está haciendo mucho. Por lo tanto, las neuronas tenderán a saturarse en un parche o en el otro, y es difícil que una neurona cambie donde está insaturada sin pasar por una etapa en la que no aporta nada. Por lo tanto, se obtiene un mínimo local para la mayor parte del $2^n$ asignaciones de las neuronas a los parches.

Ver Erhan et al, "¿Por qué el preentrenamiento no supervisado ayuda al aprendizaje profundo?" sección 6.3 "Visualización de las trayectorias del modelo durante el aprendizaje". Aunque el gráfico muestra que los mínimos locales encontrados por la inicialización aleatoria difieren mucho de los mínimos locales encontrados por el preentrenamiento, también muestra que no hay una convergencia en el espacio de parámetros de los modelos con preentrenamiento (o sin él). La figura 2 muestra que hay una gran dispersión de las tasas de error incluso dentro de un mismo método de entrenamiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X