Gran variación de rendimiento al utilizar la retropropagación en redes neuronales para la extracción de características

Question

Gran variación de rendimiento al utilizar la retropropagación en redes neuronales para la extracción de características

Preguntado el 20 de Febrero, 2012: Cuando se hizo la pregunta
394 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy utilizando una red neuronal multicapa para la extracción de características (similar a la red de creencia profunda).

Pruebo el rendimiento de mi modelo con validación cruzada.

Cuando utilizo la retropropagación para entrenar mi red, obtengo una variación muy grande en el rendimiento.

Parece que es realmente crucial qué muestras (¿y quizás en qué orden?) se utilizan para la retropropagación.

¿Es un problema conocido de NN?

He intentado utilizar los métodos de aquí (tengo clases desiguales) http://www.springerlink.com/content/2wmmd867cyvbbk3h/

que ayudó al rendimiento pero no a la varianza.

ACTUALIZACIÓN: Estoy utilizando 256 características y tengo unas 2000 muestras de entrenamiento. Estoy entrenando mi red con preentrenamiento por capas y luego con retropropagación. Estoy utilizando el decaimiento de peso (alrededor de 0,02) y una tasa de aprendizaje de alrededor de 0,01 .

Gracias.

Preguntado el 20 de Febrero, 2012 por J Healy

Answer 1

1 Respuestas

Answer 2

1voto

matt Puntos 11

Sí, es sabido que hay muchos mínimos locales. La forma de inicializar la red y de ordenar los datos afecta al rendimiento, lo que significa que hay un gran componente aleatorio.

Incluso con una capa oculta, el número de mínimos locales puede ser exponencial en el número de nodos ocultos. Esto es fácil de ver. Suponga que está aproximando una función de una variable que es constante fuera de dos parches pequeños. Una neurona que no está saturada en ambos parches no está haciendo mucho. Por lo tanto, las neuronas tenderán a saturarse en un parche o en el otro, y es difícil que una neurona cambie donde está insaturada sin pasar por una etapa en la que no aporta nada. Por lo tanto, se obtiene un mínimo local para la mayor parte del $2^n$ asignaciones de las neuronas a los parches.

Ver Erhan et al, "¿Por qué el preentrenamiento no supervisado ayuda al aprendizaje profundo?" sección 6.3 "Visualización de las trayectorias del modelo durante el aprendizaje". Aunque el gráfico muestra que los mínimos locales encontrados por la inicialización aleatoria difieren mucho de los mínimos locales encontrados por el preentrenamiento, también muestra que no hay una convergencia en el espacio de parámetros de los modelos con preentrenamiento (o sin él). La figura 2 muestra que hay una gran dispersión de las tasas de error incluso dentro de un mismo método de entrenamiento.

Respondido el 2 de Diciembre, 2012 por matt (11 Puntos )

Gran variación de rendimiento al utilizar la retropropagación en redes neuronales para la extracción de características

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Gran variación de rendimiento al utilizar la retropropagación en redes neuronales para la extracción de características

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: