Primero resumiré mi comprensión intuitiva (de principiante) de su arquitectura de aprendizaje profundo. Se puede escuchar un breve resumen en Coursera en el vídeo de 5 minutos.
Empezamos con varias capas de autoencoder de forma no supervisada, para llegar a una buena representación/compresión del problema en sí. (Mente, la compresión es casi equivalente a la inteligencia, véase por ejemplo la Premio Hutter ).
A continuación, añadimos las etiquetas reales a los datos, es decir, iniciamos un algoritmo de gradiente para ajustar los pesos de nuestra red preentrenada y llegar a una buena predicción, de forma supervisada. Esto es útil porque empezamos el entrenamiento de gradiente a partir de una red que ya es buena representando el problema, por lo que tenemos menos posibilidades de quedarnos atascados en un óptimo local simplista como hacen las redes multicapa simples.
¿Por qué el uso de funciones de activación estocásticas ayuda en todo el proceso? Podríamos hacer lo mismo (con la misma intuición anterior, al menos) con redes autoencodificadoras deterministas también, aplicando luego el gradiente.