25 votos

¿Qué es la arquitectura de un Stacked convolucional Autoencoder

Así que estoy tratando de hacer pre entrenamiento en las imágenes de seres humanos, utilizando convolucional redes. He leído los papeles http://people.idsia.ch/~ciresan/datos/icann2011.pdf y http://ai.stanford.edu/~ang/papers/nips10-TiledConvolutionalNeuralNetworks.pdf Y este enlace de stackoverflow http://stackoverflow.com/questions/24752655/unsupervised-pre-training-for-convolutional-neural-network-in-theano

pero no estoy seguro de que soy comprender la estructura de las redes (que no está bien definido en los documentos).

Preguntas

  • Puedo tener mi entrada seguida de una capa de ruido seguido de un conv capa, seguido por una agrupación de capa - no después - ¿de-de la piscina antes de dar mi salida (que es la misma de mi imagen de entrada)?.

    Decir que tengo varios (135,240) imágenes. Si yo uso 32, (12,21), los granos, seguido por (2,2) de la agrupación, voy a acabar con 32 (62, 110) característica de los mapas. Ahora, ¿puedo de-piscina para conseguir 32 (124, 220) característica de los mapas y luego aplanar ellos ? antes de dar mi (135,240) de la capa de salida ?

  • Si tengo varias conv-piscina capas, debo entrenar uno por uno - como en apiladas procesada autoencoders ? O puedo tener algo como entrada-conv-piscina-conv-piscina-conv-piscina-salida(la salida de la misma como de entrada) ? En ese caso, ¿cómo es la agrupación, depooling supone que para ser administrada ? Debo sólo de la piscina en la última piscina capa antes de la salida ? Y de nuevo - ¿a qué se debe el cambio de tamaño factor de que de la agrupación ? Es la intención de traer a la función de mapas de vuelta a la forma de la entrada ?

  • Debo ser la introducción de capas de ruido después de cada conv-piscina-depool capa ?

  • Y luego, cuando sintonía fina - se supone que tengo que quitar sólo el de la agrupación de capas y dejar el resto de la misma. O debo quitar las capas de ruido y de la agrupación de capas

  • Puede cualquiera me apunte a una url y/o de papel que se ha detallado de la arquitectura de un apilados convolucional auto codificador para hacer pre entrenamiento en las imágenes ?

Muchas gracias

12voto

user2979010 Puntos 21

Actualmente estoy explorando apilados convolucional autoencoders.

Voy a intentar contestar a algunas de tus preguntas lo mejor de mi conocimiento. La mente de usted, yo podría estar equivocado para tomar con un grano de sal.

  1. Sí, usted tiene a la "inversa" de la piscina y, a continuación, convolución con un conjunto de filtros para recuperar su imagen de salida. Un estándar de red neuronal (considerando MNIST de datos como entrada, es decir, 28 x 28 de entrada dimensiones) sería:

        28x28(input) -- convolve with 5 filters, each filter 5x5 -->  5 @ 28 x 28 maps -- maxPooling --> 5 @ 14 x 14 (Hidden layer) -- reverse-maxPool --> 5 @ 28 x 28 -- convolve with 5 filters, each filter 5x5 --> 28x28 (output)
    
  2. Mi comprensión es que, convencionalmente, que es lo que uno debe hacer, es decir, capacitar a cada capa por separado. Después de que la pila de capas y capacitar a la totalidad de la red una vez más con la pre-entrenados pesos. Sin embargo, Yohsua Bengio tiene algo de investigación, la referencia que se escapa a mi memoria) que muestra que se podría construir un apilado de la red de tren y partir de cero.

  3. Mi entendimiento es que "el ruido de la capa" es no introducir robustez y variabilidad en la entrada de modo que la formación no overfit.

  4. Mientras usted todavía está "formación" pre-entrenamiento o el ajuste, creo que la reconstrucción de la parte (es decir, reversePooling, de convolución, etc) es necesario. De lo contrario, ¿cómo se debe realizar error-propagación hacia atrás para sintonizar pesos?

  5. He tratado de navegación a través de numerosos estudios, pero la arquitectura nunca se explica en su totalidad. Si encuentra alguno, por favor hágamelo saber.

2voto

user2732251 Puntos 1

También he estado buscando explica completamente el modelo de la Apilados Convolucional Autoencoders.

Me encontré con tres arquitecturas diferentes. Todavía estoy estudiando y pensé que estos pueden ayudar a otras personas que también están comenzando a explorar CAEs. Cualquier más referencias a documentos o implementaciones sería de gran ayuda.

  1. De la mencionada, por medio de la agrupación - unpooling.
  2. Las capas de (convolución)__x_veces -> (deconvolve)__x_veces,

    y obtener el mismo tamaño que la de entrada.

  3. (convolución -> piscina)__x_veces -> (strided deconvolución)__y_veces
    • el relleno y los avances son seleccionarse de forma que el tamaño de imagen final es la misma que la de la imagen original.
    • Referencia

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X