28 votos

¿Qué significa una capa cuello de botella en las redes neuronales?

Estaba leyendo el FaceNet papel y en el 3er párrafo de la introducción dice:

Enfoques anteriores de reconocimiento facial basados en utilizan una capa de clasificación entrenada identidades faciales conocidas y luego toman un cuello de botella intermedio como representación para generalizar el reconocimiento más allá del conjunto de identidades utilizadas en el entrenamiento.

Me preguntaba a qué se refieren con una capa intermedia de cuello de botella.

32voto

throwaway Puntos 18

Una capa cuello de botella es una capa que contiene pocos nodos en comparación con las capas anteriores. Puede utilizarse para obtener una representación de la entrada con dimensionalidad reducida. Un ejemplo de ello es el uso de autocodificadores con capas cuello de botella para la reducción no lineal de la dimensionalidad.

Lo que yo entiendo de la cita es que los enfoques anteriores utilizan una red profunda para clasificar las caras. A continuación, toman las primeras capas de esta red, desde la entrada hasta alguna capa intermedia (digamos, la capa $k$ ª capa, que contiene $n_k$ nodos). Esta subred implementa un mapeo desde el espacio de entrada a un $n_k$ -espacio vectorial dimensional. La dirección $k$ es una capa cuello de botella, por lo que el vector de activaciones de los nodos de la capa $k$ da una representación de menor dimensión de la entrada. La red original no puede utilizarse para clasificar nuevas identidades, sobre las que no se ha entrenado. Pero, la $k$ ª capa puede proporcionar una buena representación de los rostros en general. Por lo tanto, para aprender nuevas identidades, se pueden apilar nuevas capas clasificadoras sobre la capa $k$ y entrenada. O bien, los nuevos datos de entrenamiento pueden ser alimentados a través de la subred para obtener representaciones de la $k$ y estas representaciones pueden alimentar a otro clasificador.

7voto

Este Puntos 21

Añadiendo a la respuesta anterior: Los cuellos de botella también pueden entenderse como un patrón de diseño, formado por tres capas de convolución, introducido por el Documento ResNet .

Arquitecturas de cuello de botella más profundas . A continuación describimos nuestras redes más profundas para ImageNet. Debido a la preocupación por el tiempo de entrenamiento que podemos permitirnos, modificamos el bloque de construcción como cuello de botella. Para cada función residual F , utilizamos una pila de 3 capas en lugar de 2 (Fig. 5). Las tres capas son convoluciones 1×1, 3×3 y 1×1, donde las capas 1×1 se encargan de reducir y luego aumentar (restaurar) las dimensiones, dejando la capa 3x3 como cuello de botella con dimensiones de entrada/salida más pequeñas. La Fig. 5. muestra un ejemplo, en el que ambos diseños tienen una complejidad temporal similar.

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X