Una capa cuello de botella es una capa que contiene pocos nodos en comparación con las capas anteriores. Puede utilizarse para obtener una representación de la entrada con dimensionalidad reducida. Un ejemplo de ello es el uso de autocodificadores con capas cuello de botella para la reducción no lineal de la dimensionalidad.
Lo que yo entiendo de la cita es que los enfoques anteriores utilizan una red profunda para clasificar las caras. A continuación, toman las primeras capas de esta red, desde la entrada hasta alguna capa intermedia (digamos, la capa $k$ ª capa, que contiene $n_k$ nodos). Esta subred implementa un mapeo desde el espacio de entrada a un $n_k$ -espacio vectorial dimensional. La dirección $k$ es una capa cuello de botella, por lo que el vector de activaciones de los nodos de la capa $k$ da una representación de menor dimensión de la entrada. La red original no puede utilizarse para clasificar nuevas identidades, sobre las que no se ha entrenado. Pero, la $k$ ª capa puede proporcionar una buena representación de los rostros en general. Por lo tanto, para aprender nuevas identidades, se pueden apilar nuevas capas clasificadoras sobre la capa $k$ y entrenada. O bien, los nuevos datos de entrenamiento pueden ser alimentados a través de la subred para obtener representaciones de la $k$ y estas representaciones pueden alimentar a otro clasificador.