Entiendo las capas convolucionales y de agrupación, pero no veo la razón de una capa totalmente conectada en las CNN. Por qué la capa anterior no está conectada directamente a la capa de salida?
Respuestas
¿Demasiados anuncios?La salida de las capas convolucionales representa características de alto nivel en los datos. Aunque esa salida podría aplanarse y conectarse a la capa de salida, añadir una capa totalmente conectada es una forma (normalmente) barata de aprender combinaciones no lineales de estas características.
Básicamente, las capas convolucionales proporcionan un espacio de características significativo, de baja dimensión y algo invariable, y la capa totalmente conectada aprende una función (posiblemente no lineal) en ese espacio.
NOTA: Es trivial convertir de capas FC a capas Conv. Convertir estas capas FC superiores en capas Conv puede ser útil como este describe la página.
Encontré esta respuesta en Anil-Sharma en Quora útil.
Podemos dividir toda la red (para la clasificación) en dos partes:
-
Extracción de características : En los algoritmos de clasificación convencionales, como las SVM, solíamos extraer características de los datos para que la clasificación funcionara. Las capas convolucionales sirven para el mismo propósito de extracción de características. Las CNNs capturan una mejor representación de los datos y por lo tanto no necesitamos hacer ingeniería de características.
-
Clasificación : Después de la extracción de características, tenemos que clasificar los datos en varias clases, lo que puede hacerse utilizando una red neuronal totalmente conectada (FC). En lugar de las capas totalmente conectadas, también podemos utilizar un clasificador convencional como la SVM. Pero generalmente acabamos añadiendo capas FC para que el modelo sea entrenable de principio a fin.