1) C1 en la capa 1 tiene 6 mapas de características, ¿significa eso que hay seis núcleos convolucionales? Cada núcleo convolucional se utiliza para generar un mapa de características basado en la entrada.
Hay 6 núcleos convolucionales y cada uno se utiliza para generar un mapa de características basado en la entrada. Otra forma de decirlo es que hay 6 filtros o conjuntos de pesos en 3D, a los que llamaré simplemente pesos. Lo que esta imagen no muestra, que probablemente debería, para hacerlo más claro es que típicamente las imágenes tienen 3 canales, digamos rojo, verde y azul. Así que los pesos que le mapa de la entrada a C1 son de forma / dimensión 3x5x5 no sólo 5x5. Los mismos pesos de 3 dimensiones, o kernel, se aplican a toda la imagen de 3x32x32 para generar un mapa de características de 2 dimensiones en C1. Hay 6 kernels (cada 3x5x5) en este ejemplo, por lo que hay 6 mapas de características (cada uno de 28x28, ya que el stride es 1 y el padding es cero) en este ejemplo, cada uno de los cuales es el resultado de aplicar un kernel 3x5x5 a la entrada.
2) S1 en la capa 1 tiene 6 mapas de características, C2 en la capa 2 tiene 16 mapas de características. ¿Cuál es el proceso para obtener estos 16 mapas de características a partir de los 6 mapas de características de S1?
Ahora haz lo mismo que hicimos en la capa uno, pero hazlo para la capa 2, excepto que esta vez el número de canales no es 3 (RGB) sino 6, seis por el número de mapas de características/filtros en S1. Ahora hay 16 kernels únicos, cada uno con una forma/dimensión de 6x5x5. Cada kernel de la capa 2 se aplica a todo S1 para generar un mapa de características 2D en C2. Esto se hace 16 veces por cada kernel único en la capa 2, los 16, para generar los 16 mapas de características en la capa 2 (cada uno de 10x10 ya que el stride es 1 y el padding es cero)
fuente: http://cs231n.github.io/convolutional-networks/