Dada cierta cantidad de datos etiquetados, definimos la estructura de la red, como el número de capas, los tipos de capas, el número de capas convolucionales, el número de capas de agrupación, etc.
Y entrenar los parámetros utilizando la retropropagación, mientras que mostramos la pérdida en el procedimiento de formación y ver la precisión de las pruebas en el conjunto de datos de validación.
Sin embargo, la pérdida en el conjunto de entrenamiento es casi nula, y la precisión de las pruebas se mantiene sin cambios, independientemente de cómo se disminuya la tasa de aprendizaje.
- En esta circunstancia, ¿se trata de un sobreajuste?
- ¿Debemos cambiar la estructura de la red?
- ¿Más capas para más parámetros?
- ¿Podría recomendar algunas sugerencias o referencias?