Actualmente estoy trabajando en un problema de regresión, utilizando redes neuronales para restringir los parámetros de un escenario físico complejo. Estoy buscando el mejor modelo en el espacio de hiperparámetros y hasta ahora he encontrado una disminución del 33% en la pérdida de 2 capas sobre 1 capa (buscando un número razonable de neuronas dado el tamaño del entrenamiento, la dimensión de entrada, etc. y teniendo en cuenta el sobreajuste con abandono y parada temprana).
Ahora, estoy tratando de justificar la motivación para el uso de múltiples capas ocultas viendo que la mejora es significativa, pero también teniendo en cuenta el teorema de aproximación universal y el potencial de sobreajuste.
He encontrado la siguiente descripción de un pregunta anterior :
| Número de capas ocultas | Resultado |
0 - Sólo capaz de representar funciones o decisiones lineales separables.
1 - Puede aproximar cualquier función que contenga un mapeo continuo de un espacio finito a otro.
2 - Puede representar un límite de decisión arbitrario t con funciones de activación racionales y puede aproximar cualquier suave con cualquier precisión.
Mi pregunta es entre la diferencia entre 1 y 2 arriba. ¿La suavidad no implica continuidad? Y, ¿por qué la capa 1 podría modelar una función continua pero no una suave?
Además, ¿hay alguna otra justificación de las capas ocultas múltiples para los problemas de regresión?
(¡se agradece enormemente la orientación sobre el material! Es difícil de ordenar a través de las masas en línea)