1 votos

Redes neuronales - ¿Diferencia entre 1 y 2 capas?

Actualmente estoy trabajando en un problema de regresión, utilizando redes neuronales para restringir los parámetros de un escenario físico complejo. Estoy buscando el mejor modelo en el espacio de hiperparámetros y hasta ahora he encontrado una disminución del 33% en la pérdida de 2 capas sobre 1 capa (buscando un número razonable de neuronas dado el tamaño del entrenamiento, la dimensión de entrada, etc. y teniendo en cuenta el sobreajuste con abandono y parada temprana).

Ahora, estoy tratando de justificar la motivación para el uso de múltiples capas ocultas viendo que la mejora es significativa, pero también teniendo en cuenta el teorema de aproximación universal y el potencial de sobreajuste.

He encontrado la siguiente descripción de un pregunta anterior :

| Número de capas ocultas | Resultado |

0 - Sólo capaz de representar funciones o decisiones lineales separables.

1 - Puede aproximar cualquier función que contenga un mapeo continuo de un espacio finito a otro.

2 - Puede representar un límite de decisión arbitrario t con funciones de activación racionales y puede aproximar cualquier suave con cualquier precisión.

Mi pregunta es entre la diferencia entre 1 y 2 arriba. ¿La suavidad no implica continuidad? Y, ¿por qué la capa 1 podría modelar una función continua pero no una suave?

Además, ¿hay alguna otra justificación de las capas ocultas múltiples para los problemas de regresión?

(¡se agradece enormemente la orientación sobre el material! Es difícil de ordenar a través de las masas en línea)

2voto

Brett Puntos 11

Ahora, estoy tratando de justificar la motivación para usar múltiples capas ocultas viendo que la mejora es significativa, pero también considerando el teorema de aproximación universal y el potencial de sobreajuste.

El teorema se basa en la suposición de que se tiene un número arbitrariamente grande de neuronas en la capa oculta. Si se añade otra capa oculta, se necesita un número exponencialmente menor de unidades para obtener el mismo número de conexiones. Por lo tanto, se puede obtener la misma capacidad con un número exponencialmente menor de unidades si se utilizan varias capas.

Es decir, considere el caso de 1024 unidades en la capa oculta. Se puede obtener el mismo número de conexiones utilizando 10 capas con 2 unidades cada una (2^10=1024). Sin embargo, en ese caso sólo tienes 2*10=20 parámetros. Como regla general, cuantos más parámetros tenga, más fácil será sobreajustar.

El inconveniente de utilizar varias capas son los problemas de desaparición y explosión de degradados. Un buen punto óptimo para los perceptrones multicapa suele ser 2 capas. Los perceptrones multicapa simples casi nunca funcionan con 3 capas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X