19 votos

Teorema de aproximación universal para redes convolucionales

El teorema de la aproximación universal es un resultado bastante famoso para las redes neuronales, que básicamente afirma que, bajo algunos supuestos, una función puede ser aproximada uniformemente por una red neuronal con cualquier precisión.

¿Existe algún resultado análogo que se aplique a las redes neuronales convolucionales?

10voto

Jonas Adler Puntos 360

Parece que esta pregunta ha sido respondida afirmativamente en este reciente artículo de Dmitry Yarotsky: Aproximaciones universales de mapas invariantes mediante redes neuronales .

El artículo muestra que cualquier función equivariante de traslación puede ser aproximada arbitrariamente bien por una red neuronal convolucional dado que es suficientemente amplia, en analogía directa con el teorema clásico de aproximación universal.

8voto

Jan Kukacka Puntos 1027

Sin embargo, esta es una cuestión interesante, sí que falta una aclaración adecuada de lo que se considera un red neuronal convolucional .

¿Es el único requisito que la red debe incluir ¿una operación de convolución? ¿Tiene que sólo incluyen ¿Operaciones de convolución? ¿Se admiten las operaciones de agrupación? Las redes convolucionales utilizadas en la práctica utilizan una combinación de operaciones, que a menudo incluyen capas totalmente conectadas (en cuanto se tiene una capa totalmente conectada, se tiene la capacidad teórica de aproximación universal).

Para darle alguna respuesta, considere el siguiente caso: Una capa totalmente conectada con $D$ entradas y $K$ se realiza mediante una matriz de pesos $W \in \mathbb R ^{K\times D} $ . Se puede simular esta operación utilizando 2 capas de convolución:

  1. El primero tiene $K\times D$ filtros de forma $D$ . Elemento $d$ del filtro $k,d$ es igual a $W_{k,d}$ El resto son ceros. Esta capa transforma la entrada en $KD$ -espacio intermedio de dimensiones donde cada dimensión representa un producto de un peso y su correspondiente entrada.

  2. La segunda capa contiene $K$ filtros de forma $KD$ . Elementos $kD\ldots(k+1)D$ del filtro $k$ son unos, el resto son ceros. Esta capa realiza la suma de los productos de la capa anterior.

Esta red convolucional simula una red totalmente conectada y, por tanto, tiene la misma capacidad de aproximación universal. Es usted quien debe considerar la utilidad de este ejemplo en la práctica, pero espero que responda a su pregunta.

1 votos

Esta construcción es bastante obvia, pero sólo es válida, por ejemplo, con condiciones de contorno de relleno cero. Con el requisito más natural de, por ejemplo, condiciones de contorno periódicas (que hacen que el operador de traslación sea equivariante) falla.

1 votos

Sí, esta construcción obvia asume que la convolución sólo se aplica a la entrada (sin relleno). Como he dicho, a menos que especifiques lo que está permitido y lo que no según tu definición de CNN, asumo que este es un enfoque válido. Además, ten en cuenta que las implicaciones prácticas de la UAT son prácticamente nulas, así que no estoy seguro de que tenga sentido profundizar demasiado en esto, especificando varias versiones de CNN y demostrando algo similar para cada una de ellas.

6voto

Ver el documento Universalidad de las redes neuronales convolucionales profundas por Ding-Xuan Zhou que demuestra que las redes neuronales convolucionales son universales, es decir, que pueden aproximar cualquier función continua con una precisión arbitraria cuando la profundidad de la red neuronal es lo suficientemente grande.

1 votos

Esto parece suponer condiciones de contorno nulas, por lo que el resultado debería ser el mismo que el mencionado por jan-kukacka

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X