-
Cuando se entrena una red neuronal mediante el algoritmo de retropropagación, se utiliza el método de descenso de gradiente para determinar las actualizaciones de los pesos. Mi pregunta es: En lugar de utilizar el método de descenso de gradiente para localizar lentamente el punto mínimo con respecto a un determinado peso, ¿por qué no establecemos simplemente la derivada $\frac{d(\text{Error})}{dw}=0$ y encontrar el valor del peso $w$ que minimiza el error?
-
Además, ¿por qué estamos seguros de que la función de error en la retropropagación será un mínimo? ¿No puede resultar que la función de error sea un máximo? ¿Existe alguna propiedad específica de las funciones de aplastamiento que garantice que una red con cualquier número de nodos ocultos con pesos y vectores de entrada arbitrarios siempre dará una función de error que tenga algún mínimo?
Si la función fuera cóncava, el gradiente descendería eternamente, ya que el único camino es hacia abajo. ¿Estás diciendo que se garantiza que la superficie de error no es cóncava? Además, no me queda claro por qué la derivada de la función de error no tendría una solución de forma cerrada. ¿No es el error de la forma $K-\frac{1}{1+e^{\Sigma wx}}$ ¿donde K es una constante? Esa función parece bastante diferenciable y la expresión resultante se puede resolver analíticamente. Por favor, ayúdame a aclararlo porque hay algo que claramente no veo.
2 votos
Los títulos en mayúsculas no son estándar aquí (por favor, mire a su alrededor) y aquí y en otros lugares ampliamente desaprobados como Gritos inoportunos.
3 votos
@Nick Cox mis disculpas
0 votos
Es interesante ver que cuando se utilizan variables ocultas o latentes en los modelos de aprendizaje automático, la optimización (¿casi?) siempre se vuelve no lineal, no convexa y simplemente más difícil de optimizar.
1 votos
PARA SABER MÁS ¿por qué el método de Newton no se utiliza mucho en el aprendizaje automático?