Processing math: 100%

4 votos

Descenso de gradiente en forma distribuida

Deje p(x1,x2,x3) ser una función escalar. El objetivo es encontrar a x1,x2,x3 a minimizar p(x1,x2,x3). Ahora, considere el método de gradiente de la pendiente: (x1x2x3)k+1=(x1x2x3)kαk(px1px2px3)k donde αk es el tamaño del paso.

Mi pregunta es: ¿puede el anterior proceso iterativo llevarse a cabo de manera distribuida? Esto podría estar motivado por algunas razones, tales como, distribuidos de recursos computacionales. La siguiente es mi opinión acerca de este problema.

Reescribir la ecuación anterior para x1,k+1=x1,kα1,kpx1 x2,k+1=x2,kα2,kpx2 x3,k+1=x3,kα3,kpx3 A continuación, las tres ecuaciones que puede ser calculado en tres equipos, respectivamente. Aquí tengo una pregunta, ¿el tamaño del paso, α1,k,α2,k,α3,k importa? Debemos mantener el α1,k=α2,k=α3,k?? En otras palabras, es el siguiente ecuación de gradiente de la pendiente? Si α1,k,α2,k,α3,k son diferentes el uno del otro, el movimiento global no es siempre a lo largo de con xp(x). (x1x2x3)k+1=(x1x2x3)k(α1,k000α2,k000α3,k)(px1px2px3)k

1voto

Jan W. Puntos 121

Técnicamente está permitido el uso de diferentes stepsizes de diferentes variables tanto tiempo como usted puede establecer (matemáticamente) que el linesearch procedimiento que calcula el αi,k asegura que existen constantes 0<l<u tal que l αi,kαj,ku αi,kpara todas las iteraciones k todos i,j=1,,n. Esto se utiliza para evitar algunos steplengths de la convergencia a cero o a infinito, mientras que otros siguen siendo finito.

En su segundo punto, donde el descenso con dirección a la que tiene la forma de Ag, se utiliza un cuasi método de Newton. Si se utiliza el método de Newton, su dirección de búsqueda podría resolver el sistema lineal 2f(xk)d=f(xk). (Tenga en cuenta que yo no he dicho que el de Hesse 2f(xk) fue invertible... es lo que es.) Esta dirección de búsqueda será un descenso con dirección a la si dTf(xk)<0. Es el caso de al 2f(xk) es positiva definida, pero puede ocurrir en otras situaciones. Ahora si la segunda derivados no están disponibles o son demasiado costosos para evaluar puede sustituir su propia matriz del sistema lineal anterior y requieren d resolver Bd=f(xk). Usted obtendrá un descenso con dirección a la proporcionada B es positiva definida. La mayor descenso método simplemente corresponde a B=I. Hay una sutileza que aquí. Es probable que el uso de diferentes B en cada iteración para B es realmente Bk. Se puede garantizar la convergencia si se utiliza uno de los estándar de linesearch métodos (Armijo, Wolfe, fuerte Wolfe, Goldstein, ...) y si puede asegurarse de que d nunca los enfoques de ortogonalidad con f(xk) (lo que podría suceder en un furtivo manera en el límite). Esto equivale a probar que dTf(xk)θ<0 para algunas constantes θ independiente de k. En cualquier optimización del libro, buscar Zoutendijk del teorema.

Cuasi-Newton métodos son una forma de preacondicionamiento de la mayor descenso método. En los primeros días, que fueron referidos como "variable" métrica de los métodos. Si puede ser calculada de manera distribuida, depende en gran medida de la estructura de la matriz B.

0voto

osama Puntos 16

Ahora lo de averiguar.

La más empinada de gradiente de la pendiente es xk+1=xkαkg donde g=p(x) es el gradiente. Cuando queremos utilizar xk+1=xkAg con A como una matriz en lugar de ello, sólo tenemos que asegurar gTAg>0 tal que p(x) le siguen disminuyendo. El sentido geométrico de la ecuación anterior es: la evolución de la dirección de la Ag debe hacer un ángulo estrictamente menor que π/2g. Así que mientras a A es positiva definida, la evolución de la dirección es siempre un descenso de la dirección (no más pronunciada).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X