14 votos

tasa de convergencia sublineal en la optimización matemática

En Página Wiki la tasa de convergencia sublineal se refiere a que para una secuencia $\{x_k\}$ con límite $L$ , \begin{align*} \limsup \frac{\|x_{k+1} - L\|} {\|x_k - L\|} = 1. \end{align*}

En la mayoría de los libros de optimización convexa, una secuencia converge a un ritmo $\mathcal O(1/k)$ también se denomina sublineal. Estoy un poco confundido sobre el significado exacto de la tasa sublineal. ¿Podría alguien aclararme esto?

También si tenemos la secuencia $\{a_k\}$ tal que $a_{k+1} \le q_k a_{k}$ con $q_k < 1$ por cada $k$ pero $\lim_{k \to \infty} q_k = 1$ . Según la definición de Wiki, esta tasa de convergencia debería ser sublineal. ¿Cómo es esta tasa en comparación con $\mathcal O(1/k)$ ? ¿Es más rápido o más lento?

33voto

Bruce Puntos 3473

Hay que empezar por entender que el análisis asintótico tradicional de la convergencia sublineal/lineal/superlineal/cuadrática de los algoritmos de optimización no es directamente comparable con el análisis no asintótico de los métodos de primer orden en términos del número de iteraciones necesarias para obtener una solución óptima epsilon (por ejemplo $O(1/\epsilon)$ ), o la reducción que puede obtenerse tras $k$ iteraciones (por ejemplo $O(1/k)$ .)

El análisis asintótico trata de lo que ocurre en el límite como $x^{(k)}$ se acerca a $x^{*}$ . El otro tipo de análisis se refiere a lo que ocurre después de un número relativamente pequeño de iteraciones, mucho antes de que el algoritmo haya mostrado su comportamiento límite.

Los métodos Quasi-Newton y Newton tienen tasas de convergencia asintótica que son al menos superlineales (cuadráticas para el método de Newton.) En la práctica, solemos ejecutar estos algoritmos hasta que han convergido a la máxima precisión disponible de la aritmética de punto flotante (normalmente de doble precisión) que se utiliza. Como resultado, solemos ver el comportamiento asintótico límite de estos métodos. Por ejemplo, en el método de Newton, es común ver que el número de dígitos precisos en la solución se duplica en cada una de las últimas iteraciones hasta que se alcanzan los límites de la aritmética de punto flotante. Cualquier algoritmo superlineal o cuadráticamente convergente que se acerque al comportamiento límite tendrá una solución totalmente precisa en unas pocas iteraciones.

En comparación, en el valiente nuevo mundo de los métodos de primer orden para problemas convexos a gran escala pero no suaves, rara vez podemos lograr más de 3-4 dígitos de precisión en la solución. Los algoritmos suelen detenerse mucho antes de la convergencia total. No nos interesa especialmente la tasa de convergencia asintótica (que suele ser sublineal) porque nunca nos acercaremos al comportamiento límite. Más bien nos interesa saber cuántas iteraciones son necesarias para encontrar una solución adecuada a nuestros propósitos.

En particular, definimos un $\epsilon$ solución aproximada para ser una solución $\hat{x}$ con $f(\hat{x})-f(x^{*}) \le \epsilon$ . Para un $\epsilon$ podemos analizar cuántas iteraciones son necesarias para obtener un $\epsilon$ solución aproximada y mostrar que (por ejemplo) nuestro algoritmo puede encontrar una $\epsilon$ solución aproximada en $O(1/\epsilon)$ iteraciones. Alternativamente, podríamos analizar nuestro algoritmo para mostrar que después de $k$ iteraciones, la diferencia $f(x^{(k)})-f(x^{*})$ es (por ejemplo) $O(1/k)$ . En este caso, la constante oculta por el $O()$ implicaría la distancia de $x^{(0)}$ a $x^{*}$ .

Es posible que dos métodos de primer orden tengan ambos una convergencia asintótica sublineal en el límite como $x^{(k)}$ se acerca a $x^{*}$ pero tienen $O(1/k)$ y $O(1/k^{2})$ la convergencia, respectivamente, medida por $f(x^{(k)})-f(x^{*})$ . Evidentemente, el $O(1/k^{2})$ aunque la convergencia asintótica es sublineal en ambos casos.

Un último comentario es que nada de esto se relaciona con la complejidad en tiempo polinómico de los métodos de punto interior para LP, SOCP y SDP. Esa es otra forma de analizar la convergencia de algunos algoritmos de optimización. Es importante desde el punto de vista de la práctica computacional en la resolución de problemas de optimización a muy gran escala que el tiempo polinómico a veces no es suficiente . En el caso de los problemas realmente grandes, es posible que ni siquiera se pueda completar una iteración en el tiempo disponible. Del mismo modo, un algoritmo de convergencia superlineal no sirve de mucho si no se puede ejecutar durante suficientes iteraciones para ver la convergencia superlineal asintótica.

Algunas lecturas adicionales:

Beck, Amir. First-Order Methods in Optimization. Filadelfia : SIAM-Sociedad de Matemática Industrial y Aplicada, 2017.

Bertsekas, Dimitri P. Algoritmos de optimización convexa. 1 edición. Belmont, Massachusetts: Athena Scientific, 2015.

Nesterov, Yurii. Lectures on Convex Optimization. 2nd ed. New York, NY: Springer, 2018.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X