Estoy leyendo ¿por Qué ritmo Realmente Funciona, un post de la nueva destilar diario. Voy a parafrasear a las principales ecuaciones que conducen a la parte que me confunde, el post describe la intuición en más detalle.
El gradiente de la pendiente algoritmo está dada por el siguiente proceso iterativo $$w^{k+1} = w^k-\alpha \nabla f(w^k)$$ donde $w^k$ es el valor de la iteración $k$, la tasa de aprendizaje es $\alpha$ $\nabla f(w)$ es el gradiente de la función de $f$ evaluado en $w$. La función de $f$ desea minimizar.
Gradiente de la pendiente con el impulso dado por la adición de "memoria" en el descenso, este es descrita por el par de ecuaciones:
\begin{align} z^{k+1} &= \beta z^k + \nabla f(w^k) \\ w^{k+1} &= w^k - \alpha z^{k+1} \end{align}
En la siguiente sección "Primeros Pasos: Gradiente de la pendiente", el autor considera que una función cuadrática convexa $$f(w) = \frac12w^TAw-b^Tw, \quad w \in \mathbb{R}^n, A \in \mathbb{R}^{n,n}$$ que ha degradado $$\nabla f(w) = Aw-b$$ Si asumimos $A$ es simétrica y invertable, a continuación, $f$ tiene solución óptima $w^\star = A^{-1}b$.
Si fuéramos a usar gradiente de la pendiente, nos gustaría recorrer hacia esta solución óptima de la siguiente manera \begin{align} w^{k+1} &= w^k - \alpha \nabla f(w) \\ &= w^k - \alpha (Aw^k -b) \end{align}
A continuación, el artículo continúa diciendo que "Hay un espacio natural a la vista de gradiente de la pendiente, donde todas las dimensiones de actuar de forma independiente - los vectores propios de a $A$". Creo que esto tiene sentido, aunque mi intuición es una especie de difusa.
Cada matriz simétrica $A$ tiene un autovalor de descomposición donde $$A = Q\text{diag}(\lambda_1,\ldots,\lambda_n)Q^T.$$
Donde $\lambda_1 > \ldots > \lambda_n$ $Q$ es el vector con los correspondientes vectores propios como columnas (a la derecha?).
Esta parte es donde no entiendo lo que está pasando:
Si queremos realizar un cambio de base, $x^k = Q^T(w^k - w^\star)$, el las iteraciones se rompen, convirtiéndose en:
\begin{align} x_i^{k+1} &= x_i^k - \alpha \lambda_i x_i^k \\ &=(1-\alpha\lambda_i)x_i^k &= (1- \alpha\lambda_i)^{k+1}x_i^0 \end{align}
Regresemos a nuestro espacio original $w$, podemos ver que
$$w^k - w^\star = Qx^k = \sum\limits_{i}^n = x_i^0(1-\alpha\lambda_i)^kq_i$$
¿Qué está pasando aquí? Donde es la motivación de la toma de $w^k - w^\star$ en el eigendomain? ¿Qué es $x^k$? ¿Por qué estamos ahora mirando invidual elementos del vector? He intentado seguir las caculations a través de, pero $x^{k+1}$ depende de $w^{k+1}$ que depende de la $z^k$, lo que yo pensaba que estaban tratando de eliminar. Mi pregunta es ¿alguien puede ampliar en estos pocos pasos con algo de intuición y cálculos? Gracias.