La función $J_k=x_k^\top P_k\,x_k$ puede considerarse como el coste de pasar de $k$ à $N$ . Utilizando sólo los últimos términos de su función de coste se obtiene un coste de $N-1$ à $N$ de
\begin{align} J_{N-1} &= x_N^\top\,Q_N\,x_N + x_{N-1}^\top Q\,x_{N-1} + x_{N-1}^\top K_{N-1}^\top R\,K_{N-1}\,x_{N-1}, \\ &= x_{N-1}^\top (A+B\,K_{N-1})^\top P_N\,(A+B\,K_{N-1})\,x_{N-1} + x_{N-1}^\top Q\,x_{N-1} + x_{N-1}^\top K_{N-1}^\top R\,K_{N-1}\,x_{N-1}, \tag{1} \\ &= x_{N-1}^\top \left((A+B\,K_{N-1})^\top P_N\,(A+B\,K_{N-1}) + Q + K_{N-1}^\top R\,K_{N-1}\right)x_{N-1}. \end{align}
Esto equivale a utilizar $J_{N-1}=x_{N-1}^\top P_{N-1}\,x_{N-1}$ con
$$ P_{N-1} = (A+B\,K_{N-1})^\top P_N\,(A+B\,K_{N-1}) + Q + K_{N-1}^\top R\,K_{N-1}. \tag{2} $$
Ahora sabemos lo que cuesta pasar de $N-1$ à $N$ La ampliación de éste equivaldría entonces a añadir el coste a $N-2$ a la misma. Se obtiene así una ecuación similar a la que utilizamos para calcular $J_{N-1}$ pero ahora usando $P_{N-1}$ en lugar de $Q_N=P_N$ con lo que se obtendría
$$ P_{N-2} = (A+B\,K_{N-2})^\top P_{N-1}\,(A+B\,K_{N-2}) + Q + K_{N-2}^\top R\,K_{N-2}. \tag{3} $$
Esto puede repetirse para todos los $k$ utilizando la ecuación generalizada
$$ P_k = (A+B\,K_k)^\top P_{k+1}\,(A+B\,K_k) + Q + K_k^\top R\,K_k, \tag{4} $$
pero esto es sólo su ecuación de diferencia de Riccati. Así que las iteraciones hacia atrás producen la misma ecuación en diferencias de Riccati, dada una política de control conocida. $K_k$ .
El óptimo $K_k$ se puede encontrar minimizando $J_k$ . De la programación dinámica se deduce que la solución para la política de control óptima en el último paso temporal también debe ser óptima cuando se combina con el paso temporal anterior. Esto se puede utilizar para encontrar la política de control óptima en el penúltimo paso temporal. Esto puede repetirse hasta llegar a $k=0$ . Así que minimizar $J_0$ es equivalente a minimizar todos los valores propios de $P_k$ en cada paso temporal $k$ . Se puede demostrar que $(4)$ es equivalente a
$$ P_k = (K^* - K_k)^\top M (K^* - K_k) + S, \tag{5} $$
con
\begin{align} M &= B^\top P_{k+1}\,B + R, \\ K^* &= -M^{-1} B^\top P_{k+1}\,A, \\ S &= Q + A^\top P_{k+1}\,A - {K^*}^\top M\,K^*. \end{align}
La matriz $P_k$ siempre se minimizará eligiendo $K_k = K^*$ desde $M$ es una matriz definida positiva, por lo que cualquier desviación de $K^*$ sólo puede aumentar $P_k$ . Por lo tanto $K_k=K^*$ tiene que ser la política de control óptima.