En general, este problema se puede formular utilizando la siguiente dinámica
$$ \dot{x} = A\,x + B\,u, \tag{1} $$
con $x\in\mathbb{R}^n$ , $u\in\mathbb{R}^m$ , $A\in\mathbb{R}^{n\times n}$ , $B\in\mathbb{R}^{n\times m}$ y $(A,B)$ estabilizable. El objetivo es encontrar la entrada de control $u(t)$ que resuelve
$$ \min_u \int_0^T \begin{bmatrix} x(t) \\ u(t) \end{bmatrix}^\top \begin{bmatrix} Q & N \\ N^\top & R \end{bmatrix} \begin{bmatrix} x(t) \\ u(t) \end{bmatrix} \,dt + x(T)^\top Q_T\,x(T), \tag{2} $$
con $R = R^\top \succ 0$ , $Q_T = Q_T^\top\succeq0$ , $Q = Q^\top$ , $Q - N\,R^{-1} N^\top = W^\top W \succeq 0$ y $(A,W)$ detectable. Se puede observar que en el caso de que $N = 0$ $(2)$ se simplifica a
$$ \min_u \int_0^T \left(x(t)^\top Q\,x(t) + u(t)^\top R\,u(t)\right) dt + x(T)^\top Q_T\,x(T). \tag{3} $$
Encontrar la entrada óptima puede resolverse empezando por el final y retrocediendo en el tiempo, de forma similar a programación dinámica . Para ello, sólo el coste terminal y el último tramo de la integral de $(2)$ se tienen en cuenta
$$ \min_u \int_{T-\delta}^T \begin{bmatrix} x(t) \\ u(t) \end{bmatrix}^\top \begin{bmatrix} Q & N \\ N^\top & R \end{bmatrix} \begin{bmatrix} x(t) \\ u(t) \end{bmatrix} \,dt + x(T)^\top Q_T\,x(T). \tag{4} $$
Al hacer $\delta$ en $(4)$ infinitesimalmente pequeño y para uso de conveniencia $\chi = x(T-\delta)$ y $\mu = u(T-\delta)$ entonces la integral en la función de coste puede escribirse como un término de la suma de Riemann. Como $\delta$ es infinitesimalmente pequeño $x(T)$ se puede expresar mediante el método de Euler $x(T) = x(T-\delta) + \delta\,\dot{x}(T-\delta)$ . Aplicando esto a $(4)$ produce
$$ \min_\mu \begin{bmatrix} \chi \\ \mu \end{bmatrix}^\top \begin{bmatrix} Q & N \\ N^\top & R \end{bmatrix} \begin{bmatrix} \chi \\ \mu \end{bmatrix} \,\delta + \left(\chi + \delta(A\,\chi + B\,\mu)\right)^\top Q_T\,\left(\chi + \delta(A\,\chi + B\,\mu)\right). \tag{5} $$
Al descartar todo lo insignificante $\delta^2$ términos en $(5)$ y reescribiéndola en una forma cuadrática se obtiene
$$ \min_\mu \delta\,\mu^\top R\,\mu + 2\,\delta\,\mu^\top \left(N + Q_T B\right)^\top \chi + \chi^\top \left(Q_T + \delta\,(Q + A^\top Q_T + Q_T A)\right)\chi, \tag{6} $$
que se puede demostrar que tiene a solución
$$ \mu = -R^{-1} \left(N + Q_T B\right)^\top \chi. \tag{7} $$
Sustituyendo $(7)$ en la función de costes de $(6)$ da el coste mínimo para pasar de $t = T - \delta$ a $t = T$ dado $x(T - \delta)$
$$ \label{eq:optimal_cost_end} \left.J_{\min}\right|_{T-\delta}^T = \chi^\top \left[Q_T + \delta\left(Q + A^\top Q_T + Q_T A - (N + Q_T B) R^{-1} (N + Q_T B)^\top\right)\right] \chi. \tag{8} $$
Al considerar el siguiente paso temporal infinitesimalmente pequeño hacia atrás en el tiempo se encuentra el mismo tipo de problema, sólo que el coste terminal definido con $Q_T$ se sustituye por $(8)$ . La matriz $P(t)$ se define como el equivalente $Q_T$ en el momento $t$ Por lo tanto $P(T) = Q_T$ . El término añadido a $Q_T$ en $(8)$ es proporcional a $\delta$ por lo que la actualización de $P(t)$ interpretándolo como el método de Euler, también se puede escribir como la siguiente ecuación diferencial matricial
$$ -\dot{P} = Q + A^\top P + P\,A - \left(N + P\,B\right) R^{-1} \left(N + P\,B\right)^\top, \tag{9} $$
que es una ecuación diferencial de Riccati. Se puede observar que el signo menos delante de $\dot{P}$ está ahí porque empieza en $P(T)=Q_T$ y luego va hacia atrás en el tiempo. Utilizando $P(t)$ , $x(t)$ y $u(t)$ en lugar de $Q_T$ , $\chi$ y $\mu$ respectivamente la solución de control óptimo mostrada en $(7)$ puede generalizarse a
$$ u(t) = -R^{-1} \left(N + P(t)\,B\right)^\top x(t). $$
Se puede observar que $x(\tau)^\top P(\tau)\,x(\tau)$ es igual al coste mínimo de $t=\tau$ a $t=T$ dado $x(\tau)$ . Para el problema de horizonte infinito $T = \infty$ el estado final $x$ y, por tanto, también la entrada $u$ se puede suponer que va a cero, por lo que $Q_T$ no tendría sentido. En cambio, se puede suponer que $P$ converge a un valor constante, que para cualquier cantidad finita de tiempo permanecerá constante. Este valor constante para $P$ se puede obtener fijando $(9)$ a cero
$$ Q + A^\top P + P\,A - \left(N + P\,B\right) R^{-1} \left(N + P\,B\right)^\top = 0, \tag{10} $$
que también se conoce como ecuación algebraica continua de Riccati (CARE).