2 votos

Ecuación de Riccati en un problema de control óptimo

Mediante la ecuación de Riccati

$$\dot{P} = - PA - A^\textrm{T}P + P B R^{-1} B^{\textrm{T}} P - Q,\ P(T)= F$$

encontrar el coste mínimo óptimo $J$ si

$$\dot{x} = 2x + u,\;J(u) = 5 x^2(1) + \int_0^1 \left[x^2(t) + u^2(t)\right]dt, \;x(0) = x_0.$$

No veo cómo relacionar la ecuación de Riccati con este problema. Cualquier idea sobre cómo empezar será muy apreciada.

1voto

Kevin Puntos 11

En general, este problema se puede formular utilizando la siguiente dinámica

$$ \dot{x} = A\,x + B\,u, \tag{1} $$

con $x\in\mathbb{R}^n$ , $u\in\mathbb{R}^m$ , $A\in\mathbb{R}^{n\times n}$ , $B\in\mathbb{R}^{n\times m}$ y $(A,B)$ estabilizable. El objetivo es encontrar la entrada de control $u(t)$ que resuelve

$$ \min_u \int_0^T \begin{bmatrix} x(t) \\ u(t) \end{bmatrix}^\top \begin{bmatrix} Q & N \\ N^\top & R \end{bmatrix} \begin{bmatrix} x(t) \\ u(t) \end{bmatrix} \,dt + x(T)^\top Q_T\,x(T), \tag{2} $$

con $R = R^\top \succ 0$ , $Q_T = Q_T^\top\succeq0$ , $Q = Q^\top$ , $Q - N\,R^{-1} N^\top = W^\top W \succeq 0$ y $(A,W)$ detectable. Se puede observar que en el caso de que $N = 0$ $(2)$ se simplifica a

$$ \min_u \int_0^T \left(x(t)^\top Q\,x(t) + u(t)^\top R\,u(t)\right) dt + x(T)^\top Q_T\,x(T). \tag{3} $$

Encontrar la entrada óptima puede resolverse empezando por el final y retrocediendo en el tiempo, de forma similar a programación dinámica . Para ello, sólo el coste terminal y el último tramo de la integral de $(2)$ se tienen en cuenta

$$ \min_u \int_{T-\delta}^T \begin{bmatrix} x(t) \\ u(t) \end{bmatrix}^\top \begin{bmatrix} Q & N \\ N^\top & R \end{bmatrix} \begin{bmatrix} x(t) \\ u(t) \end{bmatrix} \,dt + x(T)^\top Q_T\,x(T). \tag{4} $$

Al hacer $\delta$ en $(4)$ infinitesimalmente pequeño y para uso de conveniencia $\chi = x(T-\delta)$ y $\mu = u(T-\delta)$ entonces la integral en la función de coste puede escribirse como un término de la suma de Riemann. Como $\delta$ es infinitesimalmente pequeño $x(T)$ se puede expresar mediante el método de Euler $x(T) = x(T-\delta) + \delta\,\dot{x}(T-\delta)$ . Aplicando esto a $(4)$ produce

$$ \min_\mu \begin{bmatrix} \chi \\ \mu \end{bmatrix}^\top \begin{bmatrix} Q & N \\ N^\top & R \end{bmatrix} \begin{bmatrix} \chi \\ \mu \end{bmatrix} \,\delta + \left(\chi + \delta(A\,\chi + B\,\mu)\right)^\top Q_T\,\left(\chi + \delta(A\,\chi + B\,\mu)\right). \tag{5} $$

Al descartar todo lo insignificante $\delta^2$ términos en $(5)$ y reescribiéndola en una forma cuadrática se obtiene

$$ \min_\mu \delta\,\mu^\top R\,\mu + 2\,\delta\,\mu^\top \left(N + Q_T B\right)^\top \chi + \chi^\top \left(Q_T + \delta\,(Q + A^\top Q_T + Q_T A)\right)\chi, \tag{6} $$

que se puede demostrar que tiene a solución

$$ \mu = -R^{-1} \left(N + Q_T B\right)^\top \chi. \tag{7} $$

Sustituyendo $(7)$ en la función de costes de $(6)$ da el coste mínimo para pasar de $t = T - \delta$ a $t = T$ dado $x(T - \delta)$

$$ \label{eq:optimal_cost_end} \left.J_{\min}\right|_{T-\delta}^T = \chi^\top \left[Q_T + \delta\left(Q + A^\top Q_T + Q_T A - (N + Q_T B) R^{-1} (N + Q_T B)^\top\right)\right] \chi. \tag{8} $$

Al considerar el siguiente paso temporal infinitesimalmente pequeño hacia atrás en el tiempo se encuentra el mismo tipo de problema, sólo que el coste terminal definido con $Q_T$ se sustituye por $(8)$ . La matriz $P(t)$ se define como el equivalente $Q_T$ en el momento $t$ Por lo tanto $P(T) = Q_T$ . El término añadido a $Q_T$ en $(8)$ es proporcional a $\delta$ por lo que la actualización de $P(t)$ interpretándolo como el método de Euler, también se puede escribir como la siguiente ecuación diferencial matricial

$$ -\dot{P} = Q + A^\top P + P\,A - \left(N + P\,B\right) R^{-1} \left(N + P\,B\right)^\top, \tag{9} $$

que es una ecuación diferencial de Riccati. Se puede observar que el signo menos delante de $\dot{P}$ está ahí porque empieza en $P(T)=Q_T$ y luego va hacia atrás en el tiempo. Utilizando $P(t)$ , $x(t)$ y $u(t)$ en lugar de $Q_T$ , $\chi$ y $\mu$ respectivamente la solución de control óptimo mostrada en $(7)$ puede generalizarse a

$$ u(t) = -R^{-1} \left(N + P(t)\,B\right)^\top x(t). $$

Se puede observar que $x(\tau)^\top P(\tau)\,x(\tau)$ es igual al coste mínimo de $t=\tau$ a $t=T$ dado $x(\tau)$ . Para el problema de horizonte infinito $T = \infty$ el estado final $x$ y, por tanto, también la entrada $u$ se puede suponer que va a cero, por lo que $Q_T$ no tendría sentido. En cambio, se puede suponer que $P$ converge a un valor constante, que para cualquier cantidad finita de tiempo permanecerá constante. Este valor constante para $P$ se puede obtener fijando $(9)$ a cero

$$ Q + A^\top P + P\,A - \left(N + P\,B\right) R^{-1} \left(N + P\,B\right)^\top = 0, \tag{10} $$

que también se conoce como ecuación algebraica continua de Riccati (CARE).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X