11 votos

Seguimiento de minimización con restricciones

Positiva semi-definida matrices $A,B$, ¿cómo puedo encontrar un $X$ que minimiza $\text{Trace}(AX^TBX$) bajo 'o' una de estas restricciones:

a) Suma de los cuadrados de la distancia Euclídea-las distancias entre los pares de filas en $X$ es una constante $\nu$.

o

b) $X$ es ortogonal.

No es un problema de hw - a pesar de que el estilo de escritura puede sugerir. Todas las matrices tienen real de las entradas y $A,B$ son de la plaza, mientras $X$ es rectangular. Gracias.

Esto es lo que tengo:

Definir $B=F^{T}F$. Definir $Y=FX$. Usted consigue el problema anterior como \begin{align} \min_{Y}~ \text{trace}(AY^{T}Y) \end{align}

Pero ahora quiero $X^*$ que minimiza el problema original. Esto es lo que me confunde!

16voto

Chris Ballance Puntos 17329

Si usted quiere resolver el problema de minimización de forma individual en cada uno de los dos restringida de los casos, entonces (b) puede ser reducido a una larga problema resuelto. [Edit: por "(b) $X$ es ortogonal", supongo que quieres decir $X$ ha ortonormales columnas. Si las columnas de a $X$ sólo deberán ser ortogonales en lugar de ortonormales, entonces el mínimo rastro es claramente $0$, la cual se alcanza cuando se $X=0$.]

Supongamos $A$ $m\times m$ $B$ $n\times n$ (por lo tanto,$X$$n\times m$). Podemos suponer que la $A,B$ $X$ tienen el mismo tamaño, porque si $X$ es "amplia" ($n<m$), podemos transformar el problema a la forma $\min\mathrm{tr}(AQ^T\tilde{B}Q)$ $QQ^T=I$ donde $A,\tilde{B}$ $Q$ tienen el mismo tamaño: \begin{align} AX^TBX &= A\underbrace{[X^T\ Y^T]}_{Q^T} \underbrace{\begin{bmatrix}B\\&0_{(m-n)\times(m-n)}\end{bmatrix}}_{\tilde{B}} \underbrace{\begin{bmatrix}X\\ Y\end{bmatrix}}_{Q} = AQ^T\tilde{B}P. \end{align} La solución de $X$ para el problema original será entonces una submatriz de la solución de $Q$ a la transformada problema, o más específicamente, $$X=(I_n,\,0_{n\times(m-n)})Q.$$ Una transformación similar puede llevarse a cabo si $X$ es "alto" y el tamaño de $B$ es mayor que el tamaño de $A$.

A continuación, como $A$ $B$ son positivas semidefinite, podemos ortogonalmente diagonalize a su autovalor de las matrices. Por lo tanto, vamos a$A=U\Lambda U^T$$B=V\Sigma V^T$, donde los autovalores (he.e las entradas de la diagonal) de $\Lambda$ están dispuestos en orden ascendente y las de $B$ están dispuestos en orden descendente: \begin{align} \Lambda&=\mathrm{diag}(\lambda_1,\ldots,\lambda_n):=\mathrm{diag}(\lambda^\uparrow_1(A),\ldots,\lambda^\uparrow_n(A)),\\ \Sigma&=\mathrm{diag}(\sigma_1,\ldots,\sigma_n):=\mathrm{diag}(\lambda^\downarrow_1(B),\ldots,\lambda^\downarrow_n(B)). \end{align} Poner $\tilde{Q}=V^TQU$, obtenemos $$\min\mathrm{tr}(AQ^T\tilde{B}Q)=\min\mathrm{tr}(\Lambda\tilde{Q}^T\tilde{\Sigma}\tilde{Q}).$$ En otras palabras, mediante la absorción de $U$ $V$ a $Q$, que además puede suponer que $A$ $B$ son no negativos diagonal de las matrices.

Hemos transformado nuestro problema en una mejor forma. Ahora es el tiempo para resolverlo. Hay dos más populares enfoques para resolver este problema. Uno se ve más elegante y el otro tiene una aplicación más amplia.

El enfoque más elegante hace uso del Teorema de Birkhoff. En primer lugar, vamos a $\tilde{Q}=(q_{ij})$. A continuación, $\tilde{Q}\circ \tilde{Q}=(q_{ij}^2)$ es doblemente estocástica de la matriz. Por lo tanto \begin{align} \min_{\tilde{Q}\tilde{Q}^T=I} \mathrm{tr}(\Lambda \tilde{Q}^T\Sigma\tilde{Q}) &=\min_{\tilde{Q}\tilde{Q}^T=I} \sum_{i,j}\sigma_i\lambda_jq_{ij}^2\\ &\ge\min_S \sum_{i,j}\sigma_i\lambda_js_{ij};\ S=(s_{ij}) \textrm{ is doubly stochastic}\,\ldots(\ast). \end{align} Observar que $\sum_{i,j}\sigma_i\lambda_js_{ij}$ es una función lineal en $S$ y el conjunto de todos los doblemente estocástica de las matrices es compacto y convexo. Por lo tanto $\min\limits_S \sum_{i,j}\sigma_i\lambda_js_{ij}$ debe producirse en un punto extremo de este conjunto convexo. Sin embargo, por el Teorema de Birkhoff, los puntos extremos de este conjunto convexo son exactamente todas las matrices de permutación. Y una matriz de permutación, por supuesto, es real ortogonal. Por lo tanto, la igualdad tiene en $(\ast)$ por encima y $\min\limits_{\tilde{Q}\tilde{Q}^T=I} \mathrm{tr}(\Lambda \tilde{Q}^T\Sigma\tilde{Q})$ es el mínimo de $\mathrm{tr}(\Lambda P^T\Sigma P)$ sobre todas las matrices de permutación $P$. Como las entradas de la diagonal de a $\Lambda$ $\Sigma$ son no negativos y dispuestos en pedidos de enfrente, el mínimo global se produce en $\tilde{Q}=P=I$ o $Q=VU^T$, lo que se traduce a $X=(I_n,\,0_{n\times(m-n)})VU^T$ al $X$ es amplia.

El aparentemente menos elegante enfoque hace uso de cálculo. Los principales pasos son como sigue:

  1. Conjunto de primera derivada de la $\mathrm{tr}\ \Lambda \tilde{Q}^T \Sigma \tilde{Q}$ (con respecto al $\tilde{Q}$, sujeto a $\tilde{Q}^T\tilde{Q}=I$) a cero da $\mathrm{tr}(-\Lambda \tilde{Q}^TK\Sigma \tilde{Q} + \Lambda \tilde{Q}^T \Sigma K\tilde{Q})=0$ para todos sesgo de simetría de la matriz de $K$. Por lo tanto $M=-\Sigma \tilde{Q}\Lambda \tilde{Q}^T + \tilde{Q}\Lambda \tilde{Q}^T \Sigma$ es una matriz simétrica.
  2. Por definición, sin embargo, $M$ es sesgar-simétrica. Por lo tanto $M=0$, es decir, $\tilde{Q}\Lambda \tilde{Q}^T\Sigma$ es simétrica.
  3. Ahora, supongamos que el $2n$ diagonal entradas en $\Lambda$ $\Sigma$ son todos distintos de cero y distinto. Desde $\tilde{Q}\Lambda \tilde{Q}^T\Sigma$ es simétrica, $\tilde{Q}$ debe ser una matriz de permutación. Por lo tanto obtenemos el mismo resultado que en el enfoque anterior. Cuando las entradas de $\Lambda$ $\Sigma$ no son todos distintos, podemos considerar dos secuencias de no negativo de la diagonal de las matrices de $\{\Lambda_n\}$ $\{\Sigma_n\}$ tal que $\Lambda_n\rightarrow\Lambda,\ \Sigma_n\rightarrow\Sigma$$n\rightarrow\infty$, y para cada una de las $n$ $2n$ las entradas de la diagonal de a $\Lambda_n$ $\Sigma_n$ son cero y distinto. Así, podemos llegar a nuestra conclusión deseada por una continuidad en el argumento.

Este segundo enfoque requiere más trabajo (debido a que no tenemos agradable teorema de la que depende), pero yo creo que la técnica involucrados (matriz de cálculo) es aplicable a más problemas y por lo tanto más útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X