1 votos

Definición del hessiano de una función que toma como entrada matrices generales

Estoy tratando de analizar problemas de optimización de la forma $$\text{Minimize: }||A - XY||^{2}_{F}$$ donde $A$ es de tamaño [m x n], $X$ es de tamaño [m x k], $Y$ es de tamaño [k x n], $k\le min(m,n)$ y $A$ , $X$ y $Y$ contienen sólo números reales. Se sabe que en el caso general este problema no es convexo, pero varias variantes del mismo sí lo son (el Análisis de Componentes Principales puede formularse así, por ejemplo). Mi pregunta se refiere a la formulación de la matriz hessiana de este tipo de sistema.

Utilizando el libro de cocina de matrices y otras referencias en línea, he calculado el hessiano de la siguiente manera $$H(f(X,Y)) = \left( \begin{array}{ccc} -2YY^{T} & -2A + 4XY \\ -2A + 4XY & -2X^{T}X \end{array} \right)$$ con $f(X,Y) = ||A - XY||^{2}_{F}$ . Estos son los pasos que utilicé para llegar a esta forma. $$\frac{\partial f}{\partial X} = -2(A - XY)Y^{T}, \frac{\partial f}{\partial Y} = -2X^{T}(A - XY) \\\frac{\partial^{2} f}{\partial X^{2}} = -2YY^{T}, \frac{\partial^{2} f}{\partial Y^{2}} = -2X^{T}X\\\frac{\partial^{2} f}{\partial X \partial Y} = -2A + 4XY, \frac{\partial^{2} f}{\partial Y \partial X} = -2A + 4XY$$

Mi primera pregunta es si esto es correcto o no (estoy moderadamente seguro de que los parciales en términos de sólo X o Y son correctos, pero mucho menos seguro en los otros). Mi segunda pregunta es si lo anterior es correcto, ¿significa eso que la matriz hessiana es indefinida cuando $A$ no es cuadrado? Parece que es así porque cuando $A$ es rectangular $-2YY^{T}$ y $-2X^{T}X$ son de diferentes dimensiones, lo que hace que el hessiano sea una matriz de tamaño $\left( \begin{array}{ccc} [m \times m] & [m \times n] \\ [m \times n] & [n \times n] \end{array} \right)$ Pero soy relativamente nuevo en los conceptos del cálculo matricial, así que no sé si me he perdido algo (por ejemplo, ¿se supone que uno de los parciales simétricos está transpuesto?).

1voto

JeanMarie Puntos 196

Me temo que su fórmula para el hessiano no es correcta.

Voy a mostrar aquí una solución precisa componente por componente en el caso particular de $2 \times 2$ matrices, en desacuerdo con su solución general.

(No pretendo en lo que sigue dar una solución general).

Convenciones de anotación:

$$A=\begin{bmatrix} p & q\\ r & s \end{bmatrix} \ \ \ X=\begin{bmatrix} a & b\\ c & d \end{bmatrix} \ \ \ Y=\begin{bmatrix} e & f\\ g & h \end{bmatrix} $$

La expresión a minimizar es el cuadrado de la norma de Frobenius de $A-XY$ es decir,

$$s \ = \ (p - a e - b g)^2 + (q - a f - b h)^2 + (r - c e - d g)^2 + (s - c f - d h)^2$$

donde las variables son $a,b,c,d,e,f,g,h$ ; $p,q,r,s$ son números fijos.

La parte superior izquierda del hessiano ( $4 \times 4$ bloque de derivadas parciales de segundo orden con respecto a las variables $a,b,c,d$ ) se obtiene mediante cálculos sencillos (con Mathematica, lo confieso)

$$\begin{bmatrix} 2YY^T & 0\\ 0 & 2YY^T \end{bmatrix} \ \ \text{instead of} \ \ -2YY^T$$

La presencia de $0$ bloques es comprensible: por ejemplo $\dfrac{\partial^2 s}{\partial a \partial c}$ es claramente cero.

El bloque superior derecho es

$$2\begin{bmatrix} 2 a e + b g - p & 2 a f + b h - q & b e & b f\\ a g & a h & a e + 2 b g - p & a f + 2 b h - q\\ 2 c e + d g - r & 2 c f + d h - s & d e & d f\\ c g & c h & c e + 2 d g - r & c f + 2 d h - s \end{bmatrix}$$

donde todo parece revuelto, y bastante alejado de sus resultados (incluso si se encuentra algo parecido a $XY-A$ ).

Pregunta : ¿No tienes ninguna suposición sobre las matrices $A$ , $X$ , $Y$ ? (no simétrico, no definido positivo...) ?

Nota: : Me hubiera gustado seguir tu cálculo y detectar un posible error pero, sinceramente, no domino la técnica de la derivación con respecto a las matrices.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X