41 votos

Tomando un derivado con respecto a una matriz

Estoy estudiando acerca de la EM-algoritmo y en un punto en mi referencia el autor está tomando un derivado de una función con respecto a una matriz. Podría alguien explicar cómo hace uno para tomar la derivada de una función con respecto a una matriz...no entiendo la idea. Por ejemplo, supongamos que tenemos un multidimensional de la función de Gauss:

$$f(\textbf{x}, \Sigma, \boldsymbol \mu) = \frac{1}{\sqrt{(2\pi)^k |\Sigma|}}\exp\left( -\frac{1}{2}(\textbf{x}-\boldsymbol \mu)^T\Sigma^{-1}(\textbf{x}-\boldsymbol \mu)\right),$$

donde $\textbf{x} = (x_1, ..., x_n)$, $\;\;x_i \in \mathbb R$, $\;\;\boldsymbol \mu = (\mu_1, ..., \mu_n)$, $\;\;\mu_i \in \mathbb R$ y $\Sigma$ $n\times n$ matriz de covarianza.

¿Cómo se calculan las $\displaystyle \frac{\partial f}{\partial \Sigma}$? ¿Qué acerca de la $\displaystyle \frac{\partial f}{\partial \boldsymbol \mu}$ o $\displaystyle \frac{\partial f}{\partial \textbf{x}}$ (no Son estos dos, en realidad sólo casos especiales de la primera)?

Thnx por cualquier ayuda. Si usted se está preguntando dónde tengo esta pregunta en mi mente, tengo que partir de la lectura de esta referencia: (página 14)

http://ptgmedia.pearsoncmg.com/images/0131478249/samplechapter/0131478249_ch03.pdf

ACTUALIZACIÓN:

He añadido la parte concreta de mi referencia, si alguien está interesado :) me puso de relieve las partes donde me confundí, es decir, la parte donde el autor se toma la derivada con respecto a una matriz (el sigma en la imagen también es una matriz de covarianza. El autor es la estimación de los parámetros óptimos para el modelo de mezcla de Gaussianas, mediante el EM-algoritmo):

$Q(\theta|\theta_n)\equiv E_Z\{\log p(Z,X|\theta)|X,\theta_n\}$

enter image description here

36voto

user88595 Puntos 3513

No es la derivada con respecto a una matriz de la realidad. Es el derivado de la $f$ con respecto a cada elemento de una matriz y el resultado es una matriz.

Aunque los cálculos son diferentes, es la misma idea, como una matriz Jacobiana. Cada entrada es un derivado con respecto a una variable distinta.

Lo mismo sucede con las $\frac{\partial f}{\partial \mu}$, es un vector hecho de derivados con respecto a cada elemento de a $\mu$.

Usted puede pensar en ellos como $$\bigg[\frac{\partial f}{\partial \Sigma}\bigg]_{i,j} = \frac{\partial f}{\partial \sigma^2_{i,j}} \qquad \text{and}\qquad \bigg[\frac{\partial f}{\partial \mu}\bigg]_i = \frac{\partial f}{\partial \mu_i}$$ donde $\sigma^2_{i,j}$ $(i,j)$th la covarianza $\Sigma$ $\mu_i$ $i$ésimo elemento de la media del vector $\mu$.

10voto

TrialAndError Puntos 25444

Usted puede ver esto en la misma forma que lo haría ver una función de cualquier vector. Una matriz es simplemente un vector en una normativa espacio donde la norma puede ser representado en cualquier número de maneras. Una posible norma sería la raíz cuadrada media de los coeficientes; otra sería la suma de los valores absolutos de la matriz de coeficientes. Otra es la norma de la matriz como un operador lineal en un espacio vectorial con su propia norma.

Lo significativo es que el invertible matrices son un conjunto abierto; por lo que un derivado puede tener sentido. Lo que tienes que hacer es encontrar una manera aproximada $$ f(x,\Sigma + \Delta\Sigma,\mu)-f(x,\Sigma,\mu)$$ as a linear function of $\Delta\Sigma$. Me gustaría utilizar una potencia de serie para encontrar una aproximación lineal. Por ejemplo, $$ (\Sigma+\Delta\Sigma)^{-1}=\Sigma^{-1}(I+(\Delta\Sigma) \Sigma^{-1})^{-1} =\Sigma^{-1} \sum_{n=0}^{\infty}(-1)^{n}\{ (\Delta\Sigma)\Sigma^{-1}\}^{n} \approx \Sigma^{-1}(I-(\Delta\Sigma)\Sigma^{-1})$$ Dicha serie converge para $\|\Delta\Sigma\|$ lo suficientemente pequeño (usando cualquier norma que usted elija.) Y, en el idioma de los derivados, $$ (\frac{d}{d\Sigma} \Sigma^{-1})\Delta\Sigma = -\Sigma^{-1}(\Delta\Sigma)\Sigma^{-1} $$ Recuerde, que la derivada es un operador lineal en $\Delta\Sigma$; si entrecierra los ojos casi se puede ver el clásico plazo $\frac{d}{dx}x^{-1} =-x^{-2}$. La cadena de reglas para los derivados de aplicar. Así es como usted puede manejar la exponencial compuesta con la inversión de matrices.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X