10 votos

Stein ' pérdida de s para el estimador de covarianza normal multivariante

En Santiago y Stein (1961) los autores consideran que la siguiente función de pérdida para un estimador $\hat{\Sigma}$ de la matriz de covarianza $\Sigma$ de una distribución normal multivariante:

$$L(\hat{\Sigma}) = tr[\hat{\Sigma}\Sigma^{-1}] - \log|\hat{\Sigma}\Sigma^{-1}| - p.$$

Esta pérdida de la función ya ha sido referido como `Stein pérdida' en varios papeles en la regularización de la estimación de la covarianza. Es allí cualquier intuitiva justificación para esta función de pérdida?

Me di cuenta de que la pérdida de función se asemeja a la KL divergencia entre dos distribuciones normales multivariadas con el mismo medio y con las covarianzas $\hat{\Sigma}$$\Sigma$:

$$2KL(N(0,\hat{\Sigma}) || N(0,\Sigma)) = \log|\hat{\Sigma}^{-1}\Sigma| - C\int_x [x^T (\hat{\Sigma}^{-1} - \Sigma^{-1})x ]\exp\{-\frac{1}{2}x^T \hat{\Sigma}^{-1} x\} dx$$

donde

$$C = (2\pi)^{-k/2}|\hat{\Sigma}^{-1}|^{1/2}$$

sin embargo no estoy seguro de cómo simplificar la integral.

9voto

Eran Medan Puntos 193

He trabajado los detalles omitidos de JMS de la respuesta.

Deje $P_0 = \Sigma_0^{-1}$ $P_1 = \Sigma_1^{-1}$

Tenemos

$$KL(N_0||N_1) = \int N_0(x) \frac{1}{2}[\ln |P_0| - \ln|P_1| + (x-\mu_0)^T P_0 (x-\mu_0) - (x-\mu_1)^T P_1 (x-\mu_1)] dx$$ $$ = \frac{1}{2}\ln|P_0\Sigma_1| - \frac{1}{2} \mathbb{E}[(x-\mu_0)^T P_0 (x-\mu_0) - (x-\mu_1)^T P_1 (x-\mu_1)] $$ $$ = \frac{1}{2}\ln|P_0\Sigma_1| + \frac{1}{2}(\mu_0-\mu_1)^T P_1 (\mu_0-\mu_1)- \frac{1}{2} \mathbb{E}[x^T P_0 x - x^T P_1 x - \mu_0^T (P_0 - P_1) \mu_0] $$ $$ = \frac{1}{2}\ln|P_0\Sigma_1| + \frac{1}{2}(\mu_0-\mu_1)^T P_1 (\mu_0-\mu_1)- \frac{1}{2} \mathbb{E}[(x-\mu_0)^T (P_0-P_1) (x-\mu_0)] $$

Para simplificar la notación, suponga $\mu_0 = 0$. Queda por demostrar que $$\mathbb{E}[x^T P_0x-x^T P_1 x] = k - tr(P_1\Sigma_0)$$

Pero $x^T P_0 x = x^T \Sigma_0 x$ tiene una distribución Chi-squared y por lo tanto tiene la expectativa $k$. Mientras tanto,

$$\mathbb{E}[x^T P_1 x] = \mathbb{E}[tr(x^T P_1 x)] = \mathbb{E}[tr(P_1 xx^T )]= tr(\mathbb{E}(P_1 xx^T)) = tr(P_1 \Sigma_0)$$

donde la segunda igualdad se puede obtener mediante el tratamiento de las $x$ como una matriz cuadrada acolchado por ceros.

6voto

Shawn Puntos 8120

Wikipedia parece confirmar su sospecha; Pérdida de Stein es el KLD (hasta un multiplicador de 1/2):

$$D_{KL}(\mathcal{N}_0||\mathcal{N}_1)=\frac{1}{2}\bigg(\text{tr}(\Sigma_1^{-1}\Sigma_0)+(\mu_1-\mu_0)^T \Sigma_1^{-1}(\mu_1-\mu_0) - \ln\bigg(\frac{\text{det}\Sigma_0}{\text{det}\Sigma_1}\bigg)-k\bigg)$$

Confieso no haber hecho las matemáticas, pero estoy bastante seguro de que puede organizar términos por lo que es equivalente a la expectativa de una forma cuadrática del gauss rv

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X