1 votos

demostrar que el estimador de máxima verosimilitud para la matriz de covarianza realmente ES un máximo

Este me ha estado volviendo loco durante un tiempo, y parece que no hay ningún lugar que realmente se ocupa de este tema que he sido capaz de encontrar y entender.

Estoy tratando de derivar el estimador de máxima verosimilitud para la distribución gaussiana multivariante. Sé qué forma $\hat \Sigma$ debería tener, después de tomar las derivadas y ponerlas a cero--el problema es que no puedo demostrar que ese punto crítico es realmente un máximo.

Lo que tengo hasta ahora es esto: es suficiente para resolver

$$ \min_{\Sigma \succeq 0 }f(\Sigma):= \min_{\Sigma \succeq 0 } -\log |\Sigma^{-1}| + (x - \mu)^T \Sigma^{-1} (x - \mu).$$

Además, a partir del teorema del espectro, encontramos que $\Sigma^{-1}$ siendo PSD, satisface

$$ \Sigma^{-1} = PDP^T $$

para una matriz ortogonal $P$ y la matriz diagonal $D = Diag(\lambda_1, \ldots, \lambda_n)$ donde todos los valores propios $\lambda_i \geq 0$ y son reales.

Escribir $(x - \mu)^T \Sigma^{-1} (x - \mu) = (x - \mu)^T PDP^T (x - \mu) = (P^T (x - \mu))^TD(P^T (x - \mu)):= v^TDv = \sum_i v_i^2\lambda_i.$ ,

El problema de minimización se reduce entonces a $$ \min_{\Sigma \succeq 0 } -\log |\Sigma^{-1}| + (x - \mu)^T \Sigma^{-1} (x - \mu) = \min_{\Sigma \succeq 0 } -\log \prod_i \lambda_i + \sum_i v_i^2\lambda_i. $$

A partir de aquí, no sé a dónde ir. Intenté apelar a la limitación de nivel de la última expresión con respecto a $\boldsymbol\lambda = (\lambda_1, \ldots, \lambda_n)$ para demostrar que tiene que existir un minimizador; probando esto, podríamos argumentar que el minimizador tiene que ocurrir en un punto crítico, y como sólo hay un punto crítico para $f(\Sigma)$ , es decir, la que se encuentra fijando una derivada con respecto a $\Sigma$ igual a cero, tiene que ser el minimizador.

Pero me di cuenta de que no podemos parametrizar todas las matrices PSD considerando sólo los valores propios, así que lo que tengo claramente no funciona. El $v_i$ también puede variar para dar diferentes matrices PSD.

¿Puede alguien demostrar realmente que la MLE para $\Sigma$ que ocurre en el punto crítico de la función de probabilidad, es en realidad un maximizador de la probabilidad (en mi caso, un minimizador de $f$ )?

Gracias.

1voto

Henry Puntos 1

Reparametrización $H=\Sigma^{-1}$ y el ajuste $v_i=x_i-\mu$ buscamos el mínimo de $$f(H)=-n\log|H|+\sum_i^nv_i^THv_i$$ en el conjunto de matrices positivas definidas.

Tomemos la primera diferencial sobre el espacio de las matrices simétricas. $$df(H)=-\operatorname{tr}(nH^{-1}dH)+\operatorname{tr}(\sum_i^nv_iv_i^TdH)$$ Poniendo el diferencial a 0 y resolviendo $$\hat H=n(\sum_i^nvv^T)^{-1}\ \text{thus}\ \hat\Sigma=\frac{1}{n}\sum_i^nvv^T$$ Necesitamos que el número de vectores independientes sea al menos igual al tamaño de la matriz $\Sigma$ para que esta inversa exista. Si es así, entonces $H$ es positiva definida.

Ahora encontramos la segunda diferencial sobre el espacio de las matrices simétricas. $$d^2f(H)=d[-\operatorname{tr}(nH^{-1}dH)]+0=-n\operatorname{tr}(dH^{-1}dH)=n\operatorname{tr}(H^{-1}dHH^{-1}dH)=$$ $$=n\operatorname{tr}((H^{-1}dH)^2)$$ Tenga en cuenta que $H^{-1}dH$ es similar a la matriz simétrica porque $dH$ es simétrica (tomamos la diferencial sobre matrices simétricas solamente), $H^{-1}$ es positiva definida y $$H^{-1}dH=H^{-\frac{1}{2}}H^{-\frac{1}{2}}dH=H^{-\frac{1}{2}}(H^{-\frac{1}{2}}dHH^{-\frac{1}{2}})H^{\frac{1}{2}}$$ Así que $H^{-1}dH$ tiene valores propios reales ya que los valores propios son invariantes bajo la similitud y las matrices simétricas tienen valores propios reales.

Ahora se puede ver que por la propiedad de la traza que es la suma de los valores propios, para las potencias es potencias de los valores propios $$d^2f(H)=n\operatorname{tr}((H^{-1}dH)^2)=n\sum_j\lambda_j^2(H^{-1}dH)\geq0$$ para cualquier simétrico $dH$ . Por tanto, la segunda diferencial es semidefinida positiva, lo que significa que la función es convexa. Para las funciones convexas tenemos que el punto crítico es el mínimo global.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X