Este me ha estado volviendo loco durante un tiempo, y parece que no hay ningún lugar que realmente se ocupa de este tema que he sido capaz de encontrar y entender.
Estoy tratando de derivar el estimador de máxima verosimilitud para la distribución gaussiana multivariante. Sé qué forma $\hat \Sigma$ debería tener, después de tomar las derivadas y ponerlas a cero--el problema es que no puedo demostrar que ese punto crítico es realmente un máximo.
Lo que tengo hasta ahora es esto: es suficiente para resolver
$$ \min_{\Sigma \succeq 0 }f(\Sigma):= \min_{\Sigma \succeq 0 } -\log |\Sigma^{-1}| + (x - \mu)^T \Sigma^{-1} (x - \mu).$$
Además, a partir del teorema del espectro, encontramos que $\Sigma^{-1}$ siendo PSD, satisface
$$ \Sigma^{-1} = PDP^T $$
para una matriz ortogonal $P$ y la matriz diagonal $D = Diag(\lambda_1, \ldots, \lambda_n)$ donde todos los valores propios $\lambda_i \geq 0$ y son reales.
Escribir $(x - \mu)^T \Sigma^{-1} (x - \mu) = (x - \mu)^T PDP^T (x - \mu) = (P^T (x - \mu))^TD(P^T (x - \mu)):= v^TDv = \sum_i v_i^2\lambda_i.$ ,
El problema de minimización se reduce entonces a $$ \min_{\Sigma \succeq 0 } -\log |\Sigma^{-1}| + (x - \mu)^T \Sigma^{-1} (x - \mu) = \min_{\Sigma \succeq 0 } -\log \prod_i \lambda_i + \sum_i v_i^2\lambda_i. $$
A partir de aquí, no sé a dónde ir. Intenté apelar a la limitación de nivel de la última expresión con respecto a $\boldsymbol\lambda = (\lambda_1, \ldots, \lambda_n)$ para demostrar que tiene que existir un minimizador; probando esto, podríamos argumentar que el minimizador tiene que ocurrir en un punto crítico, y como sólo hay un punto crítico para $f(\Sigma)$ , es decir, la que se encuentra fijando una derivada con respecto a $\Sigma$ igual a cero, tiene que ser el minimizador.
Pero me di cuenta de que no podemos parametrizar todas las matrices PSD considerando sólo los valores propios, así que lo que tengo claramente no funciona. El $v_i$ también puede variar para dar diferentes matrices PSD.
¿Puede alguien demostrar realmente que la MLE para $\Sigma$ que ocurre en el punto crítico de la función de probabilidad, es en realidad un maximizador de la probabilidad (en mi caso, un minimizador de $f$ )?
Gracias.