En el capítulo 2 del Libro de cocina Matrix hay una buena revisión del cálculo de matrices que da un montón de identidades útiles que ayudan con los problemas que uno encontraría haciendo probabilidad y estadística, incluyendo reglas para ayudar a diferenciar la probabilidad gaussiana multivariada.
Si tienes un vector aleatorio ${\boldsymbol y}$ que es normal multivariante con el vector de la media ${\boldsymbol \mu}$ y la matriz de covarianza ${\boldsymbol \Sigma}$ , a continuación, utilice la ecuación (86) en el libro de cocina de la matriz para encontrar que el gradiente de la probabilidad logarítmica ${\bf L}$ con respecto a ${\boldsymbol \mu}$ es
$$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \mu}} &= -\frac{1}{2} \left( \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) }{\partial {\boldsymbol \mu}} \right) \nonumber \\ &= -\frac{1}{2} \left( -2 {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) \right) \nonumber \\ &= {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \end{align}$$
Te dejo que diferencies esto de nuevo y que encuentres la respuesta para ser $-{\boldsymbol \Sigma}^{-1}$ .
Como "crédito extra", utiliza las ecuaciones (57) y (61) para encontrar que el gradiente con respecto a ${\boldsymbol \Sigma}$ es
$$ \begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( \frac{ \partial \log(|{\boldsymbol \Sigma}|)}{\partial{\boldsymbol \Sigma}} + \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu}\right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y}- {\boldsymbol \mu}\right) }{\partial {\boldsymbol \Sigma}} \right)\\ &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) \end{align} $$
He omitido muchos de los pasos, pero he hecho esta derivación utilizando sólo las identidades que se encuentran en el libro de recetas de matrices, así que dejaré que tú rellenes los huecos.
He utilizado estas ecuaciones de puntuación para la estimación de máxima verosimilitud, así que sé que son correctas :)
1 votos
Parte de tu problema puede ser que tu expresión para la log-verosimilitud tiene un error - tienes $|\Sigma|$ donde debería tener $\log(|\Sigma|)$ . Además, por casualidad, ¿quieres decir ${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y)$ ?
0 votos
Sí, tienes razón, lo siento. ¿Por qué hay un signo negativo delante de la derivada parcial?
0 votos
Sólo aclaraba lo del signo negativo porque, la segunda derivada negativa es la información de fisher observada, que suele ser de interés. Además, por mi propio cálculo, estoy encontrando que $\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y) = -\Sigma^{-1}$
0 votos
Entonces, ¿cuál es el procedimiento general para la función discreta/continua? Tomar el logaritmo, escribir en forma de expansión de Taylor, diferenciar dos veces con respecto a $\theta$ . La información de Fisher no suele ser cierta en la mayoría de las otras densidades, ¿verdad?
0 votos
También hice un ejemplo beta, parece que el ${\Sigma}^{-2}$ es siempre la segunda derivada parcial NEGATIVA.
0 votos
¿A qué procedimiento general se refiere? En mi respuesta a continuación, sólo tomé la derivada del logaritmo de la probabilidad con respecto a ${\boldsymbol \mu}$ y ${\boldsymbol \Sigma}$ . Además, la información de Fisher se define para otras distribuciones - se define como el producto exterior del gradiente esperado (que resulta ser igual a la hessiana negativa esperada) de la log-verosimilitud - no estoy seguro de lo que querías decir con "la información de Fisher no es generalmente verdadera la mayoría de las otras densidades, ¿verdad?"
0 votos
Lo siento, he sido imprecisa. Estoy aprendiendo la aproximación de laplace a un modo posterior. La idea detrás de eso es hacer una expansión de Taylor en el modo. En la expansión de Taylor, todos los términos y derivadas son positivos, por lo tanto, no entiendo por qué el signo NEGATIVO.
0 votos
@User En la expansión de Taylor alrededor de un modo (un local máximo ), es mejor que las primeras derivadas sean todas cero y que las segundas derivadas negativo (o cero), ya que en caso contrario la función es convexa hacia arriba ¡y estás en un local mínimo!
0 votos
@whuber ¡Gracias, lo tengo! entonces, ES el caso de que la primera derivada=0, la segunda derivada<=0.
0 votos
@whuber: en este caso ${{\Sigma }^{-1}}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y)$ por qué le ponemos un signo negativo delante. ¿Es la varianza siempre del negativo de la segunda derivada parcial? Veo que esto sucede en Beta también.
3 votos
@usuario Como he señalado, la segunda derivada del logaritmo debe tienen valores propios no positivos. Sí, existen vínculos entre las varianzas y las segundas derivadas parciales negativas, como revela la teoría de la estimación de máxima verosimilitud, la información de Fisher, etc. -Macro se ha referido a ello anteriormente en estos comentarios.