Necesito a "aprender" la distribución de un bivariante de gauss con algunas muestras, pero una buena hipótesis sobre el estado de la distribución, por lo que me gustaría usar el enfoque bayesiano.
He definido mi antes: $$ \mathbf{P}(\mathbf{\mu}) \sim \mathcal{N}(\mathbf{\mu_0},\mathbf{\Sigma_0}) $$ $$ \mathbf{\mu_0} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma_0} = \begin{bmatrix} 16 & 0 \\ 0 & 27 \end{bmatrix} $$
Y mi distribución dada la hipótesis de $$ \mathbf{P}(x|\mathbf{\mu},\mathbf{\Sigma}) \sim \mathcal{N}(\mathbf{\mu},\mathbf{\Sigma}) $$ $$ \mathbf{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma} = \begin{bmatrix} 18 & 0 \\ 0 & 18 \end{bmatrix} $$
Ahora sé que gracias a aquí que para la estimación de la media de la vista de los datos
$$ \mathbf{P} (\mathbf{\mu} | \mathbf{x_1}, \dots , \mathbf{x_n}) \sim \mathcal{N}(\mathbf{\hat{\mu}_n}, \mathbf{\hat{\Sigma}_n})$$
Puedo calcular:
$$ \mathbf{\hat{\mu}_n} = \mathbf{\Sigma_0} \left( \mathbf{\Sigma_0} + {1 \over n} \mathbf{\Sigma} \right) ^ {-1} \left( {1 \over n} \sum_{i=1}^{n} \mathbf{x_i} \right) + {1 \over n} \mathbf{\Sigma} \left( \mathbf{\Sigma_0} + {1 \over n} \mathbf{\Sigma} \right) ^{-1} \mathbf{\mu_0} $$
$$ \mathbf {\hat{\Sigma}_n} = {1 \over n} \mathbf{\Sigma_0} \left( \mathbf{\Sigma_0} + {1 \over n} \mathbf{\Sigma} \right) ^{-1} \mathbf{\Sigma} $$
Ahora viene la pregunta, tal vez me equivoque, pero me parece que $ \mathbf{\Sigma_n} $ es simplemente la matriz de covarianza para la estimación del parámetro de $\mathbf{\mu_n} $, y no la estimación de la covarianza de mis datos. Lo que me gustaría sería calcular también
$$ \mathbf{P} (\mathbf{\Sigma_{n_1}} | \mathbf{x_1}, \dots , \mathbf{x_n}) $$
con el fin de tener una especifica completamente la distribución aprendido de mis datos.
Es esto posible? Ya es resuelto mediante el cálculo de $\mathbf{\Sigma_n}$ y sólo se expresa en el camino equivocado de la fórmula anterior (o simplemente estoy misentrepreting)? Las referencias se agradece. Muchas gracias.
EDITAR
A partir de los comentarios, parece que mi enfoque era "malo", en el sentido de que estaba asumiendo una constante de la covarianza, que se define por $ \mathbf{\Sigma} $. Lo que necesito sería poner un antes también, $ \mathbf{P}(\mathbf{\Sigma}) $, pero no sé qué de distribución que debo usar, y, posteriormente, ¿cuál es el procedimiento para su actualización.