6 votos

Probabilidad conjunta de distribuciones normales multivariadas con dimensiones faltantes

Supongamos que realizar dos experimentos, cada uno mide un subconjunto de los parámetros posibles. Desde experimento #1 yo medir dos parámetros y la estimación de la distribución normal multivariante

$$ \mathbf{X}_1=\left [ x_1,x_2 \right ] $$ $$ \mathbf{X}_1\ \sim\ \mathcal{N}_1(\boldsymbol\mu_1,\, \boldsymbol\Sigma_1) $$ $$ \mu_1=[\mu_1^1,\mu_2^1] $$ $$ \Sigma_1 = \begin{bmatrix} var(x_1^1) & \\ cov(x_2^1,x_1^1) & var(x_2^1)\\ \end{bmatrix} $$ En el experimento #2 me mide tres parámetros y construir una segunda distribución normal multivariante $$ \mathbf{X}_2=\left [ x_2,x_3,x_4 \right ] $$ $$ \mathbf{X}_2\ \sim\ \mathcal{N}_2(\boldsymbol\mu_2,\, \boldsymbol\Sigma_2) $$ $$ \mu_2=[\mu_2^2,\mu_3^2,\mu_4^2] $$ $$ \Sigma_2 = \begin{bmatrix} var(x_2^2)& & \\ cov(x_3^2,x_2^2) & var(x_3^2) & \\ cov(x_4^2,x_2^2) & cov(x_4^2,x_3^2) & var(x_4^2) \end{bmatrix} $$

  • Mi pregunta es ¿cómo puedo calcular la distribución de probabilidad conjunta que describe el completar el espacio $ \mathbf{X}=\left [ x_1, x_2,x_3,x_4 \right ]$?
  • Mi objetivo es utilizar esta distribución de probabilidad conjunta para calcular la probabilidad de que un conjunto de validación y hacer de selección de modelo.

Las fórmulas para calcular el producto de dos multivariante pdf considerar las mismas dimensiones, por eso estoy confundido.

EDITAR: He estado pensando acerca de esto, y aquí es donde estoy en: Como Ken pone en su respuesta, no hemos observado $x_1$ e $x_3$ juntos así que no tenemos presupuesto para $cov(x_1,x_3)$. Por lo que en ausencia de esta información me parece a mí, es mi mejor opción es asumir que los $cov(x_1,x_3)=0$ ?

Si esta suposición tiene sentido, a continuación, puedo utilizar los siguientes medios y covarianzas para estimar el producto? Aviso que soy yo soy "completar" la matriz de covarianza de experimento #1 con las covarianzas observadas en el experimento #2 y viceversa, donde la $x_i^j$ indica el $i$th parámetro observado en el experimento $j$ $$ \mu_1=[\mu_1^1,\mu_2^1,\mu_3^2,\mu_4^2] $$ $$ \Sigma_1 = \begin{bmatrix} var(x_1^1) & & & \\ cov(x_2^1,x_1^1) & var(x_2^1)& & \\ 0 & cov(x_3^2,x_2^2) & var(x_3^2) & \\ 0 & cov(x_4^2,x_2^2) & cov(x_4^2,x_3^2) & var(x_4^2) \end{bmatrix} $$

Y para el experimento #2

$$ \mu_2=[\mu_1^1,\mu_2^2,\mu_3^2,\mu_4^2] $$ $$ \Sigma_2 = \begin{bmatrix} var(x_1^1) & & & \\ cov(x_2^1,x_1^1) & var(x_2^2)& & \\ 0 & cov(x_3^2,x_2^2) & var(x_3^2) & \\ 0 & cov(x_4^2,x_2^2) & cov(x_4^2,x_3^2) & var(x_4^2) \end{bmatrix} $$

2voto

AMH Puntos 16

Asumiendo $cov(x_1,x_3)=0$ es injustificada y que conduce a inconsistencias en su co-varianza de la matriz. En lugar usted puede utilizar MMSE estimadores calculados con base en los datos disponibles para llenar los elementos desconocidos. La covarianza entre $x_1$ e $x_2$ puede ser calculada a partir de la primera medición y la entre $x_2$ e $x_{3,4}$ a partir de la segunda medición. Sospecho que esto sería el resultado de un análisis por @sega_sai si se ha completado.

Supongo un cero significa para las variables cuando escribo MMSE estimadores. Sin embargo, esto no cambia el resultado de la co-varianza.

Estimador MMSE de $X_1$ da $X_2$ puede ser calculado como:

$$ \hat x_1=\frac{cov(x_1,x_2)}{var(x_2)} x_2 $$

$$ \hat{Cov}(x_1,x_3)=Cov(\hat x_1, x_3)=\frac{cov(x_1,x_2) cov(x_2,x_3) }{var(x_2)} $$ No tuve tiempo de probar si esto siempre genera una matriz positiva definida, pero he probado algunos al azar co-varianza de las matrices y se reproduce positiva definida matrices.

clc
for i=1:1000
A=randn(3,3);
C=A'*A;
C_=C;

c_=C(1,2)*C(2,3)/C(2,2);
C_(3,1)=c_;
C_(1,3)=c_;
if det(C_)<0
    disp('Negative det');
    det(C)
    C
    C_
    i
    break
end
end

for i=1:10000
A=randn(4,4);
C=A'*A;
C_=C;


c_=C(1,2)*C(2,3)/C(2,2);
C_(3,1)=c_;
C_(1,3)=c_;

c_=C(1,2)*C(2,4)/C(2,2);
C_(4,1)=c_;
C_(1,4)=c_;
if det(C_)<0
    disp('Negative det');
    det(C)
    C
    C_
    i
    break
end
end
i

2voto

Imansoor Puntos 11

Suponiendo que el uno puede interpretar los resultados de los experimentos a medida que la probabilidad de que los datos se

$P(D_1|{\bf x}) \propto N([x_1,x_2]|\mu_1,\Sigma_1)$

$P(D_2|{\bf x}) \propto N([x_2,x_3,x_4]|\mu_2,\Sigma_2)$

Entonces se puede escribir la parte posterior de dos experimentos combinados (suponiendo que los datos son independientes)

$P({\bf x}|D) \propto P(D_1|{\bf x}) P (D_2|{\bf x}) \pi({\bf x})$

Para determinar la distribución exacta aquí es fácil, si se definen dos matrices de proyección $P_1$ e $P_2$, de tal manera que $[x_1,x_2] = P_1 \bf{x}$y $[x_2,x_3,x_4] = P_2 \bf{x}$

A continuación, el registro posterior es $ -2 \log(P) = (P_1 {\bf x} - \mu_1)^T \Sigma_1^{-1} (P_1 {\bf x} - \mu_1) + (P_2 {\bf x} -\mu_2)^T \Sigma_2^{-1}(P_2 {\bf x} - \mu_2)$

Reordenando obtenemos $$ {\bf x}^T (P_1^T \Sigma_1^{-1} P_1 + P_2^T \Sigma_2^{-1} P_2) {\bf x} - 2 (\mu_1^T \Sigma_1^{-1} P_1 + \mu_2^T \Sigma_2^{-1} P_2 ) {\bf x} + \mu_1^T \Sigma_1^{-1} \mu_1 + \mu_2^T \Sigma_2^{-1} \mu_2$$

Por lo tanto, la posterior en $\bf{x}$ es $$\mathcal{N}((P_1^T \Sigma_1^{-1} P_1 + P_2^T \Sigma_2^{-1}P_2)^{-1} (P_1^T\Sigma_1^{-1}\mu_1+P_2^T\Sigma_2^{-1}\mu_2), (P_1^T \Sigma_1^{-1} P_1 + P_2^T \Sigma_2^{-1} P_2)^{-1})$$

EDITAR:

Al parecer no he entendido lo que el problema original era, así que me fue solucionar algo diferente. Para el problema real en la mano, como ken señaló que no parecen tener suficiente información, sin embargo, usted generación de los resultados si se asume algún tipo de antes en la matriz de covarianza (es decir, Wishart). Entonces Usted puede escribir las probabilidades de dos conjuntos de datos (donde P_1, P_2 son las matrices de proyección) $$P(D_1|\mu,\Sigma) = N(D_1|P_1 \mu,P_1\Sigma P_1^T)$$ $$P(D_2|\mu,\Sigma) = N(D_2|P_1 \mu,P_2\Sigma P_2^T)$$ A continuación, puedes combinarlas con la Wishart antes y maximizar. $$P(\mu,\Sigma|D) \propto \pi(\mu)\pi(\Sigma)P(D_1|\mu,\Sigma) P(D_2|\mu,\Sigma)$$ Estoy seguro de que hay una expresión analítica que sale de esto, pero no tengo tiempo para derivar de ella.

1voto

ken Puntos 323

Realmente, desea recuperar el $4 \times 4$ matriz de covarianza que a usted le he metido tenido que mide todos los $[x_1, x_2, x_3, x_4]$ conjuntamente. Pero tú no. Medía un subconjunto de variables que pasó de la superposición. (solapamiento es muy importante para este problema. Había medido $[x_1, x_2]$ e $[x_3, x_4]$ - luego olvidarse de él, no hay manera de recuperar $4 \times 4$ covarianza.) La idea es que usted tiene los componentes de la matriz X que se midieron a partir de la 1 de experimento, y los componentes de la matriz Y que se miden a partir de la 2ª componente.

$ \left( \begin{matrix} X & X & \_ & \_\\ X & (XY) & Y & Y \\ \_ & Y & Y & Y \\ \_ & Y & Y & Y\\ \end{de la matriz} \right) $

Lo que está preguntando es, ¿hay una manera de llenar las entradas $\_$ en la anterior matriz de covarianza, y es una gran pregunta, y también no es trivial en absoluto.

No sé todos los detalles, pero no es un papel que se ocupa de este problema. Puede ser de ayuda para usted.

http://papers.nips.cc/paper/5467-deterministic-symmetric-positive-semidefinite-matrix-completion.pdf

1voto

Jakobud Puntos 2161

Me gustaría agradecer a todos los que han contribuido a este debate, especialmente @sega_sai, @ken por tomarse el tiempo para implementar y dar un examen crítico.

Como resultado de este debate fructífero me han convergido a la siguiente solución:

  1. La matriz de covarianza se llena con la covarianza/variaciones observadas en los experimentos
  2. Si hay elementos de repetición, a continuación, que son un promedio de
  3. Los elementos que faltan son estimados por la limitada maximización del registro determinante de la matriz de covarianza (he.e la maximización de la entropía). Para este propósito la matriz de covarianza se convierte en una matriz de correlación (como todos los elementos de la diagonal son observados), dando a los límites superior e inferior de [-1 1] para el desconocido fuera de la diagonal de los elementos.
  4. La optimización se asegura de que la matriz de correlación es simétrica (por diseño) y positivo semidefinite (garantizando que todos los autovalores son positivos)
  5. El resultado matriz de correlación se convierten de nuevo a la covarianza y se utiliza para estimar la probabilidad de un conjunto de datos independiente. Esta probabilidad se compara con la probabilidad de que el verdadero (generar) el modelo y el modelo obtenido utilizando Wishart priores (como por @sega_sai).
=== 1 ====
Verdadero modelo de logL: -594.89
Wishart antes de logL: -605.75
max factor Determinante logL: -596.41

=== 2 ====
Verdadero modelo de logL: -525.53
Wishart antes de logL: -558.85
max factor Determinante logL: -531.41

=== 3 ====
Verdadero modelo de logL: -513.15
Wishart antes de logL: -962.17
max factor Determinante logL: -518.87

Para los tres casos (proporcionado por @ken) el determinante de la maximización da significativamente mejor de las probabilidades. Es por eso que estoy aceptando mi propia respuesta, sino que la concesión de la recompensa a @sega_sai por sus esfuerzos en la implementación de la alternativa de solución.

También debo señalar que @Hooman del MMSE ejecución da los mismos resultados para este ejemplo, pero la formulación requiere de una dimensión común que se observa en los dos experimentos (en este caso $x_2$). El determinante de la maximización,sin embargo, no requiere de este y por lo tanto es una solución más general.

La implementación en Matlab de la determinante de la maximización del método se puede acceder aquí: https://pastebin.com/UTkLUUrv

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X