13 votos

¿Cuáles son las distribuciones en el cuadrante positivo k-dimensional con matriz de covarianza parametrizable?

Siguiendo zzk 's pregunta sobre su problema con las simulaciones negativas, me pregunto cuáles son las familias parametrizadas de las distribuciones en el cuadrante k-dimensional positivo, $ \mathbb {R}_+^k$ para el cual la matriz de covarianza $ \Sigma $ se puede establecer.

Como se discutió con zzk a partir de una distribución en $ \mathbb {R}_+^k$ y aplicando la transformación lineal $X \longrightarrow\Sigma ^{1/2} (X- \mu ) + \mu $ no funciona.

9voto

farzad Puntos 4180

Supongamos que tenemos un vector aleatorio normal multivariado $$ ( \log X_1, \dots , \log X_k) \sim N( \mu , \Sigma ) \, , $$ con $ \mu\in\mathbb {R}^k$ y $k \times k$ matriz definida simétrica positiva de rango completo $ \Sigma =( \sigma_ {ij})$ .

Para el lognormal $(X_1, \dots ,X_k)$ no es difícil probar que $$ m_i := \textrm {E}[X_i] = e^{ \mu_i + \sigma_ {ii}/2} \, , \quad i=1, \dots ,k\, , $$ $$ c_{ij} := \textrm {Cov}[X_i,X_j] = m_i \,m_j \,(e^{ \sigma_ {ij}} - 1) \, , \quad i,j=1, \dots ,k\, , $$

y se deduce que $c_{ij}>-m_im_j$ .

Por lo tanto, podemos hacer la pregunta inversa: dado $m=(m_1, \dots ,m_k) \in\mathbb {R}^k_+$ y $k \times k$ matriz definida positiva simétrica $C=(c_{ij})$ satisfaciendo $c_{ij}>-m_im_j$ si dejamos $$ \mu_i = \log m_i - \frac {1}{2} \log\left ( \frac {c_{ii}}{m_i^2} + 1 \right ) \, , \quad i=1, \dots ,k \, , $$ $$ \sigma_ {ij} = \log\left ( \frac {c_{ij}}{m_i m_j} + 1 \right ) \, , \quad i,j=1, \dots ,k \, , $$ tendremos un vector lognormal con los medios y covarianzas prescritas.

La limitación de $C$ y $m$ es equivalente a la condición natural $ \textrm {E}[X_i X_j]>0$ .

4voto

Lev Puntos 2212

En realidad, tengo una solución definitivamente peatonal.

  1. Empieza con $X_1 \sim \text {Ga}( \alpha_ {11}, \beta_ {1})$ y elegir los dos parámetros para ajustar los valores de $ \mathbb {E}[X_1]$ , $ \text {var}(X_1)$ .
  2. Toma $X_2|X_1 \sim \text {Ga}( \alpha_ {21}X_1+ \alpha_ {22}, \beta_ {2})$ y elegir los tres parámetros para ajustar los valores de $ \mathbb {E}[X_2]$ , $ \text {var}(X_2)$ y $ \text {cov}(X_1,X_2)$ .
  3. Toma $X_3|X_1,X_2 \sim \text {Ga}( \alpha_ {31}X_1+ \alpha_ {32}X_2+ \alpha_ {33}, \beta_ {3})$ y elegir los cuatro parámetros para ajustar los valores de $ \mathbb {E}[X_3]$ , $ \text {var}(X_3)$ , $ \text {cov}(X_1,X_3)$ y $ \text {cov}(X_2,X_3)$ .

y así sucesivamente... Sin embargo, dadas las limitaciones de los parámetros y la naturaleza no lineal de las ecuaciones de momento, puede ser que algunos conjuntos de momentos no correspondan a ningún conjunto de parámetros aceptable.

Por ejemplo, cuando $k=2$ termino con el sistema de ecuaciones $$ \beta_1 = \mu_1 / \sigma_1 ^2\,, \quad \alpha_ {11}- \mu_1\beta_1 =0 $$

$$ \alpha_ {22} = \mu_2\beta_2 - \alpha_ {21} \mu_1\ ,, \quad \alpha_ {21} = \dfrac {( \sigma_ {12}+ \mu_1\mu_2 - \mu_2 )}{ \sigma ^2_1+ \mu_1 ^2- \mu_1 } \beta_2 $$ $$ \dfrac {( \sigma_ {12}+ \mu_1\mu_2 - \mu_2 )^2}{( \sigma ^2_1+ \mu_1 ^2- \mu_1 )^2} \sigma_1 ^2 + \dfrac { \mu_2 }{ \beta_2 } = \sigma ^2_2\,. $$ Ejecutando un código R con valores arbitrarios (y a priori aceptables) para $ \mu $ y $ \Sigma $ llevó a muchos casos sin solución. De nuevo, esto no significa mucho porque las matrices de correlación para las distribuciones en $ \mathbb {R}_+^2$ puede tener restricciones más fuertes que un mero determinante positivo.

actualización (04/04): Deinst reformuló esta pregunta como una nueva pregunta en el foro de matemáticas.

3voto

pix0r Puntos 17854

Bien, esta es una respuesta al comentario de Xi'an. Es demasiado larga y tiene mucho de TeX para ser un comentario cómodo. Caveat Lector: Es virtualmente seguro que he cometido un error de álgebra. Esto no parece ser tan flexible como pensé en un principio.

Vamos a crear una familia de distribuciones en $ \mathbb {R}_+^3$ de la forma $$f( \mathbf {x}| \mathbf\theta )=h( \mathbf {x})e^{- \mathbf\theta ^T \mathbf {x}-A( \mathbf\theta )}$$ Deje que $ \mathbf {x}=(x,y,z)$ y $ \mathbf\theta =( \theta_1 , \theta_2 , \theta_3 )$ . Deje que $$h( \mathbf {x})=c x_1^{e_1-1}x_2^{e_2-1}x_3^{e_3-1}+d x_1^{f_1-1}x_2^{f_2-1}x_3^{f_3-1}$$ ser un polinomio de dos términos donde $e_i, f_i$ son números reales mayores que 0 para todos $i$ . Entonces encontramos que $$A( \mathbf\theta )= \log\left (c \frac { \Gamma (e_1)}{ \theta_1 ^{e_1}} \frac { \Gamma (e_2)}{ \theta_2 ^{e_2}} \frac { \Gamma (e_3)}{ \theta_3 ^{e_3}}+d \frac { \Gamma (f_1)}{ \theta_1 ^{f_1}} \frac { \Gamma (f_2)}{ \theta_2 ^{f_2}} \frac { \Gamma (f_3)}{ \theta_3 ^{f_3}} \right ).$$

Ahora, por conveniencia definamos $$c'=c \Gamma (e_1) \Gamma (e_2) \Gamma (e_2) \theta_1 ^{f_1} \theta_2 ^{f_2} \theta_3 ^{f_3}$$ y $$d'=d \Gamma (f_1) \Gamma (f_2) \Gamma (f_2) \theta_1 ^{e_1} \theta_2 ^{e_2} \theta_3 ^{e_3}$$

Ahora, como la media de nuestra distribución es el gradiente de $A$ Tenemos $ \mu_X = \frac {e_1c'+f_1d'}{ \theta_1 (c'+d')}$ , $ \mu_Y = \frac {e_2c'+f_2d'}{ \theta_2 (c'+d')}$ y $ \mu_Z = \frac {e_3c'+f_3d'}{ \theta_3 (c'+d')}$ . Y como la covarianza es el Hessian de $A$ Tenemos $$ \sigma_X ^2= \frac {(e_1c'+f_1d')(c'+d')+(e_1-f_1)^2c'd'}{ \theta_1 ^2(c'+d')^2}$$ y $$ \text {Cov}(X,Y)= \frac {(e_1-f_1)(e_2-f_2)c'd'}{ \theta_1\theta_2 (c'+d')}$$ (los otros términos de la matriz de covarianza obtenidos al cambiar los subíndices de manera obvia).

Esto no parece ser lo suficientemente flexible como para obtener una matriz de covarianza. Necesito probar otro término en el polinomio (pero sospecho que también puede no funcionar (obviamente necesito pensar más en esto)).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X