7 votos

La generación de correlación arbitraria de variables aleatorias

Supongamos que tenemos 2 variables aleatorias $X$ $Y$ (marginal) de Cdf $F$$G$. Dado cualquier $\rho\in[-1,1]$, existe un enfoque general para la construcción de una distribución conjunta de $X$$Y$, de forma que su marginales se $F$ $G$ y su correlación es $\rho$?

Mi interés es en la simulación. Por ejemplo, si $X\sim \chi^2(n)$ $Y\sim\chi^2(m)$ $F\equiv\frac{X/n}{Y/m}$ $F$ $F(n,m)$ si $X$ $Y$ son independientes. Me gustaría simular $F$ a ver cómo se comporta cuando se $X$ $Y$ están correlacionados. Pero no puedo pensar en cómo simular tales correlaciona $X$ $Y$ además de partir de una distribución conjunta.

3voto

RRL Puntos 11430

Es una tarea relativamente sencilla para generar muestras de variables aleatorias con distribuciones marginales que están correlacionados. La dificultad radica en el control del exacto grado de correlación, si se desea, a menos que las distribuciones marginales son normales.

El Cholesky enfoque mencionado funciona bien para la construcción de variables aleatorias con una distribución normal multivariante y una determinada matriz de correlación dado un conjunto de variables aleatorias independientes con la normal de distribuciones marginales. Por ejemplo, supongamos que independiente de las variables aleatorias $Z_1$ $Z_2$ ambos tienen normal estándar distribuciones marginales, es decir,$Z_1, Z_2 \sim N(0,1)$, luego tomar

$$X = Z_1, \,\,\, Y = \rho Z_1 + \sqrt{1 - \rho^2}Z_2.$$

Una transformación que conserva la marginal estándar de las distribuciones normales, es decir, $X, Y \sim N(0,1)$ e impone el deseado de correlación

$$E(XY) = \rho E(Z_1^2) + \sqrt{1- \rho^2}E(Z_1,Z_2) = \rho.$$

Un aproximado de enfoque para los no-normal distribuciones marginales, $F$$G$, sería el primer sorteo de dos muestras independientes de una distribución normal estándar, $Z_1, Z_2 \sim N(0,1)$. El próximo imponer una correlación $\rho$ mediante la transformación

$$V_1 = Z_1, \,\,\, V_2 = \rho Z_1 + \sqrt{1-\rho^2}Z_2.$$

Tenga en cuenta que $V_1$ $V_2$ tiene una articulación de la distribución normal. Si $\Phi$ es el estándar normal acumulables función de distribución, a continuación, $\Phi(V_1)$ $\Phi(V_2)$ tienen uniformes $U(0,1)$ distribuciones, ya que, por ejemplo,

$$P(\Phi(V_1) \leqslant v) = P(V_1 \leqslant \Phi^{-1}(v)) = \Phi[\Phi^{-1}(v)] = v. $$

Finalmente realizar la siguiente transformación utilizando la inversa de la distribución marginal de las funciones de $F^{-1}$ $G^{-1}$ y el estándar normal de la función de distribución acumulativa $\Phi$,

$$X = F^{-1}[\Phi(V_1)], \,\,\, Y = G^{-1}[\Phi(V_2)].$$

Ahora $X$ $Y$ tiene el deseado distribuciones marginales ya que, por ejemplo,

$$P(X \leqslant x) = P(F^{-1}[\Phi(V_1)] \leqslant x) = P(\Phi(V_1) \leqslant F(x)) = F(x).$$

En general, debido a la no-linealidad, $corr(X,Y) \neq \rho$, pero no puede estar muy lejos y se puede iterar sobre la elección de $\rho$ en el primer paso hasta llegar cerca de la deseada correlación.

Un tratamiento más completo de la imposición de una dependencia de la estructura de variables aleatorias con marginales se pueden encontrar en la teoría de las cúpulas.

1voto

BruceET Puntos 7117

Para tu pregunta concreta de chi-cuadrado y F variables aleatorias, puedes intentar esto:

Deje $U \sim Chisq(r),\, V \sim Chisq(s),$ $W \sim Chisq(t),$ donde $n = r + s$ $m = s+t.$

A continuación, $X = U+V \sim Chisq(n),\, Y \sim Chisq(m)$ $X$ $Y$ están correlacionados.

Esta es una situación que en realidad podría suceder en la práctica si alguien se confunde acerca de los efectos en un intrincado ANOVA de diseño.

Ejemplo en el software estadístico R:

m = 10^6
u = rchisq(m, 3);  v = rchisq(m, 5);  w = rchisq(m, 7)
x = u + v;  mean(x);  var(x)
## 7.997882                        # consistent with mean 8 ...
## 15.98177                        #   and variance 16 of Chisq(df = 8)
y = v + w;  mean(y);  var(y)
## 11.99655                        # consistent with mean 12 ...
## 23.99023                        #   and variance 24 of Chisq(12)
cor(x, y)
## 0.5106575                       # X and Y correlated, not indep.

fxy = (x/8)/(y/12)                 # fake F
quantile(fxy, .95)
##      95%
## 2.023275                        # wrong 95th percentile for true F(8, 12) 

f = rf(m, 8, 12)                   # true F
quantile(f, .95);  qf(.95, 8, 12)
##      95% 
## 2.846839                        # consistent with 95th percentile of F(8, 12) 
## 2.848565                        # exact 95th percentile of F(8, 12)

enter image description here

Referencias: Más generalmente, mira este post o el sugerido por @MichaelHardy. Si algunas de las aleatoria normal variables están correlacionadas, a continuación, chi-cuadrado variables aleatorias obtenida sumando sus plazas serán correlacionados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X