7 votos

Correlación con Probabilidad

Estoy tratando de generar un conjunto de datos con un pre-definido de correlación entre una variable de distribución normal y una variable binaria.

El método que yo había pensado originalmente era la siguiente:

  1. Generar $X \sim Norm(0,1)$
  2. Generar $Y \sim Norm(0,1)$
  3. Generar $Q = \rho X + \sqrt{1-\rho^2}Y$, este será el registro de probabilidades de éxito
  4. Generar $P = 1-\frac{1}{exp(Q) + 1}$, esto es la probabilidad de éxito
  5. Generar $U = Unif(0,1)$
  6. Generar $T = I(U < P) $

Este método garantiza que los $Corr(X,P) = \rho$$Corr(X,T) \ne\rho$.

Un algoritmo alternativo, en sustitución de el paso 3 con:

  1. Generar $Q = \rho X$

proporciona resultados similares para $-1<\rho<1$, pero en este segundo algoritmo, podemos tomar $\rho$ a ser cualquier valor en $\mathbb{R}$, y todavía tenemos el control de la correlación entre el$X$$T$.

Me encontré este algoritmo a través de R utilizando diferentes valores de $\rho$ y trazan $\rho$ contra $Corr(X,T)$ (el uso de los métodos predeterminados en cor.de la prueba):

Plot of $\rho$ against $Corr(X,T)$

Después de la alteración de $\rho$, parece que la correlación entre el continuo y variable binaria es acotado, aproximadamente $-0.8 \le Corr(X,T) \le 0.8$. Mientras trataba de encontrar una relación entre el$\rho$$Corr(X,T)$, pensé que se parecía a un arcotangente y por lo que la línea roja es la trama de $1.6*tan^{-1}(\rho)/\pi$, que no muy a la altura. cuando se utiliza el primer algoritmo (y la limitación de $-1<\rho<1$), la relación entre el $\rho$ $Corr(X,T)$ parece ser lineal, con $Corr(X,T) = 0.43\rho$

Mi primera pregunta es si hay alguna bibliografía o fuentes en forma explícita encontrar la relación entre las $\rho$$Corr(X,T)$? De esa manera no se puede predefinir esta correlación, en lugar de $\rho$. Y mi segunda es si esta es la mejor manera para simular este tipo de datos? Tenga en cuenta que en el trabajo que estoy haciendo, hay una relación causal entre X y T (X> T)

6voto

jldugger Puntos 7490

Para generar un par de $(B,Y)$ $B$ Bernoulli (con el parámetro $p$) y $Y$ normal, ¿por qué no comenzar con un adecuado binormal variable $(X,Y)$ y definen $B$ a ser el indicador de que $X$ supera su $1-p$ cuantil? Centrando $(X,Y)$ en el origen y la estandarización de su marginales, la única pregunta que se refiere a lo que la correlación de $r$ debe mantener entre el$X$$Y$, de modo que la correlación entre el $B$ $Y$ a un valor dado,$\rho$.

Para este fin, expresar $Y = r X + \sqrt{1-r^2}Z$ independientes Normal estándar de las variables de $X$$Z$. Set $x_0$ $1-p$ cuantil de $X$, por lo que el $\Phi(x_0)=1-p$. (Como es convencional, $\Phi$ es la distribución Normal estándar y $\phi$ será su densidad.)

Puesto que la varianza de $B$ $p(1-p)$ y la varianza de la $Y$$1$, e $Y$ cero, significa que la correlación entre el $B$ $Y$ es

$$\rho=\operatorname{Cor}(B,X) = \frac{E[BY] - E[B]E[Y]}{\sqrt{p(1-p)}\sqrt{1}} = \frac{E[B(rX+\sqrt{1-r^2}Z)]-0} {\sqrt{p(1-p)}} = \frac{rE[X\mid X \ge x_0]}{\sqrt{p(1-p)}}.$$

La esperanza condicional es fácilmente calculada por integración, dando

$$\rho = \frac{r \phi(x_0)}{(1-\Phi(x_0)\sqrt{p(1-p)}}.$$

Resolver esto por $r$: mediante el establecimiento de

$$r = \frac{\rho p\sqrt{p(1-p)}}{\phi(x_0)},$$

$B$ $Y$ tienen correlación $\rho$.

Tenga en cuenta que puesto que es necesario que el $1-r^2\ge 0$, los valores de $\rho$ que causan $|r|$ a exceder $1$ no será alcanzable en esto de la moda. La figura parcelas de tales valores de $r$: los contornos de la gama de $-1$ en la parte superior izquierda a través de $+1$ en la parte superior derecha.

Figure

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X