Estoy tratando de generar un conjunto de datos con un pre-definido de correlación entre una variable de distribución normal y una variable binaria.
El método que yo había pensado originalmente era la siguiente:
- Generar $X \sim Norm(0,1)$
- Generar $Y \sim Norm(0,1)$
- Generar $Q = \rho X + \sqrt{1-\rho^2}Y$, este será el registro de probabilidades de éxito
- Generar $P = 1-\frac{1}{exp(Q) + 1}$, esto es la probabilidad de éxito
- Generar $U = Unif(0,1)$
- Generar $T = I(U < P) $
Este método garantiza que los $Corr(X,P) = \rho$$Corr(X,T) \ne\rho$.
Un algoritmo alternativo, en sustitución de el paso 3 con:
- Generar $Q = \rho X$
proporciona resultados similares para $-1<\rho<1$, pero en este segundo algoritmo, podemos tomar $\rho$ a ser cualquier valor en $\mathbb{R}$, y todavía tenemos el control de la correlación entre el$X$$T$.
Me encontré este algoritmo a través de R utilizando diferentes valores de $\rho$ y trazan $\rho$ contra $Corr(X,T)$ (el uso de los métodos predeterminados en cor.de la prueba):
Después de la alteración de $\rho$, parece que la correlación entre el continuo y variable binaria es acotado, aproximadamente $-0.8 \le Corr(X,T) \le 0.8$. Mientras trataba de encontrar una relación entre el$\rho$$Corr(X,T)$, pensé que se parecía a un arcotangente y por lo que la línea roja es la trama de $1.6*tan^{-1}(\rho)/\pi$, que no muy a la altura. cuando se utiliza el primer algoritmo (y la limitación de $-1<\rho<1$), la relación entre el $\rho$ $Corr(X,T)$ parece ser lineal, con $Corr(X,T) = 0.43\rho$
Mi primera pregunta es si hay alguna bibliografía o fuentes en forma explícita encontrar la relación entre las $\rho$$Corr(X,T)$? De esa manera no se puede predefinir esta correlación, en lugar de $\rho$. Y mi segunda es si esta es la mejor manera para simular este tipo de datos? Tenga en cuenta que en el trabajo que estoy haciendo, hay una relación causal entre X y T (X> T)