Suponga que tiene un $n$-vector $X$. ¿Para un número real fijo, $r$ entre $-1$y $1$, se pueden generar una permutación aleatoria de lo números enteros $1,2,\ldots,n$, llame al $i_1,i_2,\ldots,i_n$ tal que el % de vector $X$y el % de vector $\tilde{X}$definidas en $\tilde{Xj} = X{i_j}$ esperar correlación muestra de $r$? Estoy en busca de un proceso que genera tales permutaciones. Sin pérdida de generalidad, creo que uno puede asumir $X$ tiene cero media de la muestra y la unidad muestra desviación de estándar.
Respuesta
¿Demasiados anuncios?Las respuestas son no, no para todos los $r$ en general; sí, para un rango restringido de $r$ que es fácilmente calculada; pero sigue habiendo un amplio conjunto de opciones a elegir.
Voy a utilizar una notación estándar, donde la acción de una permutación $\sigma$ escrito $ X^\sigma_i = X_{\sigma (i)}$ y el conjunto de todas las permutaciones de las $n$ coordenadas es $S_n$.
Como se nota en la pregunta, sobre la estandarización de $X$ es suficiente para investigar $\mathbb{E}[{X^\sigma}'X]$. Debido a $X'X = 1$, una correlación de $r = 1$ es ciertamente alcanzable por medio de la identidad de permutación $\epsilon$ (donde $\epsilon(i) = i$ todos los $i$). Sin embargo, para todas las $X$ hay un mínimo alcanzable correlación: se realiza mediante la asociación de la $k^\text{th}$ el componente más pequeño de $X^\sigma$ $k^\text{th}$ mayor componente de $X$. Por ejemplo, con $X = (-2,1,1)/\sqrt{6}$ más pequeña posible correlación de $-1/2$ es alcanzado por $X^\sigma = (1,1,-2)/\sqrt{6}$. Vamos a llamar a este mínimo de correlación $r_{min}(X)$ y deje $\sigma_{min}(X)$ ser cualquier permutación de la consecución de este valor mínimo.
Cada posible espera de correlación de valor entre el $r_{min}(X)$ $1$ es alcanzable por medio de una distribución apoyado sólo en $\sigma_{min}$$\epsilon$. Específicamente, el conjunto de
$$p = \frac{r - r_{min}}{1 - r_{min}}$$
y generar las permutaciones $\sigma_{min}$ con una probabilidad de $1 - p$ y la permutación $\epsilon$ con una probabilidad de $p$. (Si $r_{min} = 1$ esta fórmula no está definido, pero no hay nada que hacer de todos modos.)
Sospecho que a usted le gusta más "interesante" de la distribución de las variantes de este. Para crear esto, usted tendrá que agregar más condiciones. Aquí es una manera de encuadrar el problema: para cada permutación $\sigma$ corresponde al número de $f(\sigma) = {X^\sigma}'X$. Una arbitraria distribución de probabilidad sobre las permutaciones asigna un valor no negativo $p(\sigma)$ a cada permutación de acuerdo a los axiomas de la probabilidad. La expectativa de $f$, que es la esperada correlación entre el$X$$X^\sigma$, por supuesto, es igual a
$$\sum_{\sigma \in S_n}{p(\sigma)f(\sigma)}.$$
Dado que desee espera de correlación $r$, por lo tanto, usted tiene la libertad para elegir el $n!$ valores $p(\sigma)$ sujeto a las condiciones
$$\sum_{\sigma \in S_n}{p(\sigma)} = 1,$$
$$\sum_{\sigma \in S_n}{p(\sigma)f(\sigma)} = r,$$
$$p(\sigma) \ge 0 \text{ for all } \sigma \in S_n.$$
Simplemente he demostrado que este problema de programación lineal es factible si y sólo si $r_{min} \le r \le 1$. Usted es libre de elegir entre las soluciones (un conjunto convexo de las distribuciones), en cualquier forma que te gusta. Por ejemplo, usted podría preferir usar como uniforme una opción de permutaciones como sea posible, en cuyo caso usted podría tratar de minimizar la varianza de la $p(\sigma)$ (pensado sólo como un conjunto de números) sujeto a las condiciones anteriores. Esa es una cuadrática programa, para lo cual hay muchos buenos métodos de solución y mucho software disponible. La solución de este (exactamente) se convierten en un problema una vez $n$ supera acerca de $8$ o así, porque se trata de $n!$ variables y sólo voy a abrumar el software. En tales casos, es posible que desee restringir las distribuciones más, tales como la necesidad de que sean sólo cíclico y anti-cíclico de las permutaciones de los ordenados de coordenadas (sólo $2n$ variables). Otra posibilidad es elegir un grupo de permutaciones al azar--asegurándose de incluir el orden inversión de permutación entre ellos de manera que la correlación mínimo puede ser incluido--y, a continuación, encontrar una distribución aproximadamente uniforme entre ellos.