8 votos

Computación en la esperanza matemática del coeficiente de correlación o $R^2$ en la regresión lineal

Estoy re-publicación de una pregunta de math.stackexchange.comcreo que la actual respuesta en matemáticas.si, no es derecho.

Seleccione $n$ números de un conjunto $\{1,2,...,U\}$, $y_i$ es el $i$th número y $x_i$ es el rango de $y_i$ $n$ números. La selección es sin reemplazo. $n$ es siempre menor que $U$. El rango es el fin de un número después de la $n$ los números se ordenan en orden ascendente.

Podemos obtener $n$ puntos de datos $(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$, Y una mejor línea de ajuste para estos puntos de datos se puede encontrar por regresión lineal. $r_{xy}$ (coeficiente de correlación) es la bondad de la línea de ajuste, quiero calcular el $\mathbb{E}(r_{xy})$ o $\mathbb{E}(r_{xy}^2)$ (correlación de la determinación).

Si el $\mathbb{E}[r_{xy}]$ no se puede calcular, estimar o límite inferior es todavía bien.

Actualizado: Mediante el cálculo de la muestra coeficiente de correlación utilizando generado aleatoriamente los datos, podemos ver que $r_{xy}$ es muy cerrada a 1, por lo que quiero a la prueba de la opinión teórica, o teóricamente decir que los datos generados por el método anterior, es muy lineal.

Actualizado: Es posible obtener la distribución de la muestra coeficiente de correlación?

3voto

jldugger Puntos 7490

Si sólo desea mostrar $r^2_{xy}$ debe ser cercano a 1, y calcular una cota inferior para eso, es sencillo, porque eso significa que, para determinado $U$ $n$ sólo se necesita maximizar la varianza de los residuos. Esto se puede hacer exactamente cuatro formas simétricas. Los dos extremos (mínimo y máximo de las correlaciones posibles) están ilustrados por $U=20, n=9$.

Extreme correlation plots for U=20, n=9

Para grandes valores de $U$ y valores adecuados de $n$, $r^2_{xy}$ realmente puede conseguir cerca de 0. Por ejemplo, con $n=100$ y valores muy grandes de $U \gg n$, $r^2_{xy} \sim 0.03$ en el peor de los casos.

1voto

patfla Puntos 1

Re-arreglar el problema en términos de las nuevas variables, por lo que el $1\leq z_1<z_2<\dots<z_n\leq U$. Luego tenemos a $(x_i,y_i)=(x_i,z_{x_i})$ @whuber señaló en los comentarios. Así, de manera efectiva la regresión $z_j$$j$, e $r_{xy}=r_{xz}$. Por lo tanto si podemos averiguar la distribución marginal para $z_j$, y demostrar que es básicamente lineal en $j$ el problema es de hacer, y vamos a tener $r_{xy}\sim 1$.

Primero necesitamos la distribución conjunta de $z_1,\dots,z_n$. Esto es muy simple, después de que usted tiene la solución, pero he encontrado que no es recta hacia adelante antes que yo la asignatura de matemáticas. Sólo una breve lección en hacer matemáticas pagar - así que voy a presentar las matemáticas a la primera, entonces la respuesta fácil.

Ahora, el original de la distribución conjunta es $p(y_1,\dots,y_n)\propto 1$. El cambio de variables simplemente re-etiquetar las cosas discretas de probabilidad, y por lo que la probabilidad es todavía una constante. Sin embargo, el etiquetado no es 1-a-1, por lo que no podemos simplemente escribir $p(z_1,\dots,z_n)=\frac{(U-n)!}{U!}$. En su lugar, tenemos

$$\begin{array}\\p(z_1,\dots,z_n)=\frac{1}{C} & 1\leq z_1<z_2<\dots<z_n\leq U\end{array}$$

Y podemos encontrar $C$ por la normalización $$C=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_2=2}^{z_3-1}\sum_{z_1=1}^{z_2-1}(1)=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_2=2}^{z_3-1}(z_2-1)$$ $$=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_3=2}^{z_4-1}\frac{(z_3-1)(z_3-2)}{2}=\sum_{z_n=n}^{U}\dots\sum_{z_4=4}^{z_5-1}\frac{(z_4-1)(z_4-2)(z_4-3)}{(2)(3)}$$ $$=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_{j}=j}^{z_{j+1}-1}{z_j-1 \choose j-1}={U \choose n}$$

Que muestra el reetiquetado el ratio es igual a $\frac{(U-n)!}{U!}{U \choose n}=\frac{1}{n!}$ - $(z_1,\dots,z_n)$ hay $n!$ $(y_1,\dots,y_n)$ valores. Tiene sentido, ya que cualquier permutación de las etiquetas en $y_i$ conduce a la misma serie de la clasificación de las $z_i$ valores. Ahora, la distribución marginal $z_1$, repetimos el anterior, pero con la suma de más de $z_1$ abandonado, y un rango diferente de la suma para el resto, es decir, los mínimos a cambio de$(2,\dots,n)$$(z_1+1,\dots,z_1+n-1)$, y obtenemos:

$$p(z_1)=\sum_{z_n=z_1+n-1}^{U}\;\;\sum_{z_{n-1}=z_1+n-2}^{z_n-1}\dots\sum_{z_2=z_1+1}^{z_3-1}p(z_1,z_2,\dots,z_n)=\frac{{U-z_1 \choose n-1}}{{U \choose n}}$$

Con el apoyo $z_1\in\{1,2,\dots,U+1-n\}$. De esta forma, combinado con un poco de intuición se muestra que la distribución marginal de cualquier $z_j$ puede estar motivada por:

  1. la elección de $j-1$ por debajo de valores de $z_j$, que se puede hacer en ${z_j-1\choose j-1}$ maneras (si $z_j\geq j$);
  2. elegir el valor de $z_j$, lo que se puede hacer 1; y
  3. la elección de $n-j$ valores por encima de $z_j$ que se puede hacer en ${U-z_j\choose n-j}$ maneras (si $z_j\leq U+j-n$)

Este método de razonamiento se effortly generalizar a distribuciones conjuntas, tales como $p(z_j,z_k)$ (que puede ser utilizada para calcular el valor esperado de la covarianza de la muestra si se desea). Por lo tanto tenemos:

$$\begin{array}{c c}\\p(z_j)=\frac{{z_j-1\choose j-1}{U-z_j\choose n-j}}{{U \choose n}} & j\leq z_j\leq U+j-n \\p(z_j,z_k)=\frac{{z_j-1\choose j-1}{z_k-z_j-1 \choose k-j-1}{U-z_k\choose n-k}}{{U \choose n}} & j\leq z_j\leq z_k+j-k\leq U+j-n \end{array}$$

Ahora el marginal es el pdf de un negativo de la distribución hipergeométrica con parámetros de $k=j,r=n,N=U$ (en términos del papel de la notación). Ahora esto es claramente no lineal exactamente en $j$, pero la marginal de la expectativa de $z_j$ es

$$E(z_j)=j\frac{U+1}{n+1}$$

Este es, en efecto lineal en $j$, y se esperaría que el coeficiente beta de $\frac{U+1}{n+1}$ a partir de la regresión, y la intersección de cero.

ACTUALIZACIÓN

Dejé mi respuesta un poco corto antes. Ahora se ha completado esperemos una respuesta más completa

Dejando $\overline{j}=\frac{n+1}{2}$, e $\overline{z}=\frac{1}{n}\sum_{j=1}^{n}z_j$, se espera que el cuadrado de la muestra de la covarianza entre el $j$ $z_j$ está dada por:

$$E[s_{xz}^2]=E\left[\frac{1}{n}\sum_{j=1}^{n}(j-\overline{j})(z_j-\overline{z})\right]^2$$ $$=\frac{1}{n^2}\left[\sum_{j=1}^{n}(j-\overline{j})^2E(z_j^2)+2\sum_{k=2}^{n}\sum_{j=1}^{k-1}(j-\overline{j})(k-\overline{j})E(z_jz_k)\right]$$

Así que necesitamos a $E(z_j^2)=V(z_j)+E(z_j)^2=Aj^2+Bj$ donde $A=\frac{(U+1)(U+2)}{(n+1)(n+2)}$ $B=\frac{(U+1)(U-n)}{(n+1)(n+2)}$ (usando la fórmula en el archivo pdf). Así que la primera suma se convierte en

$$\sum_{j=1}^{n}(j-\overline{j})^2E(z_j^2)=\sum_{j=1}^{n}(j^2-2j\overline{j}+\overline{j}^2)(Aj^2+Bj)$$ $$=\frac{n(n-1)(U+1)}{120}\bigg( U(2n+1)+(3n-1)\bigg)$$

También necesitamos $E(z_jz_k)=E[z_j(z_k-z_j)]+E(z_j^2)$.

$$E[z_j(z_k-z_j)]=\sum_{z_k=k}^{U+k-n}\sum_{z_j=j}^{z_k+j-k}z_j(z_k-z_j) p(z_j,z_k)$$ $$=j(k-j)\sum_{z_k=k}^{U+k-n}\sum_{z_j=j}^{z_k+j-k}\frac{{z_j\choose j}{z_k-z_j \choose k-j}{U-z_k\choose n-k}}{{U \choose n}}=j(k-j)\sum_{z_k=k}^{U+k-n}\frac{{z_k+1 \choose k+1}{U+1-(z_k+1)\choose n-k}}{{U \choose n}}$$ $$=j(k-j)\frac{{U+1\choose n+1}}{{U \choose n}}=j(k-j)\frac{U+1}{n+1}$$ $$\implies E(z_jz_k)=jk\frac{U+1}{n+1}+j^2\frac{(U+1)(U-n)}{(n+1)(n+2)}+j\frac{(U+1)(U-n)}{(n+1)(n+2)}$$

Y la segunda suma es:

$$2\sum_{k=2}^{n}\sum_{j=1}^{k-1}(j-\overline{j})(k-\overline{j})E(z_jz_k)$$ $$=\frac{n(U+1)(n-1)}{720(n+2)}\bigg(6(U-n)(n^3-2n^2-9n-2) + (n+2)(5 n^3- 24 n^2- 35 n +6)\bigg)$$

Y así, después de algunos tedioso manipulaciones, se obtiene para el valor esperado del cuadrado de la covarianza de:

$$E[s_{xz}^2]=\frac{(n-1)(n-2)U(U+1)}{120}-\frac{(U+1)(n-1)(n^3+2n^2+11n+22)}{720(n+2)}$$

Ahora bien, si tenemos $U>>n$, entonces el primer término que domina como es $O(U^2n^2)$, mientras que el segundo término es $O(Un^3)$. Podemos demostrar que el dominante término se aproxima bien por $E[s_{x}^2s_{z}^2]$, y tenemos otra razón teórica de por qué la correlación de pearson es muy cercana a $1$ (más allá del hecho de que $E(z_j)\propto j$).

Ahora la espera varianza de la muestra de $j$ es sólo la varianza de la muestra, que es $s_x^2=\frac{1}{n}\sum_{j=1}^{n}(j-\overline{j})^2=\frac{(n+1)(n-1)}{12}$. El esperado de la muestra varianza para el $z_j$ está dada por:

$$E[s_z^2]=E\left[\frac{1}{n}\sum_{j=1}^{n}(z_j-\overline{z})^2\right]=\frac{1}{n}\sum_{j=1}^{n}E(z_j^2)-\left[\frac{1}{n}\sum_{j=1}^{n}E(z_j)\right]^2$$ $$=\frac{A(n+1)(2n+1)}{6}+\frac{B(n+1)}{2}-\frac{(U+1)^2}{4}$$ $$=\frac{(U+1)(U-1)}{12}$$

La combinación de todo juntos, y observando que $E[s_x^2s_z^2]=s_x^2E[s_z^2]$, tenemos:

$$E[s_x^2s_z^2]=\frac{(n+1)(n-1)(U+1)(U-1)}{144}\approx \frac{(n-1)(n-2)U(U+1)}{120}\approx E[s_{xz}^2]$$

Que es aproximadamente la misma cosa como $E[r_{xz}^2]\approx 1$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X