53 votos

¿Por qué el coeficiente de correlación entre las variables aleatorias X y X-Y tiende a ser de 0,7

Tomado de Estadísticas prácticas para la investigación médica donde Douglas Altman escribe en la página 285:

...para dos cantidades cualesquiera X e Y, X estará correlacionada con X-Y. De hecho, incluso si X e Y son muestras de números aleatorios, esperaríamos que la correlación de X y X-Y sea de 0,7

He probado esto en R y parece que es así:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

¿Por qué? ¿Cuál es la teoría detrás de esto?

71voto

Dilip Sarwate Puntos 16161

Si $X$ y $Y$ son no correlacionado variables aleatorias con igual varianza $\sigma^2$ entonces tenemos que $$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$$ En consecuencia, $$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$$ Así que, cuando encuentres $$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}} $$ la correlación de la muestra de $x$ y $x-y$ para un gran conjunto de datos $\{(x_i,y_i)\colon 1 \leq i \leq n\}$ extraído de una población con estas propiedades, que incluye "números aleatorios" como caso especial, el resultado tiende a ser cercano al valor de correlación de la población $\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

63voto

Uri Puntos 111

Una explicación geométrico-estadística.

Imagina que haces un gráfico de dispersión "de dentro a fuera" en el que el $n$ temas son los ejes y el $2$ variables $X$ y $Y$ son los puntos . Esto se llama espacio temático (en lugar de la habitual espacio variable parcela). Dado que sólo hay 2 puntos para trazar, todas las dimensiones en dicho espacio, excepto las dos dimensiones arbitrarias que son capaces de soportar los 2 puntos más el origen, son redundantes y pueden ser eliminadas con seguridad. Así que nos queda un plano. Dibujamos flechas vectoriales desde el origen hasta los puntos: estas son nuestras variables $X$ y $Y$ como vectores en el espacio temático de los datos.

Ahora, si las variables estuvieran centradas entonces, en un espacio sujeto, el coseno del ángulo entre sus vectores es su coeficiente de correlación . En la foto de abajo $X$ y $Y$ vectores son ortogonales: sus $r=0$ . La descorrelación era un requisito previo señalado por @Dilip en su respuesta.

También para las variables centradas, sus longitudes vectoriales en un espacio temático son sus desviaciones estándar . En la foto, $X$ y $Y$ son de igual longitud, - la igualdad de variantes fue también un requisito previo hecho por @Dilip.

Para dibujar la variable $X-Y$ o variable $X+Y$ simplemente usamos la suma o la resta de vectores que hemos olvidado desde la escuela (mover el vector Y hasta el final del vector X e invertir la dirección en caso de resta, - esto se muestra con flechas grises en la imagen, - luego dibujar un vector hasta donde apunta la flecha gris).

Queda muy claro que la longitud de $X-Y$ o $X+Y$ vectores (la desviación estándar de estas variables) es, por el teorema de Pitágoras, $\sqrt{2\sigma^2}$ y el ángulo entre $X$ y $X-Y$ o $X+Y$ es de 45 grados, cuyo coseno - la correlación - es $0.707...$

enter image description here

12voto

Boldemort Puntos 262

Creo que aquí también hay una simple intuición basada en la simetría. Dado que X e Y tienen las mismas distribuciones y tienen una covarianza de 0, la relación de X ± Y con X debería "explicar" la mitad de la variación de X ± Y; la otra mitad debería ser explicada por Y. Así que R 2 debe ser 1/2, lo que significa que R es 1/√2 ≈ 0,707.

3voto

Aquí hay una forma sencilla de pensar por qué hay una correlación en absoluto.

Imagina lo que ocurre cuando restas dos distribuciones. Si el valor de x es bajo entonces, en promedio, x - y será un valor menor que si el valor de x es alto. A medida que x aumenta, entonces x - y aumento, en promedio, y por lo tanto, una correlación positiva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X