23 votos

¿Por qué la independencia implica una correlación cero?

En primer lugar, no estoy preguntando esto:

¿Por qué la correlación cero no implica independencia?

Esto se aborda (bastante bien) aquí: https://math.stackexchange.com/questions/444408/why-does-zero-correlation-not-imply-independence

Lo que pregunto es lo contrario... digamos que dos variables son totalmente independientes entre sí.

¿No podrían tener un poco de correlación por accidente?

¿No debería ser... independencia implica MUY POCA correlación?

42voto

Novak Puntos 11

Según la definición del coeficiente de correlación, si dos variables son independientes su correlación es cero. Por lo tanto, ¡no puede ocurrir que haya correlación por accidente!

$$\rho_{X,Y}=\frac{\operatorname{E}[XY]-\operatorname{E}[X]\operatorname{E}[Y]}{\sqrt{\operatorname{E}[X^2]-[\operatorname{E}[X]]^2}~\sqrt{\operatorname{E}[Y^2]- [\operatorname{E}[Y]]^2}}$$

Si $X$ et $Y$ son independientes, los medios $\operatorname{E}[XY]= \operatorname{E}[X]\operatorname{E}[Y]$ . Por lo tanto, el numerador de $\rho_{X,Y}$ es cero en este caso.

Por lo tanto, si no se cambia el significado de correlación, como se menciona aquí, no es posible. A menos que, aclarar su definición de lo que es la correlación.

21voto

manku Puntos 111

Comentario en muestra correlación. Al comparar dos pequeñas muestras independientes del mismo tamaño, la correlación suele ser notablemente diferente de $r = 0.$ [Nada de lo aquí expuesto contradice la respuesta de @OmG (+1) sobre el población correlación $\rho.]$

Consideremos las correlaciones entre un millón de pares de independientes de tamaño $n = 5$ de la distribución exponencial con tasa $1.$

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

enter image description here

Por ejemplo, he aquí el diagrama de dispersión del primero de los millones de pares de muestras de tamaño $5,$ para lo cual $r = -0.5716.$

enter image description here

En este sentido, la distribución exponencial no tiene nada de especial. Cambiar la distribución padre a uniforme estándar dio los siguientes resultados.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

enter image description here

Por el contrario, he aquí el histograma correspondiente de correlaciones para pares de muestras normales de tamaño $n = 20.$

enter image description here

Nota: En otras páginas de este sitio se habla de la distribución de $r$ con más detalle; una de ellas es este Q & A .

16voto

Zachary Puntos 36

Respuesta sencilla: si 2 variables son independientes, entonces la población es cero, mientras que la correlación muestra La correlación será normalmente pequeña, pero distinta de cero.

Esto se debe a que la muestra no es una representación perfecta de la población.

Cuanto mayor sea la muestra, mejor representará a la población, por lo que menor será la correlación. Para una infinito muestra, la correlación sería cero.

1voto

Simon Alford Puntos 101

Tal vez esto sea útil para algunas personas que comparten la misma comprensión intuitiva. Todos hemos visto algo así:

enter image description here

Estos datos son presumiblemente independientes, pero muestran claramente una correlación ( $r = 0.66$ ). "¡Pensaba que la independencia implicaba una correlación cero!", dice el alumno.

Como ya han señalado otros, el muestra están correlacionados, pero eso no significa que los población tiene una correlación distinta de cero.

Por supuesto, estos dos deberían ser independientes: dado que Nicolas Cage ha aparecido en la cifra récord de 10 películas este año, no deberíamos cerrar la piscina local durante el verano por motivos de seguridad.

Pero cuando comprobamos cuántas personas se ahogan este año, existe una pequeña posibilidad de que se alcance la cifra récord de 1.000 personas ahogadas este año.

Obtener tal correlación es poco probable. Quizá una entre mil. Pero es posible, aunque ambas sean independientes. Pero éste es sólo un caso. Considere que hay millones de sucesos posibles de medir, y verá que la probabilidad de que se den dos de ellos para obtener una correlación alta es bastante alta (de ahí la existencia de gráficos como el anterior).

Otra forma de verlo es que garantizar que dos sucesos independientes siempre darán valores no correlacionados es en sí mismo restrictivo. Dados dos dados independientes, y los resultados del primero, hay un cierto (considerable) conjunto de resultados para el segundo dado que darán alguna correlación distinta de cero. Restringir los resultados del segundo dado a una correlación cero con el primero es una clara violación de la independencia, ya que las tiradas del primer dado afectan ahora a la distribución de los resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X