5 votos

El truncamiento de datos, se reduce la correlación?

Aquí es un argumento que me encontré: mediante la limitación de la muestra en un rango de una de las variables de la (Pearson) el coeficiente de correlación entre las dos variables es probable que se reduzca.

No veo la lógica. Yo creo que puede tanto aumentar o disminuir, dependiendo de si la relación lineal es más fuerte o no para que el intervalo de la mano.

Alguna pista?

7voto

AdamSane Puntos 1825

Hay un número de maneras de mirar, pero esta es una muy sencilla:

Imagine por un momento que estamos ante un problema de regresión. El cuadrado de la correlación entre las dos variables ( $r^2$ )$R^2$, el coeficiente de determinación, que es $1-\frac{s^2_\epsilon}{\text{Var}(y)}$. Cuando se restringe el rango de $x$, también se puede reducir el rango de $y$, lo $\text{Var}(y)$ va hacia abajo con ella, mientras que $s^2_\epsilon$ (el ruido sobre la línea) debiera cambiar, ya que todavía tiene un valor esperado de $\sigma^2_\epsilon$. He aquí un ejemplo de que:

full x-y plot and truncated x-range

Puesto que el denominador de la fracción disminuye mientras que el numerador apenas cambios, la fracción se hace más grande, por lo $R^2$ se hace más pequeño, por lo $r^2(x,y)$ y, por tanto, $|r|$ será menor. Así que realmente no debería esperar que el tamaño de la correlación disminuye.

4voto

user3780968 Puntos 281

Pensando en un gráfico 2D de una variable graficada contra el otro, limitando el rango de una variable significa buscar sólo en vertical o en horizontal "rebanada". Así que mi intuición es que la forma general de la "nube" de puntos será más vertical o en horizontal, en lugar de "diagonal". Vertical u horizontal, mirando a la nube de puntos tiene una correlación cero. Así que para mí, de hecho, hay una intuición de que la correlación es probable que disminuya.

Como un juguete ejemplo, si los puntos de datos son (1,1), (1,20), y (20,20), usted tiene 0.5 correlación, pero si se puede limitar el rango de la primera variable [0,10] que se quedan con dos puntos (1,1) y (1,20), y la correlación =0. Si el límite de la segunda variable a [10,30], a continuación, obtendrá dos puntos alineados verticalmente, y de nuevo correlación =0.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X