32 votos

¿Cómo puedo demostrar de manera sencilla que el coeficiente de correlación de Pearson está entre -1 y 1?

Para construir un sistema de recomendación, también utilizo el coeficiente de correlación de Pearson. Esta es la definición:

$r(x, y)=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \cdot \sum_{i=1}^n (y_i-\bar{y})^2}}$

$x$ y $y$ son parte de $\mathbb{R}$.

Ahora, para programar, es importante tener en cuenta todas las posibles situaciones. Por ejemplo, si el denominador es cero, tendrás que filtrarlo o lanzar una excepción.

Se me ocurrieron algunos argumentos, uno de ellos es que si todos los valores de $x_i$ y/o $y_i$ fueran iguales al promedio de $x$ y/o $y, entonces el denominador sería cero.

Pero ¿cómo puedo demostrar que el coeficiente es o bien no definido (denominador cero) o está entre -1 y 1? ¿Cuál es el mejor enfoque?

40voto

MentatOfDune Puntos 86

En primer lugar, el coeficiente de correlación de Pearson está limitado entre -1 y 1, no entre 0 y 1. Su valor absoluto está limitado entre 0 y 1, lo cual es útil más adelante.

El coeficiente de correlación de Pearson es simplemente esta relación:

$$\rho = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$$

Ambas varianzas son no negativas por definición, por lo que el denominador es $\ge 0$. La única forma en que puede ocurrir una singularidad es si una de las variables tiene varianza 0.

Si dos variables aleatorias están perfectamente no correlacionadas (es decir, independientes), entonces su covarianza es 0. Por lo tanto, 0 es un límite inferior válido para el valor absoluto de la expresión.

Esto se puede mostrar de la siguiente manera:

$$Cov(X,Y) = E[(X-\bar{X})(Y-\bar{Y})] = E[XY] - E[X]E[Y]$$

si dos variables aleatorias son independientes, entonces $E[XY]=E[X]E[Y]$, y

$$Cov(X,Y) = E[XY] - E[X]E[Y] = E[X]E[Y] - E[X]E[Y] = 0.$$

Ahora para el límite superior. Aquí aplicamos la desigualdad de Cauchy-Schwarz.

$$|Cov(X,Y)|^2 \le Var(X)Var(Y)$$

$$\therefore |Cov(X,Y)| \le \sqrt{Var(X)Var(Y)}$$

insertamos este resultado de la desigualdad de Cauchy-Schwarz en la fórmula de $\rho$, y obtenemos:

$$|\rho| = \left|\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\right| \le \frac{\sqrt{Var(X)Var(Y)}}{\sqrt{Var(X)Var(Y)}} = 1$$

Así que el valor absoluto de la correlación está limitado por debajo por 0 y por arriba por 1.

6voto

xdavidliu Puntos 13

Aquí hay una prueba independiente que debería ser mucho más fácil de entender y justificar que citar Cauchy-Schwarz. Se toma de la sección 7.4 del A First Course in Probability décima edición de Sheldon Ross, la cual recomiendo ampliamente.

Sean $X$ e $Y$ variables aleatorias con varianzas respectivas $\mathrm{Var}(X) = \sigma_x^2$ y $\mathrm{Var}(Y) = \sigma_y^2$. Entonces tenemos

$$ 0 \leq \mathrm{Var} \left( \frac{X}{\sigma_x} \pm \frac{Y}{\sigma_y} \right) = 2 \pm 2 \mathrm{Corr} (X,Y). $$

De lo cual se sigue inmediatamente que $-1 \leq \mathrm{Corr} (X,Y) \leq 1$.

6voto

Dor Leventer Puntos 73

Visto mientras buscaba. Para completar la prueba anterior, $$ 0\leq Var(\frac{X}{\sigma_x}\pm\frac{Y}{\sigma_y}) = Var(\frac{X}{\sigma_x}) + Var(\frac{Y}{\sigma_y}) \pm 2Cov(\frac{X}{\sigma_x},\frac{Y}{\sigma_y}) $$

donde (para ambos $X$ y $Y$) debido a $Var(aX)=a^2Var(X)$ $$Var(\frac{X}{\sigma_x}) = \frac{1}{\sigma_x^2}Var(X)=\frac{\sigma_x^2}{\sigma_x^2}=1$$

y debido a $Cov(aX,bY)=abCov(X,Y)$ $$Cov(\frac{X}{\sigma_x},\frac{Y}{\sigma_y}) = \frac{1}{\sigma_x\sigma_y}Cov(X,Y) = Corr(X,Y)$$

Por lo tanto $$ Var(\frac{X}{\sigma_x}\pm\frac{Y}{\sigma_y}) = 1+1\pm2Corr(X,Y)$$

2voto

TomKern Puntos 311

Sea $\vec{a} = (x_1-\bar{x}, x_2-\bar{x}, \ldots, x_n-\bar{x})$ y $\vec{b}=(y_1-\bar{y},\ldots,y_n-\bar{y})$. Entonces tu fórmula es simplemente $\frac{\vec{a} \cdot \vec{b}}{\|\vec{a}\| \|\vec{b}\|}$. Dado que $\vec{a} \cdot \vec{b} = \|\vec{a}\| \|\vec{b}\| \cos(\theta)$ tu fórmula se reduce a $\cos(\theta)$, donde $\theta$ es el ángulo entre $\vec{a}$ y $\vec{b}$ en el espacio euclidiano de $n$ dimensiones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X