2 votos

¿Cómo calcular UN número a partir de la distancia de correlación de Pearson de más de dos variables?

Distancia de correlación de Pearson: $$d_{cor}(x,y)=1- \frac{ \sum \limits_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y}) }{ \sqrt{ \sum \limits_{i=1}^{n} (x_i-\bar{x})^2 \sum \limits_{i=1}^{n} (y_i-\bar{y})^2 } }$$

Estoy utilizando el paquete 'factoextra' en R para calcular medidas de distancia de correlación. Esta es la tutorial . El conjunto de datos contiene 4 variables continuas (Asesinato, Asalto, UrbanPop, Violación), y aquí está el resultado de la distancia de correlación de Pearson: enter image description here

Mi pregunta es, ¿cómo puede ser la distancia de correlación de 4 variables UN número exacto entre 0 y 2? Tal vez cada valor de distancia (Texas-Iowa) son la salida es el valor ponderado de 4 distancias (Asesinato, Asalto, UrbanPop, Violación), ¿no? No he podido encontrar la documentación de la función R. ¿Cuál sería la explicación racional a este problema?

4voto

Richard Gayle Puntos 41

Esto suena bien. La distancia de Pearson, como ha escrito más arriba, se define como $d_p = 1 - r$ donde $r=\frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y}$ es el coeficiente de correlación de Pearson. Como el coeficiente de correlación de Pearson se encuentra dentro del intervalo $[-1, 1]$ entonces la distancia de Pearson se encuentra en algún punto del intervalo $[0, 2]$ . La función get_dist del paquete permite elegir el método para obtener las distancias en la matriz de distancias anterior (es decir, debe ser uno de los siguientes: "euclidiano", "manhattan", "minkowski", "pearson", etc.). Como has elegido "pearson", obtienes estos valores, por lo que calcula la distancia utilizando la fórmula de $d_p$ .

Aquí no estamos encontrando la distancia de correlación entre las 4 variables. Encontramos una distancia entre cada par de estados, y exploramos posibles conglomerados. Cada estado tiene datos para estas 4 variables continuas. Para hallar la distancia de Pearson entre dos estados, y trazarla como se muestra arriba: tomamos la variable $x_1,x_2,x_3,x_4$ que representan los valores observados de las 4 variables para el estado 1, y $y_1,y_2,y_3,y_4$ para el estado 2. Utilice sus valores en la fórmula de distancia de Pearson y obtendrá el gráfico anterior.

(Si en su lugar eligiera la distancia euclidiana, la distancia entre los dos estados sería $\sum_1^4(x_i-y_i)^2$ .)

Espero que le sirva de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X