36 votos

¿Existe alguna relación entre la similitud del coseno, la correlación de Pearson y la puntuación z?

Me pregunto si hay alguna relación entre estas 3 medidas. No consigo establecer una conexión entre ellas consultando las definiciones (posiblemente porque soy nuevo en estas definiciones y me cuesta un poco entenderlas).

Sé que el rango de la similitud del coseno puede ser de 0 a 1, y que la correlación de Pearson puede ir de -1 a 1, y no estoy seguro del rango de la puntuación z.

Sin embargo, no sé cómo un determinado valor de la similitud del coseno podría decir algo sobre la correlación de Pearson o la puntuación z, y viceversa.

60voto

GeoMatt22 Puntos 1290

El similitud del coseno entre dos vectores $a$ y $b$ es sólo el ángulo entre ellos $$\cos\theta = \frac{a\cdot b}{\lVert{a}\rVert \, \lVert{b}\rVert}$$ En muchas aplicaciones que utilizan la similitud del coseno, los vectores son no negativos (por ejemplo, un vector de frecuencia de términos para un documento), y en este caso la similitud del coseno también será no negativa.

Para un vector $x$ el " $z$ -El vector "puntuación" se definiría normalmente como $$z=\frac{x-\bar{x}}{s_x}$$ donde $\bar{x}=\frac{1}{n}\sum_ix_i$ y $s_x^2=\overline{(x-\bar{x})^2}$ son la media y la desviación estándar de $x$ . Así que $z$ tiene una media de 0 y una desviación estándar de 1, es decir $z_x$ es el estandarizado versión de $x$ .

Para dos vectores $x$ y $y$ su coeficiente de correlación sería $$\rho_{x,y}=\overline{(z_xz_y)}$$

Ahora bien, si el vector $a$ tiene media cero, entonces su varianza será $s_a^2=\frac{1}{n}\lVert{a}\rVert^2$ por lo que su vector unitario y su puntuación z estarán relacionados por $$\hat{a}=\frac{a}{\lVert{a}\rVert}=\frac{z_a}{\sqrt n}$$

Así que si los vectores $a$ y $b$ están centrados (es decir, tienen media cero), entonces su similitud del coseno será la misma que su coeficiente de correlación.

TL;DR La similitud del coseno es un producto punto de vectores unitarios. La correlación de Pearson es la similitud del coseno entre vectores centrados. La "transformada Z" de un vector es el vector centrado escalado a una norma de $\sqrt n$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X