Mi pregunta puede ser una tontería. Así que me disculpo por adelantado.
Estaba intentando utilizar el modelo GLOVE preentrenado por el grupo de PNL de Stanford ( enlace ). Sin embargo, me di cuenta de que mis resultados de similitud mostraban algunos números negativos.
Eso me llevó inmediatamente a mirar el archivo de datos de vectores de palabras. Al parecer, se permitía que los valores de los vectores de palabras fueran negativos. Eso explicaba por qué veía similitudes negativas del coseno.
Estoy acostumbrado al concepto de similitud del coseno de los vectores de frecuencia, cuyos valores están acotados en [0, 1]. Sé que el producto punto y la función coseno pueden ser positivos o negativos, dependiendo del ángulo entre vectores. Pero me cuesta mucho entender e interpretar esta similitud negativa del coseno.
Por ejemplo, si tengo un par de palabras con una similitud de -0,1, ¿son menos similares que otro par cuya similitud es de 0,05? ¿Y si comparo la similitud de -0,9 con la de 0,8?
¿O debo fijarme en el valor absoluto de la diferencia de ángulo mínimo de $n\pi$ ? ¿Valor absoluto de las puntuaciones?
Muchas gracias.
1 votos
La etiqueta de similitud del coseno dice:
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
La única diferencia entre ambas es que en la correlación las desviaciones (momentos) -que se están multiplicando de forma cruzada- son respecto a la media, mientras que en el coseno las desviaciones son respecto al 0 original -es decir, son los valores tal cual-.3 votos
(cont.) La comprensión del coeficiente positivo o negativo es la misma en ambos casos. Coef. negativo significa que las desviaciones/valores positivos de un vector tienden a emparejarse con las desviaciones/valores negativos del otro. Que esto signifique que los vectores son "similares" o, por el contrario, "muy diferentes" depende del significado que tenga para usted las desviaciones/valores positivos y negativos en los datos.
0 votos
@ttnphns ¡Muchas gracias por tu comentario! Me inspira a pensar en la similitud coseno de una manera nueva. En mi caso de uso, tal vez puedo pensar en ello como una diferencia en los resultados finales: si la correlación de Doc A y B es negativo, y una revista uni-tópico X incluye Doc A, entonces es menos probable que X incluye B también, de alguna probabilidad media. ¿Le parece válida esta interpretación?
0 votos
No me atrevo a decirlo porque no conozco sus datos, el significado de los valores en ellos y su estudio.