No estoy seguro de si este es el sitio de la pila derecha, pero aquí va.
¿Cómo funciona el método .similiarity?
¡Wow spaCy es genial! ¡Su modelo tfidf podría ser más fácil, pero w2v con sólo una línea de código?!
En su tutorial de 10 líneas sobre spaCy andrazhribernik nos muestra el método .similarity que puede ejecutarse en tokens, sents, trozos de palabras y docs.
En nlp = spacy.load('en')
y doc = nlp(raw_text)
podemos hacer consultas de similitud entre tokens y chunks. Sin embargo, lo que se está calculando entre bastidores en este .similarity
¿método?
SpaCy ya cuenta con el increíblemente sencillo .vector
que calcula el vector w2v entrenado a partir del modelo GloVe (qué guay sería un .tfidf
o .fasttext
).
¿El modelo calcula simplemente la similitud del coseno entre estos dos vectores w2v, .vector, o compara alguna otra matriz? Los detalles no están claros en el documentación Cualquier ayuda es bienvenida.