El origen del modelo de espacio vectorial es el siguiente:
La idea de que el significado de una palabra podría modelarse como un punto en un espacio semántico multidimensional provino de psicólogos como Charles E. Osgood, quienes habían estado estudiando cómo las personas respondían al significado de las palabras asignando valores a lo largo de escalas como feliz/triste o duro/suave. Osgood et al. (1957) propusieron que el significado de una palabra en general podría modelarse como un punto en un espacio euclidiano multidimensional, y que la similitud de significado entre dos palabras podría modelarse como la distancia entre estos puntos en el espacio.
Para la pregunta
¿cómo funciona la búsqueda de incrustaciones?
Hay dos métodos: 1) tienes la incrustación A y calculas las distancias del coseno entre A y todas las incrustaciones en un corpus y clasificas las incrustaciones por las distancias para encontrar las incrustaciones más cercanas; o 2) puedes probar la búsqueda de vecinos más cercanos aproximados usando FAISS o ScaNN.
¿Por qué coseno? Porque es el producto punto normalizado ya que el producto punto favorece a vectores largos.
La incrustación es el resultado de uno de los dos modelos semánticos vectoriales: modelos de vectores dispersos y modelos de vectores densos. Las incrustaciones se obtienen de modelos de vectores densos, y los modelos de vectores dispersos incluyen matrices palabra-contexto y término-término. También podemos utilizar distancias entre vectores dispersos para medir similitudes/asociaciones semánticas.
Referencia:
Procesamiento del lenguaje y del habla: Una introducción al procesamiento del lenguaje natural