14 votos

Si existe la maldición de la dimensionalidad, ¿cómo funciona la búsqueda de incrustación?

La maldición de la dimensionalidad nos dice que si la dimensión es alta, la métrica de distancia dejará de funcionar, es decir, todo el mundo estará cerca de todos.

Sin embargo, muchos sistemas de recuperación de aprendizaje automático se basan en calcular incrustaciones y recuperar puntos de datos similares basados en las incrustaciones. Estas dimensiones de incrustación pueden ser de 512, 1024 o 2048, lo cual es muy alto.

Mi pregunta es: Si la maldición de la dimensionalidad existe, ¿cómo funciona la búsqueda de incrustaciones?

4voto

nunya Puntos 21

El origen del modelo de espacio vectorial es el siguiente:

La idea de que el significado de una palabra podría modelarse como un punto en un espacio semántico multidimensional provino de psicólogos como Charles E. Osgood, quienes habían estado estudiando cómo las personas respondían al significado de las palabras asignando valores a lo largo de escalas como feliz/triste o duro/suave. Osgood et al. (1957) propusieron que el significado de una palabra en general podría modelarse como un punto en un espacio euclidiano multidimensional, y que la similitud de significado entre dos palabras podría modelarse como la distancia entre estos puntos en el espacio.

Para la pregunta

¿cómo funciona la búsqueda de incrustaciones?

Hay dos métodos: 1) tienes la incrustación A y calculas las distancias del coseno entre A y todas las incrustaciones en un corpus y clasificas las incrustaciones por las distancias para encontrar las incrustaciones más cercanas; o 2) puedes probar la búsqueda de vecinos más cercanos aproximados usando FAISS o ScaNN.

¿Por qué coseno? Porque es el producto punto normalizado ya que el producto punto favorece a vectores largos.

La incrustación es el resultado de uno de los dos modelos semánticos vectoriales: modelos de vectores dispersos y modelos de vectores densos. Las incrustaciones se obtienen de modelos de vectores densos, y los modelos de vectores dispersos incluyen matrices palabra-contexto y término-término. También podemos utilizar distancias entre vectores dispersos para medir similitudes/asociaciones semánticas.

Referencia:

Procesamiento del lenguaje y del habla: Una introducción al procesamiento del lenguaje natural

1voto

gen Puntos 11

Creo que esta pregunta no ha sido respondida suficientemente a pesar de ser una buena pregunta.

La maldición de la dimensionalidad básicamente dice que 3 vectores aleatorios en un espacio de alta dimensión tienen aproximadamente la misma distancia entre ellos en términos de distancia euclidiana. Esto es cierto, también en el caso de dim = 512.

Sin embargo, en la búsqueda de vectores para incrustaciones hay diferencias clave:

  1. Los vectores no son aleatorios: Estamos incrustando texto y preguntas. Nuestro objetivo es medir si están relacionados, y si es así, cómo están relacionados.
  2. No estamos trabajando con distancia euclidiana y usualmente con vectores normalizados, es decir,
  • $dist_{euchlidean} = d(\mathbf{p}, \mathbf{q}) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}$
  • $dist_{cosine}=d(\mathbf{a}, \mathbf{b}) = 1 - \frac{\mathbf{a} \cdot \mathbf{b}}{\|\mathbf{a}\| \|\mathbf{b}\|} = \mathbf{a} \cdot \mathbf{b}$ , nota que la distancia coseno es un número entre -1 y 1.

La distancia coseno mide el ángulo coseno entre dos vectores. Es un concepto muy diferente a la distancia euclidiana que medirá la longitud de un vector entre esos dos. Mientras que la longitud del vector aumentará con una dimensión aumentada, no es el caso para el coseno. Por lo tanto, la maldición de la dimensionalidad no tiene aplicación aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X