Actualmente estoy leyendo el artículo "Exploiting Similarities among Languages for Machine Translation" de Mikolov et al. (disponible aquí : https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/44931.pdf ) y me preguntaba por qué utilizaban la similitud del coseno para encontrar la palabra más cercana a z (página 4, después de la ecuación (3)) en lugar de una distancia más clásica (como la suma cuadrada de las diferencias de cada componente).
Así que mi pregunta es grande : ¿por qué esta distancia ya que al calcular la matriz W, debería actuar como una rotación y una escala? ¿Y hay algún registro del uso de incrustaciones de palabras con diferentes métricas de distancia y sus resultados?