¿Por qué utilizar la distancia del coseno para la traducción automática (artículo de Mikolov)?

Question

¿Por qué utilizar la distancia del coseno para la traducción automática (artículo de Mikolov)?

Preguntado el 2 de Marzo, 2017: Cuando se hizo la pregunta
2363 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Actualmente estoy leyendo el artículo "Exploiting Similarities among Languages for Machine Translation" de Mikolov et al. (disponible aquí : https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/44931.pdf ) y me preguntaba por qué utilizaban la similitud del coseno para encontrar la palabra más cercana a z (página 4, después de la ecuación (3)) en lugar de una distancia más clásica (como la suma cuadrada de las diferencias de cada componente).

Así que mi pregunta es grande : ¿por qué esta distancia ya que al calcular la matriz W, debería actuar como una rotación y una escala? ¿Y hay algún registro del uso de incrustaciones de palabras con diferentes métricas de distancia y sus resultados?

Preguntado el 2 de Marzo, 2017 por Mark

Answer 1

1 Respuestas

Answer 2

3voto

Josh Pearce Puntos 2288

Creo que todavía está muy abierta la cuestión de qué métrica de distancia utilizar para word2vec al definir las palabras "similares". La similitud del coseno es bastante buena porque asume implícitamente que nuestros vectores de palabras están normalizados de manera que todos se sitúan en la bola unitaria, en cuyo caso es una distancia natural (el ángulo) entre dos cualquiera. Además, las palabras que son similares tiende para que los vectores estén cerca unos de otros, especialmente en longitud, lo que significa que sus magnitudes son comparables, por lo que de nuevo la distancia del coseno se convierte en algo natural.

En realidad, esto es mucho más complejo, porque word2vec no requiere explícitamente que los vectores de incrustación tengan todos longitud 1. De hecho, hay trabajos que muestran que hay información importante oculta en las longitudes de los vectores, por lo que se puede utilizar la distancia L2. Véase aquí, por ejemplo:

https://arxiv.org/pdf/1508.02297v1.pdf

Respondido el 2 de Marzo, 2017 por Josh Pearce (2288 Puntos )

¿Por qué utilizar la distancia del coseno para la traducción automática (artículo de Mikolov)?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué utilizar la distancia del coseno para la traducción automática (artículo de Mikolov)?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: