Tengo dos listas de frases cortas (Lista A y Lista B). Para cada frase corta en la Lista A, estoy tratando de encontrar la frase corta más similar en la Lista B.
Cada lista tiene un número diferente de elementos ~10000 elementos cada una con entre 1 y 10 palabras por frase.
¿Cuál es la mejor manera de hacer esto en python?
Intenté convertir cada frase corta en un vector one-hot, pero debido a que las dos listas tienen un número diferente de elementos, los vectores one-hot no coinciden en longitud al verificar la similitud del coseno. Pensé que la distancia de Levenshtein no funcionaría en este caso y la función de similitud de word2vec de gensim parece funcionar para un conjunto de datos pero no para encontrar una similitud en una lista diferente. Sin embargo, podría estar equivocado con cualquiera de estas suposiciones.
¡Cualquier ayuda o dirección sería muy apreciada!