Me pregunto si alguien puede ayudarme o indicarme algunos recursos para aprender más sobre TF-IDF y la búsqueda de documentos.
Estoy tratando de implementar una búsqueda básica de documentos y estoy tratando de entender mejor las diferencias y compensaciones para mi enfoque.
Mi método actual consiste en analizar todas las palabras de un conjunto de documentos y calcular un valor TF-IDF normalizado para cada par documento-palabra. Cuando realizo una consulta con palabras clave, simplemente busco cada palabra de la palabra clave, sumo los valores TF-IDF de cada documento-palabra y los clasifico de ese modo.
¿Existen inconvenientes/diferencias/errores al utilizar este enfoque? ¿Qué diferencia hay con la creación de un vector para cada documento, la creación de un vector para la consulta de búsqueda y el cálculo de la similitud coseno para encontrar las coincidencias más próximas?