6 votos

TF-IDF frente a la similitud del coseno en la búsqueda de documentos

Me pregunto si alguien puede ayudarme o indicarme algunos recursos para aprender más sobre TF-IDF y la búsqueda de documentos.

Estoy tratando de implementar una búsqueda básica de documentos y estoy tratando de entender mejor las diferencias y compensaciones para mi enfoque.

Mi método actual consiste en analizar todas las palabras de un conjunto de documentos y calcular un valor TF-IDF normalizado para cada par documento-palabra. Cuando realizo una consulta con palabras clave, simplemente busco cada palabra de la palabra clave, sumo los valores TF-IDF de cada documento-palabra y los clasifico de ese modo.

¿Existen inconvenientes/diferencias/errores al utilizar este enfoque? ¿Qué diferencia hay con la creación de un vector para cada documento, la creación de un vector para la consulta de búsqueda y el cálculo de la similitud coseno para encontrar las coincidencias más próximas?

6voto

Xeon tiene razón en que TF-IDF y la similitud del coseno son dos cosas distintas. TF-IDF le dará una representación para un término dado en un documento. La similitud coseno le dará una puntuación para dos documentos diferentes que compartan la misma representación. Sin embargo, "una de las funciones de clasificación más sencillas se calcula sumando el tf-idf de cada término de la consulta" . Esta solución está orientada a documentos largos en los que aparecerán más términos (por ejemplo, la Enciclopedia Británica). Además, existen enfoques mucho más avanzados basados en una idea similar (sobre todo Okapi BM25 ).

En general, debería utilizar la similitud coseno si está comparando elementos con la misma naturaleza (por ejemplo, documentos frente a documentos) o cuando necesite que la propia puntuación tenga algún valor significativo. En el caso de la similitud coseno, un 1,0 significa que los dos elementos son exactamente iguales según su representación. Recomiendo estos recursos para saber más sobre el tema:

Recuperación moderna de información por Ricardo Baeza-Yates y otros,
Introducción a la recuperación de información por Christopher Manning et al.

3voto

Valentin Kantor Puntos 176

TF-IDF trata de las características y su normalización. La métrica del coseno es la métrica que se utilizará para puntuar.

Si mi memoria no me falla, TF normaliza el recuento de palabras en un vector. A continuación, se pueden comparar los vectores normalizados por TF utilizando la métrica del coseno. Al añadir la ponderación DF se trata de ponderar los términos demasiado frecuentes (por ejemplo, las palabras vacías) para que no dominen otras características menos frecuentes (y a menudo más informativas).

Limpie su corpus antes de crear vectores TF-IDF. Haga, por ejemplo, un stemming (por ejemplo, utilice Porter stemmer). Esto reducirá el vocabulario y hará que los vectores de palabras sean menos ortogonales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X