6 votos

La comparación de coseno similitudes de tf-idf de los vectores de los documentos con diferente longitud

Estoy de computación coseno similitudes entre 2 vectores.

Estos son vectores de recuperación de información, la consulta y el documento representaciones respectivamente.

Ellos han sido calculadas usando tf-idf pesos.

Desde mis documentos tienen diferente longitud, tf-idf pesos son teóricamente ilimitado.

La pregunta es: es la similitud del coseno todavía una medida válida? Puedo comparar varios coseno similitudes para cada doc?

2voto

davenpcj Puntos 3424

Según el artículo de Wikipedia de la tf-idf:

El término count en el documento dado es simplemente el número de veces que un término aparece en ese documento. Este recuento es generalmente normalizado para evitar un sesgo hacia longitudes de documentos (que pueden tener un mayor plazo contar, independientemente de la importancia real de este término en el documento) para dar una medida de la importancia del término t en el documento d

Así, la normalización de la frecuencia de un término t por la longitud del documento d en el que se produce. A continuación, puede calcular la similitud del coseno entre el tf-idf vectores.

2voto

JMW.APRN Puntos 21

La similitud del coseno es todavía una medida válida. En realidad, esta es la regla de que el tf-idf pesos tienen longitudes diferentes para diferentes documentos, simplemente porque ellos no usan exactamente las mismas palabras. Observe que la palabra que falta en una tf-idf vector es en realidad una palabra con una frecuencia de 0.

Para que alargar los dos vectores de la misma longitud mediante la adición y la pareja de 0 y youb calcular la similitud del coseno.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X