4 votos

¿Cómo calcular la similitud del coseno en datos de varios tipos?

Tengo registros (filas) en una base de datos y quiero calcular registros similares. Tengo una restricción para utilizar la similitud del coseno. Si las variables (atributos, columnas) varían en tipo y vienen en esta forma:

[number] [number] [boolean] [20 chars string]

¿cómo puedo proceder a la vectorización para aplicar la similitud del coseno? Para la cadena puedo tomar el simple tf-idf. ¿Pero para los números y los valores booleanos? ¿Y cómo se puede combinar?

1voto

user138662 Puntos 1

Puede normalizar cada campo: dividir por el valor medio, etc. También puede ponderar los campos normalizados en función de su importancia a partir del conocimiento del dominio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X