Tengo registros (filas) en una base de datos y quiero calcular registros similares. Tengo una restricción para utilizar la similitud del coseno. Si las variables (atributos, columnas) varían en tipo y vienen en esta forma:
[number] [number] [boolean] [20 chars string]
¿cómo puedo proceder a la vectorización para aplicar la similitud del coseno? Para la cadena puedo tomar el simple tf-idf. ¿Pero para los números y los valores booleanos? ¿Y cómo se puede combinar?