Tengo una gran tabla de atributos de diferentes cines del mundo real. Los he clasificado por la entidad física "verdadera" a la que pertenecen, de modo que puede haber varios registros para una entidad de cine determinada.
En esta tabla, tengo información como los nombres, cuántas pantallas tienen, etc. Dada alguna información identificativa (parte del nombre, una línea de la dirección y el número de pantallas, por ejemplo) me gustaría clasificar la información dada a la entidad a la que está asociada, y añadirla a la base de datos.
Estaba pensando en utilizar un algoritmo como el del vecino más cercano, pero la elección de la métrica de la distancia parece limitante. Las únicas implementaciones que he visto utilizan toda la información numérica o de texto para calcular la distancia.
¿Cómo puedo calcular una métrica de distancia para datos que pueden ser numéricos, de texto y categóricos?