5 votos

Elección de la métrica de la distancia cuando los datos son una combinación de texto/numérico/categórico

Tengo una gran tabla de atributos de diferentes cines del mundo real. Los he clasificado por la entidad física "verdadera" a la que pertenecen, de modo que puede haber varios registros para una entidad de cine determinada.

En esta tabla, tengo información como los nombres, cuántas pantallas tienen, etc. Dada alguna información identificativa (parte del nombre, una línea de la dirección y el número de pantallas, por ejemplo) me gustaría clasificar la información dada a la entidad a la que está asociada, y añadirla a la base de datos.

Estaba pensando en utilizar un algoritmo como el del vecino más cercano, pero la elección de la métrica de la distancia parece limitante. Las únicas implementaciones que he visto utilizan toda la información numérica o de texto para calcular la distancia.

¿Cómo puedo calcular una métrica de distancia para datos que pueden ser numéricos, de texto y categóricos?

6voto

lejlot Puntos 1379

Te refieres a un problema muy difícil de encontrar la mejor métrica posible. Es un problema difícil incluso para los datos unimodales, el caso multimodal al que te refieres es un gran reto. Hay básicamente tres posibilidades:

  • utilizar alguna métrica primitiva, como la distancia euclidiana, tratando todo como números (también se pueden convertir los valores categóricos en algunos valores). Esto dará resultados bastante pobres, pero es la posibilidad más sencilla y te da tiempo para analizar y optimizar el resto del sistema.
  • realizar un análisis profundo de sus datos y/o encontrar un experto capaz de diseñar una buena métrica. Esto es lo más difícil de hacer, pero daría los mejores resultados (suponiendo que tengas acceso a un "verdadero experto").
  • añadir una capa de abstracción adicional a su problema y tratar la búsqueda de esta métrica como un problema de optimización en sí mismo. Hay numerosos estudios que muestran cómo se pueden encontrar buenas métricas multimodales para cualquier tipo de datos formalizándolas como un problema de optimización y aplicando uno de los muchos solucionadores matemáticos conocidos. Algunos ejemplos de estos estudios serían:

4voto

Amadiere Puntos 5606

En primer lugar, debe darse cuenta de que no existe una única distancia "correcta" para sus datos .

Dadas dos coordenadas, Euclidiano La distancia es adecuada cuando se trata de una distancia corta sin restricciones de desplazamiento. Manhattan La distancia suele ser más apropiada cuando se está en una ciudad con una distribución en cuadrícula. Sin embargo, para obtener tiempos de viaje más precisos, tendrá que mirar la red de carreteras subyacente y el distancia de la red en el mismo. Ah, y si se trata de coordenadas intercontinentales, el varias fórmulas diferentes para aproximar la distancia del círculo máximo puede ser una buena opción.

Así que incluso para las coordenadas 2d en la tierra, no hay una distancia "correcta" sin información lateral y datos adicionales.

Ahora bien, para los datos de tipo mixto no vectorial, existen una serie de métricas que tal vez quieras entender y probar; como por ejemplo La medida de similitud de Gower .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X