Actualmente estoy trabajando con vectores de características que se componen de atributos continuos, por lo que puedo utilizar la distancia euclidiana para cosas como la clasificación KNN y la agrupación. Ahora quiero añadir un atributo nominal que tiene una función de distancia especial definida. ¿Qué opciones tengo para combinar estas funciones de distancia, de modo que siga obteniendo una distancia para dos vectores?
Respuesta
¿Demasiados anuncios?Se me ocurren tres:
- Combínelos de forma lineal ( $d=d_1+\alpha d_2$ ) y encontrar la mejor $\alpha$ por alguna optimización, digamos minimizar el error CV para kNN o minimizar la silueta para el clustering.
- Entrene clasificadores separados/agrupe los datos varias veces basándose en ambas distancias y luego mezcle los resultados. Esto puede no funcionar demasiado bien porque sólo tienes 2 métodos base.
- Sólo para la clasificación, puede utilizar "klNN" -- obtener $k$ vecinos basados en la primera métrica y $l$ basado en el segundo.