La mayoría de los clásicos de la agrupación y reducción de dimensionalidad de algoritmos de agrupamiento jerárquico, análisis de componentes principales, k-means, self-organizing maps,...) están diseñados específicamente para los datos numéricos, y sus datos de entrada son vistos como puntos en un espacio euclidiano.
Este es un problema de curso, como muchos en el mundo real las preguntas se refieren a datos que son mixtos: por ejemplo, si hacemos un estudio de los autobuses, la altura y la longitud y el tamaño del motor será números, pero también podríamos estar interesados en color (variable categórica: azul/rojo/verde...) y la capacidad de clases (ordenado variable: pequeño/mediano/grande de la capacidad). Específicamente, puede que se desee para el estudio de estos diferentes tipos de variables simultáneamente.
Hay un número de métodos para extender la clásica agrupación algos a la mezcla de datos, por ejemplo utilizando una similaridad de Gower para conectar a la agrupación jerárquica o de escalamiento multidimensional, u otros métodos que tomar distancia de la matriz como de entrada. O por ejemplo este método, una extensión de la SOM de datos mixtos.
Mi pregunta es: ¿por qué no podemos simplemente utilizar la distancia euclídea mixto variables? o ¿por qué es malo hacerlo? ¿Por qué no podemos simplemente ficticio-codificar las variables categóricas, la normalización de todas las variables, de modo que tienen un peso similar en la distancia entre las observaciones, y ejecutar el habitual algos en estas matrices?
Es muy fácil, y de hecho nunca, así que supongo que es muy malo, pero ¿alguien puede decirme por qué? Y/o darme algunas referencias? Gracias