Tengo un conjunto de datos X, que tiene 10 dimensiones, de las que 4 son valores discretos. De hecho, estas 4 variables discretas son ordinales, es decir, un valor más alto implica una mayor/mejor semántico.
2 de estas variables discretas son categóricos en el sentido de que para cada una de estas variables, la distancia, por ejemplo, de la 11 a la 12 no es la misma que la distancia de 5 a 6. Mientras que un mayor valor de la variable implica un mayor en la realidad, la escala no es necesariamente lineal (de hecho, no es realmente definido).
Mi pregunta es:
- Es una buena idea para aplicar en común un algoritmo de agrupamiento (por ejemplo, K-means y, a continuación, Mezcla Gaussiana (GMM)) a este conjunto de datos que contiene tanto discretas y variables continuas?
Si no:
- Debo quitar las variables discretas y se centran sólo en el continuo?
- Debo mejor discretizar la continua y utilizar un algoritmo de clustering para datos discretos?