38 votos

La agrupación de un conjunto de datos con datos discretos y continuos variables

Tengo un conjunto de datos X, que tiene 10 dimensiones, de las que 4 son valores discretos. De hecho, estas 4 variables discretas son ordinales, es decir, un valor más alto implica una mayor/mejor semántico.

2 de estas variables discretas son categóricos en el sentido de que para cada una de estas variables, la distancia, por ejemplo, de la 11 a la 12 no es la misma que la distancia de 5 a 6. Mientras que un mayor valor de la variable implica un mayor en la realidad, la escala no es necesariamente lineal (de hecho, no es realmente definido).

Mi pregunta es:

  • Es una buena idea para aplicar en común un algoritmo de agrupamiento (por ejemplo, K-means y, a continuación, Mezcla Gaussiana (GMM)) a este conjunto de datos que contiene tanto discretas y variables continuas?

Si no:

  • Debo quitar las variables discretas y se centran sólo en el continuo?
  • Debo mejor discretizar la continua y utilizar un algoritmo de clustering para datos discretos?

18voto

8voto

alexus Puntos 3968

He tenido que lidiar con este tipo de problema en el pasado, y creo que no podría ser de 2 interesantes enfoques:

  • Continuousification: transformar los atributos simbólicos con una secuencia de enteros. Hay varias maneras de hacer esto, todo lo cual se describe en este documento. Usted puede tratar de NBF, VDM y de VMD algoritmos.

  • Discretización: transformar los atributos continuos en los valores simbólicos. De nuevo, muchos de los algoritmos, y una buena conferencia sobre este sería este artículo. Creo que el método más comúnmente utilizado es Holte del 1R, pero la mejor manera de saber con seguridad es mirar las curvas ROC en contra de algoritmos como EWD, EFD, ID, LD o NDD.

Una vez que tenga todas sus características en el mismo espacio, se convierte en un habitual de la agrupación problema.

Elegir entre continuousification o discretización depende de su conjunto de datos y cuáles son sus características se parecen, así que es un poco difícil de decir, pero te aconsejo que leas los artículos que te di sobre el tema.

5voto

Amadiere Puntos 5606

K-significa, obviamente, no tiene ningún sentido, como se calcula los medios (que son absurdas). Lo mismo va para GMM.

Es posible que desee probar la función de la distancia algoritmos de agrupación con la distancia apropiada de las funciones, por ejemplo DBSCAN.

El principal desafío es encontrar una función de distancia!

Mientras que usted podría poner una distancia diferente en función de k-means, se calcula la media que probablemente no tiene mucho sentido (y, probablemente, se mete con una función de distancia para valores discretos).

De todos modos, centrarse en primer lugar en definir lo "similar" . Luego de clúster usando esta definición de similares!

-2voto

Will Puntos 116

Enfoque mixto para ser adoptados: 1) clasificación del Uso de la técnica (C4.5 árbol de decisión) para clasificar el conjunto de datos en 2 clases. 2) una Vez hecho, dejar de variables categóricas y proceder con las variables continuas para la agrupación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X