9 votos

Agrupamiento de datos que tiene mezcla de las variables continuas y categóricas

Tengo datos que representan algún aspecto del comportamiento humano. Quiero clúster (sin supervisión) en perfiles de comportamiento de algún tipo. ahora, algunos de mis variables son categóricas (con 2 o más categorías), y algunos son continuas (la mayoría son porcentajes). Un par de variables son aún más complejo en el que una categoría tiene más continua y el otro no tiene ningún tipo de datos adicionales.

Mi pregunta es acerca de la forma de categorizar los datos. ¿Cuáles son los común (?) enfoques para tratar con él?

No necesito el código o nada, sino que algunas de las referencias o las direcciones que me ayudará a entender mejor cómo lidiar con este desafío.

Si usted sabe de R funciones que facilitan este tipo de análisis, que sería genial, pero no es necesario.

gracias.

1voto

Amadiere Puntos 5606
  1. Pasar mucho tiempo en semejanza de la comprensión de sus datos.
  2. Formalizar la noción de semejanza en una medida de similitud especializado, diseñada para el conjunto de datos particular (usted probablemente no será capaz de usar una similitud de fuera de la caja).
  3. Utilizar un algoritmo de agrupamiento que puede utilizar similarites arbitrarias, como el clustering jerárquico, DBSCAN, propagación de afinidad o agrupamiento espectral.

1voto

dan90266 Puntos 609

Ver https://cran.r-project.org/web/packages/ClustOfVar para el paquete de R ClustOfVar . Aparece poner en práctica algunos de los mejores métodos de clustering disponibles para mezclas de tipos de variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X