6 votos

Kmeans: ¿Es necesario estandarizar? ¿Se pueden utilizar variables categóricas? ¿Es Cluster 3.0 adecuado?

Estoy ejecutando kmeans para un estudio de investigación de mercado, y tengo un par de preguntas:

  1. ¿Debo estandarizar mis datos, y si es así, cómo? Por ejemplo, una de las variables que tengo es la demanda de productos, que se mide en una escala de siete puntos. Por otro lado, también tengo una variable de edad, que está en una escala muy diferente. ¿Debo estandarizarlas, y cómo?

  2. ¿Puedo usar variables categóricas en kmeans? Específicamente, me gustaría usar el género y la etnia. Si es posible, ¿cómo debería preparar estos datos para el análisis de clústeres? Supongo que les asignaría números, pero ¿cómo los estandarizaría con mis otros datos?

  3. Descargué el software de código abierto Cluster 3.0. ¿Es bueno para usarlo?

0 votos

Solo para el futuro, esta pregunta podría ser mejor si se hace como tres preguntas separadas.

0 votos

Creo que la respuesta a esta pregunta puede ayudarte. datascience.stackexchange.com/questions/22/…

7voto

Amadiere Puntos 5606

En primer lugar: sí: la estandarización es imprescindible a menos que tengas un argumento sólido de por qué no es necesaria. Probablemente prueba primero con puntuaciones z.

Los datos discretos son un problema mayor. K-means está diseñado para datos continuos. La media no será discreta, por lo que los centros de los clústeres probablemente serán anómalos. Tienes una alta probabilidad de que los algoritmos de clustering terminen descubriendo la naturaleza discreta de tus datos, en lugar de una estructura coherente.

Las variables categóricas son aún peores. K-means no puede manejarlas en absoluto; un truco popular es convertirlas en múltiples variables binarias (hombre, mujer). Sin embargo, esto expondrá los problemas mencionados anteriormente en una escala aún peor, porque ahora son múltiples variables binarias altamente correlacionadas.

Dado que aparentemente estás trabajando con datos de encuestas, considera usar clustering jerárquico. Con una función de distancia adecuada, puede manejar todos los problemas mencionados anteriormente. Solo necesitas dedicar un esfuerzo en encontrar una buena medida de similitud.

Cluster 3.0 - Ni siquiera lo he visto. Supongo que es una elección aceptable para personas que no son expertas en ciencia de datos. Probablemente similar a otras herramientas como Matlab. Le faltarán todos los algoritmos modernos, pero probablemente tenga una interfaz de usuario fácil de usar.

0voto

Hans Nasonn Puntos 21

Para el número uno: Sí, debes estandarizar, el método exacto realmente depende de lo que esperas obtener de los datos, pero en general necesitas tener todas las características en la misma escala. La razón de esto es porque de lo contrario, la característica con el rango más alto tendrá más peso en el proceso de agrupamiento. Por ejemplo, si tienes una característica con un rango de (0,100) y otra con un rango de (0,1), esta última no tendrá ningún efecto en el agrupamiento. Dado que el agrupamiento se basa en distancias, puedes ver cómo la característica con el rango más pequeño contribuye casi nada cuando se calcula una distancia.

Para el número dos: Sí, puedes usar variables categóricas utilizando una representación binaria. Por ejemplo, si tienes tres colores: azul, marrón, verde y digamos otras dos variables continuas como la edad y el peso, así es como representarías los datos antes de estandarizar:

azul, marrón, verde, edad, peso
0   ,  1 ,   0  , 25 , 150
1   ,  0 ,   0  , 26 , 140
0   ,  0 ,   1  , 26 , 130

Después de estandarizar debería lucir más o menos así

azul, marrón, verde, edad, peso
0   ,  1 ,   0  , 0.8 , 1
1   ,  0 ,   0  , 1 , 0.8
0   ,  0 ,   1  , 1 , 0.6

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X