Kmeans: ¿Es necesario estandarizar? ¿Se pueden utilizar variables categóricas? ¿Es Cluster 3.0 adecuado?

Question

Kmeans: ¿Es necesario estandarizar? ¿Se pueden utilizar variables categóricas? ¿Es Cluster 3.0 adecuado?

Preguntado el 13 de Mayo, 2013: Cuando se hizo la pregunta
6612 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estoy ejecutando kmeans para un estudio de investigación de mercado, y tengo un par de preguntas:

¿Debo estandarizar mis datos, y si es así, cómo? Por ejemplo, una de las variables que tengo es la demanda de productos, que se mide en una escala de siete puntos. Por otro lado, también tengo una variable de edad, que está en una escala muy diferente. ¿Debo estandarizarlas, y cómo?
¿Puedo usar variables categóricas en kmeans? Específicamente, me gustaría usar el género y la etnia. Si es posible, ¿cómo debería preparar estos datos para el análisis de clústeres? Supongo que les asignaría números, pero ¿cómo los estandarizaría con mis otros datos?
Descargué el software de código abierto Cluster 3.0. ¿Es bueno para usarlo?

Preguntado el 13 de Mayo, 2013 por lingyired

0 votos

Solo para el futuro, esta pregunta podría ser mejor si se hace como tres preguntas separadas.

Comentado el 14 de Mayo, 2013 por Eric Davis

0 votos

Creo que la respuesta a esta pregunta puede ayudarte. datascience.stackexchange.com/questions/22/…

Comentado el 4 de Mayo, 2016 por Jimmery

Answer 1

2 Respuestas

Answer 2

7voto

Amadiere Puntos 5606

En primer lugar: sí: la estandarización es imprescindible a menos que tengas un argumento sólido de por qué no es necesaria. Probablemente prueba primero con puntuaciones z.

Los datos discretos son un problema mayor. K-means está diseñado para datos continuos. La media no será discreta, por lo que los centros de los clústeres probablemente serán anómalos. Tienes una alta probabilidad de que los algoritmos de clustering terminen descubriendo la naturaleza discreta de tus datos, en lugar de una estructura coherente.

Las variables categóricas son aún peores. K-means no puede manejarlas en absoluto; un truco popular es convertirlas en múltiples variables binarias (hombre, mujer). Sin embargo, esto expondrá los problemas mencionados anteriormente en una escala aún peor, porque ahora son múltiples variables binarias altamente correlacionadas.

Dado que aparentemente estás trabajando con datos de encuestas, considera usar clustering jerárquico. Con una función de distancia adecuada, puede manejar todos los problemas mencionados anteriormente. Solo necesitas dedicar un esfuerzo en encontrar una buena medida de similitud.

Cluster 3.0 - Ni siquiera lo he visto. Supongo que es una elección aceptable para personas que no son expertas en ciencia de datos. Probablemente similar a otras herramientas como Matlab. Le faltarán todos los algoritmos modernos, pero probablemente tenga una interfaz de usuario fácil de usar.

Respondido el 13 de Mayo, 2013 por Amadiere (5606 Puntos )

Answer 3

0voto

Hans Nasonn Puntos 21

Para el número uno: Sí, debes estandarizar, el método exacto realmente depende de lo que esperas obtener de los datos, pero en general necesitas tener todas las características en la misma escala. La razón de esto es porque de lo contrario, la característica con el rango más alto tendrá más peso en el proceso de agrupamiento. Por ejemplo, si tienes una característica con un rango de (0,100) y otra con un rango de (0,1), esta última no tendrá ningún efecto en el agrupamiento. Dado que el agrupamiento se basa en distancias, puedes ver cómo la característica con el rango más pequeño contribuye casi nada cuando se calcula una distancia.

Para el número dos: Sí, puedes usar variables categóricas utilizando una representación binaria. Por ejemplo, si tienes tres colores: azul, marrón, verde y digamos otras dos variables continuas como la edad y el peso, así es como representarías los datos antes de estandarizar:

azul, marrón, verde, edad, peso
0   ,  1 ,   0  , 25 , 150
1   ,  0 ,   0  , 26 , 140
0   ,  0 ,   1  , 26 , 130

Después de estandarizar debería lucir más o menos así

azul, marrón, verde, edad, peso
0   ,  1 ,   0  , 0.8 , 1
1   ,  0 ,   0  , 1 , 0.8
0   ,  0 ,   1  , 1 , 0.6

Respondido el 29 de Junio, 2015 por Hans Nasonn (21 Puntos )

Kmeans: ¿Es necesario estandarizar? ¿Se pueden utilizar variables categóricas? ¿Es Cluster 3.0 adecuado?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Kmeans: ¿Es necesario estandarizar? ¿Se pueden utilizar variables categóricas? ¿Es Cluster 3.0 adecuado?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: