4 votos

Análisis de conglomerados K-means con K = 2 como clasificador binario

Usé dos variables, altura y peso, y usando el análisis de clúster K-means con$K=2$, se obtuvieron dos clústeres. Usé$K=2$, ya que las observaciones pertenecen a hombres o mujeres. Luego comparé los conglomerados obtenidos con la clasificación real. Observé que K-means lo hizo bastante bien.

¿Suena lógico?

8voto

jldugger Puntos 7490

Depende de a qué te refieres con "lo hizo bastante bien" y en la población. Para el general de las poblaciones de adultos en el mundo desarrollado no creo que esto funcione muy bien: la estatura y el peso por sí solos no son grandes a distinguir los géneros.

La mejor y más fácil manera de evaluar la situación , es hacer un diagrama de dispersión de la altura y el peso, para distinguir los símbolos de puntos por género. Este es uno de los (NOS) NHANES 2011-2012 datos, donde me han quitado de datos para cualquier persona menor de 18 años. Nota: las escalas logarítmicas, las cuales hacen que cada punto de la nube, aproximadamente, de forma oval. (Usted puede adivinar que tipo de símbolo: sólido de color rojo o azul abierto--, que corresponde a la de género.)

Figure

La coincidencia sustancial entre las nubes para los dos géneros (entre 160 y 170 centímetros, aproximadamente) muestra que no hay un análisis de cluster basado únicamente en la altura y el peso podría hacer un muy buen trabajo de discriminar a los hombres de las mujeres. La falta parcial de superposición, revelado por la nube de color azul por encima de 180 cm y la nube roja por debajo de 150 cm, muestra que una agrupación resultado, sin embargo, tiene cierta capacidad discriminatoria. Si esto sería lo suficientemente bueno depende de tus objetivos y normas para la precisión predictiva.

Si, en el conjunto de datos, las dos nubes parecen tener poca o ninguna superposición, entonces no sólo se puede esperar de un análisis de cluster (como K-means) para que funcione bien, ya se puede ver donde los centros de clúster debe ser y cuando una línea divisoria ("discriminador lineal") sería aproximadamente se encuentra.

Aquí son dos k-means soluciones para estos datos: uno basado en la logaritmos y otro basado en por separado estandarizada de las alturas y los pesos. Los dos grupos se distinguen por la ligereza de los símbolos.

Figure 2

(El número de casos que se muestran en estas parcelas es de 90 menos que el número que aparece en la primera figura debido a la falta de valores, los cuales deben originalmente han sido excluidas).

Evidentemente, en ambos casos, los racimos, aunque relacionado con el sexo, no separa los dos colores muy bien. La mejor solución, a partir de los datos estandarizados, los rendimientos de estos tabulación cruzada de las estadísticas de clúster y de género:

        Cluster
Gender      1    2
  Male   1951  786
  Female  586 2202

El 29% de todos los hombres y el 21% de todas las mujeres son mal clasificados.

2voto

Zizzencs Puntos 1358

Sí, suena sensato. No estoy seguro de por qué sospecharías que no fue así.

Los hombres tienden a ser más altos y más pesados ​​que las mujeres. Los números exactos varían según el país ( algunos datos aquí en peso y aquí en altura. Combinarlos debería hacer que la clasificación sea aún mejor).

1voto

Amadiere Puntos 5606

Tenga cuidado de artefactos.

K-means se supone que cada atributo tiene el mismo peso.

Si, por ejemplo, un atributo es la altura en metros, y el otro es el peso en g, entonces el resultado de k-means dependerá casi exclusivamente en el peso.

Si este atributo, a continuación, es útil para separar sus dos clases, el resultado será mucho más impresionante de lo que es lógicamente.

Visualizar, consultar, visualizar! A menudo, dichos artefactos se pueden ver ya en una primitiva de visualización. En su caso, recomiendo mirar histogramas así como diagramas de dispersión; ambos con etiquetas de clase y los grupos visualizado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X