Depende de a qué te refieres con "lo hizo bastante bien" y en la población. Para el general de las poblaciones de adultos en el mundo desarrollado no creo que esto funcione muy bien: la estatura y el peso por sí solos no son grandes a distinguir los géneros.
La mejor y más fácil manera de evaluar la situación , es hacer un diagrama de dispersión de la altura y el peso, para distinguir los símbolos de puntos por género. Este es uno de los (NOS) NHANES 2011-2012 datos, donde me han quitado de datos para cualquier persona menor de 18 años. Nota: las escalas logarítmicas, las cuales hacen que cada punto de la nube, aproximadamente, de forma oval. (Usted puede adivinar que tipo de símbolo: sólido de color rojo o azul abierto--, que corresponde a la de género.)
La coincidencia sustancial entre las nubes para los dos géneros (entre 160 y 170 centímetros, aproximadamente) muestra que no hay un análisis de cluster basado únicamente en la altura y el peso podría hacer un muy buen trabajo de discriminar a los hombres de las mujeres. La falta parcial de superposición, revelado por la nube de color azul por encima de 180 cm y la nube roja por debajo de 150 cm, muestra que una agrupación resultado, sin embargo, tiene cierta capacidad discriminatoria. Si esto sería lo suficientemente bueno depende de tus objetivos y normas para la precisión predictiva.
Si, en el conjunto de datos, las dos nubes parecen tener poca o ninguna superposición, entonces no sólo se puede esperar de un análisis de cluster (como K-means) para que funcione bien, ya se puede ver donde los centros de clúster debe ser y cuando una línea divisoria ("discriminador lineal") sería aproximadamente se encuentra.
Aquí son dos k-means soluciones para estos datos: uno basado en la logaritmos y otro basado en por separado estandarizada de las alturas y los pesos. Los dos grupos se distinguen por la ligereza de los símbolos.
(El número de casos que se muestran en estas parcelas es de 90 menos que el número que aparece en la primera figura debido a la falta de valores, los cuales deben originalmente han sido excluidas).
Evidentemente, en ambos casos, los racimos, aunque relacionado con el sexo, no separa los dos colores muy bien. La mejor solución, a partir de los datos estandarizados, los rendimientos de estos tabulación cruzada de las estadísticas de clúster y de género:
Cluster
Gender 1 2
Male 1951 786
Female 586 2202
El 29% de todos los hombres y el 21% de todas las mujeres son mal clasificados.