Hay una simple estadística de prueba que puede utilizar para determinar si mis datos son esféricamente separables? Estoy planeando utilizar Kmeans++ para dividir 48 dimensiones de los vectores en grupos, pero acabo de leer que esto depende de la suposición de que mis datos es esféricamente separables...
Respuestas
¿Demasiados anuncios?Creo que lo mejor y lo más fácil que puede hacer cuando se tienen datos es que se acaba de implementar su modelo (k-means), tren a su modelo, y luego validar el modelo en los invisibles de datos. El error de validación indica cómo de buena es tu modelo. De forma segura puede comparar cualquier número de modelos de esta manera.
La visualización puede trabajar para modelos pequeños, pero es muy difícil proyectar el 48 dimensiones de los vectores tiene 2 dimensiones y esperar a ver que clase de separaciones. Esencialmente, su k-means es hacer una proyección ya.
Otras respuestas se señala que k-means hace suposiciones. Todos los modelos de hacer suposiciones. Si se hacen las suposiciones equivocadas, luego de que se reveló al validar.
Utilizando este blog como referencia parece que es posible hacerlo mejor que la de "tratar de agrupamiento' y 'visualizar':
1) todas las variables deben tener la misma varianza, entonces puedo usar de Bartlett de la prueba en todas las variables.
2) la probabilidad anterior para todos los k grupos son iguales (es decir, cada grupo tiene aproximadamente el mismo número de observaciones) y esto es algo que se puede comprobar así.
3) k-significa asumir que la varianza de la distribución de cada variable es esférico
Ahora, no estoy seguro de cómo probar el punto 3 que es mi pregunta. Pero, al menos estas tres condiciones deben tener. Así que no estoy limitado a la comprobación de si la varianza de la distribución de cada variable es esférico.