14 votos

¿Cómo se mide la forma del racimo?

Sé que esta cuestión no está bien definida, pero algunos cúmulos tienden a ser elípticos o a situarse en un espacio de baja dimensión, mientras que los otros tienen formas no lineales (en ejemplos 2D o 3D).

¿Existe alguna medida de no linealidad (o "forma") de las agrupaciones?

Tenga en cuenta que en el espacio 2D y 3D, no es un problema ver la forma de cualquier cluster, pero en espacios de mayor dimensión es un problema decir algo sobre la forma. En particular, ¿hay alguna medida de lo convexo que es un cluster?

Me inspiré para esta pregunta en muchas otras cuestiones de clustering en las que se habla de clusters pero nadie es capaz de verlos (en espacios de mayor dimensión). Además, sé que existen algunas medidas de no linealidad para las curvas 2D.

4voto

jws121295 Puntos 36

Me gusta Modelos de mezclas gaussianas (GMM's).

Una de sus características es que, en dominio probit actúan como interpoladores a trozos. Una implicación de esto es que pueden actuar como una base de sustitución, un aproximador universal. Esto significa que para las distribuciones no gaussianas, como la lognormal, la weibull o las más locas no analíticas, siempre que se cumplan algunos criterios, el MMG puede aproximar la distribución.

Por lo tanto, si conoce los parámetros de la aproximación óptima AICc o BIC utilizando GMM, puede proyectarla a dimensiones más pequeñas. Puede girarlo y observar los ejes principales de los componentes del MMG aproximado.

La consecuencia sería una forma informativa y visualmente accesible de observar las partes más importantes de los datos de mayor dimensión utilizando nuestra percepción visual de la visión 3D.

EDIT: (seguro, whuber)

Hay varias maneras de ver la forma.

  • Se pueden observar las tendencias de los medios. Una lognormal se aproxima mediante una serie de gaussianos cuyas medias se acercan progresivamente y cuyos pesos se reducen a lo largo de la progresión. La suma aproxima la cola más pesada. En n dimensiones, una secuencia de tales componentes formaría un lóbulo. Se pueden rastrear las distancias entre las medias (convertir a una dimensión alta) y los cosenos de dirección entre ellas también. Esto se convertiría en dimensiones mucho más accesibles.
  • Puedes hacer un sistema 3d cuyos ejes sean el peso, la magnitud de la media y la magnitud de la varianza/covarianza. Si tienes un número muy alto de racimos, esta es una forma de verlos en comparación con los demás. Es una forma valiosa de convertir 50k piezas con 2k medidas cada una en unas pocas nubes en un espacio 3d. Puedo ejecutar el control de procesos en ese espacio, si así lo decido. Me gusta la recursividad de usar el control basado en el modelo de mezcla gaussiana en los componentes de los ajustes del modelo de mezcla gaussiana a los parámetros de las piezas.
  • En cuanto al desorden, se puede tirar por peso muy pequeño, o por peso por covarianza, o así.
  • Puede trazar la nube GMM en términos de BIC, $ R^2$ , distancia de Mahalanobis a los componentes o global, probabilidad de pertenencia o global.
  • Se podría ver como burbujas que se cruzan . El lugar de igual probabilidad (divergencia de Kullback-Leibler nula) existe entre cada par de clusters del GMM. Si rastrea esa posición, puede filtrar por probabilidad de pertenencia en esa ubicación. Así obtendrá los puntos de los límites de la clasificación. Esto le ayudará a aislar a los "solitarios". Puede contar el número de esos límites por encima del umbral por miembro y obtener una lista de "conectividad" por componente. También puede observar los ángulos y las distancias entre las ubicaciones.
  • Se puede volver a muestrear el espacio utilizando números aleatorios dados los PDF gaussianos, y luego realizar un análisis de componentes principales en él, y mirar las formas propias, y los valores propios asociados a ellos.

EDITAR:

¿Qué significa la forma? Dicen que la especificidad es el alma de toda buena comunicación. ¿Qué quiere decir con "medida"?

Ideas sobre lo que puede significar:

  • Sentido de la norma del globo ocular/sentido de la forma general. (extremadamente cualitativo, accesibilidad visual)
  • medida de la forma GD&T (coplanaridad, concentricidad, etc.) (extremadamente cuantitativa)
  • algo numérico (valores propios, covarianzas, etc...)
  • una coordenada útil de dimensión reducida (como los parámetros de GMM que se convierten en dimensiones)
  • un sistema de ruido reducido (suavizado de alguna manera, luego presentado)

La mayoría de las "varias formas" son alguna variación de éstas.

3voto

lmjohns3 Puntos 579

Esto podría ser bastante simplista, pero podría obtener alguna información haciendo un análisis de valores propios en cada uno de sus clusters.

Lo que yo intentaría es tomar todos los puntos asignados a un cluster y ajustarlos con una gaussiana multivariante. A continuación, puede calcular los valores propios de la matriz de covarianza ajustada y representarlos gráficamente. Hay muchas maneras de hacer esto; quizás la más conocida y ampliamente utilizada se llama análisis de componentes principales o PCA .

Una vez que se tienen los valores propios (también llamados espectro), se pueden examinar sus tamaños relativos para determinar lo "estirado" que está el cúmulo en ciertas dimensiones. Cuanto menos uniforme sea el espectro, más "en forma de cigarro" será el cúmulo, y cuanto más uniforme sea el espectro, más esférico será el cúmulo. Incluso se podría definir algún tipo de métrica para indicar la falta de uniformidad de los valores propios (¿entropía espectral?); véase http://en.wikipedia.org/wiki/Spectral_flatness .

Como ventaja adicional, puede examinar los componentes principales (los vectores propios asociados a los valores propios grandes) para ver "hacia dónde" apuntan los conglomerados "en forma de cigarro" en su espacio de datos.

Naturalmente, se trata de una aproximación burda para un cúmulo arbitrario, ya que sólo modela los puntos del cúmulo como un único elipsoide. Pero, como ya he dicho, puede darte alguna idea.

2voto

Amadiere Puntos 5606

Los algoritmos de agrupación por correlación, como 4C, ERiC o LMCLUS, suelen considerar que los clusters son variedades lineales. Es decir, hiperplanos de k dimensiones en un espacio de d dimensiones. Pues bien, para 4C y ERiC sólo son localmente lineales, por lo que de hecho pueden ser no convexos. Pero aun así intentan detectar clusters de una dimensionalidad local reducida.

Encontrar clusters de forma arbitraria en datos de alta dimensión es un problema bastante difícil. En particular, debido a la maldición de la dimensionalidad que permite que el espacio de búsqueda explote y, al mismo tiempo, también requiere que se tengan datos de entrada mucho más grandes si aún se quiere significativo resultados. Demasiados algoritmos no prestan atención a si lo que encuentran sigue siendo significativo o bien podría ser aleatorio.

Así que, de hecho, creo que hay otros problemas que resolver antes de pensar en la convexidad o no convexidad de los cúmulos complejos en el espacio de alta dimensión.

También hay que ver la complejidad de calcular el casco convexo en dimensiones superiores...

Además, ¿tiene un caso de uso real para eso más allá de la curiosidad?

2voto

Dario Solera Puntos 2804

Si su dimensionalidad no es mucho más alta que 2 o 3, entonces podría ser posible proyectar el cluster de interés en el espacio 2D múltiples veces y visualizar los resultados o usar su medida 2D de no linealidad. Se me ocurrió esto por el método Proyecciones Aleatorias http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Las proyecciones aleatorias pueden utilizarse para reducir la dimensionalidad con el fin de construir un índice. La teoría es que si dos puntos están cerca en D dimensiones y se toma una proyección aleatoria en d dimensiones con d

Para concretar, se puede pensar en proyectar un globo terráqueo sobre una superficie plana. No importa cómo lo proyectes, Nueva York y Nueva Jersey estarán juntas, pero sólo en raras ocasiones empujarás a Nueva York y Londres juntas.

No sé si esto puede ayudarte de forma rigurosa pero puede ser una forma rápida de visualizar los clusters.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X