Me gusta Modelos de mezclas gaussianas (GMM's).
Una de sus características es que, en dominio probit actúan como interpoladores a trozos. Una implicación de esto es que pueden actuar como una base de sustitución, un aproximador universal. Esto significa que para las distribuciones no gaussianas, como la lognormal, la weibull o las más locas no analíticas, siempre que se cumplan algunos criterios, el MMG puede aproximar la distribución.
Por lo tanto, si conoce los parámetros de la aproximación óptima AICc o BIC utilizando GMM, puede proyectarla a dimensiones más pequeñas. Puede girarlo y observar los ejes principales de los componentes del MMG aproximado.
La consecuencia sería una forma informativa y visualmente accesible de observar las partes más importantes de los datos de mayor dimensión utilizando nuestra percepción visual de la visión 3D.
EDIT: (seguro, whuber)
Hay varias maneras de ver la forma.
- Se pueden observar las tendencias de los medios. Una lognormal se aproxima mediante una serie de gaussianos cuyas medias se acercan progresivamente y cuyos pesos se reducen a lo largo de la progresión. La suma aproxima la cola más pesada. En n dimensiones, una secuencia de tales componentes formaría un lóbulo. Se pueden rastrear las distancias entre las medias (convertir a una dimensión alta) y los cosenos de dirección entre ellas también. Esto se convertiría en dimensiones mucho más accesibles.
- Puedes hacer un sistema 3d cuyos ejes sean el peso, la magnitud de la media y la magnitud de la varianza/covarianza. Si tienes un número muy alto de racimos, esta es una forma de verlos en comparación con los demás. Es una forma valiosa de convertir 50k piezas con 2k medidas cada una en unas pocas nubes en un espacio 3d. Puedo ejecutar el control de procesos en ese espacio, si así lo decido. Me gusta la recursividad de usar el control basado en el modelo de mezcla gaussiana en los componentes de los ajustes del modelo de mezcla gaussiana a los parámetros de las piezas.
- En cuanto al desorden, se puede tirar por peso muy pequeño, o por peso por covarianza, o así.
- Puede trazar la nube GMM en términos de BIC, $ R^2$ , distancia de Mahalanobis a los componentes o global, probabilidad de pertenencia o global.
- Se podría ver como burbujas que se cruzan . El lugar de igual probabilidad (divergencia de Kullback-Leibler nula) existe entre cada par de clusters del GMM. Si rastrea esa posición, puede filtrar por probabilidad de pertenencia en esa ubicación. Así obtendrá los puntos de los límites de la clasificación. Esto le ayudará a aislar a los "solitarios". Puede contar el número de esos límites por encima del umbral por miembro y obtener una lista de "conectividad" por componente. También puede observar los ángulos y las distancias entre las ubicaciones.
- Se puede volver a muestrear el espacio utilizando números aleatorios dados los PDF gaussianos, y luego realizar un análisis de componentes principales en él, y mirar las formas propias, y los valores propios asociados a ellos.
EDITAR:
¿Qué significa la forma? Dicen que la especificidad es el alma de toda buena comunicación. ¿Qué quiere decir con "medida"?
Ideas sobre lo que puede significar:
- Sentido de la norma del globo ocular/sentido de la forma general. (extremadamente cualitativo, accesibilidad visual)
- medida de la forma GD&T (coplanaridad, concentricidad, etc.) (extremadamente cuantitativa)
- algo numérico (valores propios, covarianzas, etc...)
- una coordenada útil de dimensión reducida (como los parámetros de GMM que se convierten en dimensiones)
- un sistema de ruido reducido (suavizado de alguna manera, luego presentado)
La mayoría de las "varias formas" son alguna variación de éstas.