¿Es importante hacer un escalado de características antes de utilizar el Modelo de Mezcla Gaussiano? y ¿por qué es importante mientras estamos utilizando la probabilidad en la obtención de los parámetros de nuestros clusters (media y matriz de covarianza). Por otra parte, sé que es importante normalizar nuestros datos antes de utilizar K-mean como la agrupación aquí dependen de la distancia Ecludiane entre los puntos y el clúster, y si una característica tiene grandes valores que dominaría este cálculo de distancia multidimensional
Respuesta
¿Demasiados anuncios?Voy a suponer que, cuando dice "utilizar un modelo de mezclas gaussianas", se refiere a ajustar una mezcla de gaussianas (posiblemente multivariantes) a unos datos, con el fin de agruparlos.
En este caso, siempre que utilice la máxima verosimilitud como condición para ajustar el modelo, no necesitará escalar los datos. Si una variable tiene una varianza mayor que otra, su procedimiento de optimización podrá aprenderlo y ajustar sus varianzas (o matrices de covarianza en el caso multivariante) en consecuencia.
La escala de los datos sólo será importante si se incluye una prioridad (y, por tanto, se realiza una maximización posterior).
Para responder por qué es importante en KMeans y no en los Modelos de Mezclas Gaussianas, es más fácil explicarlo en términos del algoritmo KMeans suave, del que el propio KMeans es un caso límite. El algoritmo KMeans suave es lo mismo que los modelos de mezclas gaussianas, si se supone que todos los conglomerados son generados por gaussianos de la misma varianza (y sin covarianza, todas las características son independientes). Por esa razón, tiene sentido obligar a que todas las características tengan la misma varianza (pero no es necesario centrarlas, porque KMeans permite que las distribuciones tengan diferentes centros, las aprende).
La modelización de mezclas gaussianas relaja explícitamente tanto la suposición de que todos los conglomerados tienen la misma varianza como la de que no existe correlación de características dentro de un conglomerado, y por eso no es necesario estandarizar las características.
Para que quede claro, la ventaja real de utilizar modelos de mezclas gaussianas es que los conglomerados no tienen que ser hiperesféricos ni tener el mismo radio. El hecho de no tener que estandarizar las variables es una ventaja añadida.