Necesito alguna sugerencia para el agrupamiento (clasificación no supervisada) método para un proyecto de consultoría. Estoy buscando un método que con suerte tiene las siguientes propiedades:
El tema de mi estudio tiene tres propiedades. Uno es representado por una (no-Euclidiana) de distancia de la matriz y los otros dos están en la forma de los vectores en el espacio Euclidiano. La matriz de distancias viene de secuencias y puede ser en forma de porcentaje de disimilitud o otra medida de la distancia de secuencias. El algoritmo debe ser capaz de tomar dos vectores en el espacio euclidiano y no-euclidiana la distancia de entrada. Por ejemplo, el K-medoids puede trabajar con una distancia matrix pero K no se puede.
Me gustaría que el algoritmo para seleccionar el número de clusters y la el peso de tres propiedades de forma automática (con previo conocimiento y restricción).
Tengo la información de la que anteriormente identificado a los "centros de clusters". Yo quisiera incorporarlo como antes o valores iniciales.
Como un estadístico, prefiero el método para tener una clara probabilidad o la función de pérdida.
La cosa más cercana que se me ocurre es el ajuste de un modelo de mezcla en el marco Bayesiano utilizando la inversa de salto MCMC para determinar el número de clusters. Los vectores en R^d puede ser fácilmente formulados en una normal de probabilidad, sino de cómo lidiar con la matriz de distancias es claro para mí. Puede restringir la media de la normal de probabilidad de estar en cada una de la observación de obtener la MCMC de ejecución, pero que no tiene un claro matemática / estadística significado.
¿Alguien tiene experiencia con un problema similar? Sugerencia para referencias será muy apreciada!