9 votos

Cualquier sugerencia para el método de la agrupación para que se desconoce el número de clusters y no la distancia Euclídea?

Necesito alguna sugerencia para el agrupamiento (clasificación no supervisada) método para un proyecto de consultoría. Estoy buscando un método que con suerte tiene las siguientes propiedades:

  1. El tema de mi estudio tiene tres propiedades. Uno es representado por una (no-Euclidiana) de distancia de la matriz y los otros dos están en la forma de los vectores en el espacio Euclidiano. La matriz de distancias viene de secuencias y puede ser en forma de porcentaje de disimilitud o otra medida de la distancia de secuencias. El algoritmo debe ser capaz de tomar dos vectores en el espacio euclidiano y no-euclidiana la distancia de entrada. Por ejemplo, el K-medoids puede trabajar con una distancia matrix pero K no se puede.

  2. Me gustaría que el algoritmo para seleccionar el número de clusters y la el peso de tres propiedades de forma automática (con previo conocimiento y restricción).

  3. Tengo la información de la que anteriormente identificado a los "centros de clusters". Yo quisiera incorporarlo como antes o valores iniciales.

  4. Como un estadístico, prefiero el método para tener una clara probabilidad o la función de pérdida.

La cosa más cercana que se me ocurre es el ajuste de un modelo de mezcla en el marco Bayesiano utilizando la inversa de salto MCMC para determinar el número de clusters. Los vectores en R^d puede ser fácilmente formulados en una normal de probabilidad, sino de cómo lidiar con la matriz de distancias es claro para mí. Puede restringir la media de la normal de probabilidad de estar en cada una de la observación de obtener la MCMC de ejecución, pero que no tiene un claro matemática / estadística significado.

¿Alguien tiene experiencia con un problema similar? Sugerencia para referencias será muy apreciada!

4voto

karatchov Puntos 230

Yo creo que el uso de un MAPA/criterio Bayesiano de en combinación con una mezcla de Gaussianas es una elección sensata. Puntos

Por supuesto objeto que MOGs requieren Euclidiana de entrada de datos. La respuesta es encontrar un conjunto de puntos que dan lugar a la matriz de distancias que se dan. Un ejemplo de la técnica para esto es el escalamiento multidimensional: $\text{argmin}_{\lbrace x_i \rbrace} \sum_{i, j}(||x_i - x_j||_2 - D_{ij})^2$ donde $D_{ij}$ es la distancia del punto de $i$ a punto de $j$.

1voto

Manos Dilaverakis Puntos 4035

DBSCAN obras sin conocer el número de racimos antes de tiempo, y se puede aplicar a una amplia gama de métricas de distancia.

1voto

sztanpet Puntos 179

Tuve que lidiar con un problema para mi tesis de grado donde tenía que hacer la agrupación en clústeres en un conjunto de datos para que sólo tenía una similitud (= inverso de la distancia) de la matriz. Aunque estoy 100% de acuerdo en que un Bayesiano técnica sería lo mejor, lo que me fui con una discriminativo modelo llamado Simétrico Convexa de Codificación (enlace). Recuerdo que trabajando bastante bien.

En el Bayesiano frente, tal vez usted podría considerar algo similar a la agrupación, pero no? Estoy pensando que a lo largo de las líneas de Latente de Dirichlet Asignación-una realmente maravillosa algoritmo. Totalmente generativa, desarrollado en el contexto de modelado tema contenido en el documento de texto cuerpos. Pero encuentra un montón de aplicaciones en otros tipos de supervisión de la máquina de problemas de aprendizaje. Por supuesto, la función de distancia no es relevante lo que hay...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X