3 votos

Medida de similitud adecuada para la agrupación

Tengo problemas para encontrar una medida de similitud adecuada para la agrupación. Tengo alrededor de 3000 matrices de conjuntos, donde cada conjunto contiene características de cierto dominio (por ejemplo, número, color, días, alfabetos, etc). Voy a explicar mi problema con un ejemplo.

Supongamos que sólo tengo 2 matrices (a1 y a2) y quiero encontrar la similitud entre ellas. Cada matriz contiene 4 conjuntos (en mi problema real hay 250 conjuntos (dominios) por matriz) y un conjunto puede estar vacío.

a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}

He llegado a una medida de similitud utilizando Jaccard (denominado J):

sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4

nota:divido por el número total de conjuntos (en el ejemplo anterior 4) para mantener la similitud entre 0 y 1.

Is this a proper similarity measure and are there any flaws in this approach . Aplico el índice de Jaccard a cada conjunto por separado porque quiero comparar la similitud entre dominios relacionados (por ejemplo, color con color, etc.).

No conozco ninguna otra medida de similitud adecuada para mi problema. Además, can I use this similarity measure for clustering purpose?

3voto

Russell Borogove Puntos 251

Una buena referencia para diferentes medidas de similitud y distancias (métricas) es "Encyclopedia of Distances" (Puede encontrar una copia en línea utilizando Google).

En su pregunta está pidiendo: 1. [ ] s(A,B) = |A intersección B| / (max(|A|,|B|) ('precisión del conjunto') 2. Si tiene (diferentes) medidas de similitud, entonces cómo combinarlas en una medida de similitud.

Estas preguntas se responden en el libro mencionado. La segunda pregunta se responde al principio.

Además, si desea agrupar, la mayoría de los algoritmos suponen que existen distancias entre los puntos. Es decir, usted podría cambiar de similitud a distancia por la fórmula distancia = sqrt(1-similitud^2)

1voto

Miroslav Sabo Puntos 1548

El índice de Jaccard es muy adecuado para comparar similitudes entre subconjuntos de cualquier conjunto, ya que tiene una buena interpretación (relación entre su solapamiento y su unión). Obsérvese que existe una gran cantidad de coeficientes de similitud, véase por ejemplo esta obra donde encontrará una lista muy completa. También se puede encontrar allí que la mayoría de los índices se pueden clasificar en 4 grupos y coeficientes del mismo grupo tienen propiedades equivalentes por lo que no importa cuál de ellos se utiliza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X