Tengo problemas para encontrar una medida de similitud adecuada para la agrupación. Tengo alrededor de 3000 matrices de conjuntos, donde cada conjunto contiene características de cierto dominio (por ejemplo, número, color, días, alfabetos, etc). Voy a explicar mi problema con un ejemplo.
Supongamos que sólo tengo 2 matrices (a1 y a2) y quiero encontrar la similitud entre ellas. Cada matriz contiene 4 conjuntos (en mi problema real hay 250 conjuntos (dominios) por matriz) y un conjunto puede estar vacío.
a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}
He llegado a una medida de similitud utilizando Jaccard (denominado J):
sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4
nota:divido por el número total de conjuntos (en el ejemplo anterior 4) para mantener la similitud entre 0 y 1.
Is this a proper similarity measure and are there any flaws in this approach
. Aplico el índice de Jaccard a cada conjunto por separado porque quiero comparar la similitud entre dominios relacionados (por ejemplo, color con color, etc.).
No conozco ninguna otra medida de similitud adecuada para mi problema. Además, can I use this similarity measure for clustering purpose?