26 votos

Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard en lugar de Russell y Rao?

En Enciclopedia de Ciencias Estadísticas Entiendo que dado $p$ atributos dicotómicos (binarios: 1=presente; 0=ausente) (variables), podemos formar una tabla de contingencia para dos objetos cualesquiera i y j de una muestra:

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

A partir de estos valores podemos calcular coeficientes de similitud entre cualquier par de objetos, concretamente el coeficiente de Jaccard $$ \frac{a}{a+b+c} $$ y el coeficiente de Russell y Rao $$ \frac{a}{a+b+c+d} = \frac{a}{p}. $$

Cuando se calculan estos coeficientes darán valores diferentes, pero no puedo encontrar ningún recurso que explique por qué Debería elegir uno en vez de otro. ¿Es sólo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos ( $d$ ) no transmite ninguna información?

18voto

Uri Puntos 111

Existen muchos coeficientes de este tipo (la mayoría se expresan aquí ). Sólo trata de meditar sobre cuáles son las consecuencias de las diferencias en las fórmulas, especialmente cuando calculas un matriz de coeficientes.

Imaginemos, por ejemplo, que los objetos 1 y 2 son similares, como lo son los objetos 3 y 4. Pero 1 y 2 tienen muchos de los atributos de la lista, mientras que 3 y 4 tienen pocos atributos. En este caso, Russell-Rao (proporción de coatributos respecto al número total de atributos considerados) será alto para la pareja 1-2 y bajo para la pareja 3-4. Pero Jaccard (proporción de coatributos respecto al número total de atributos considerados) será alto para la pareja 1-2 y bajo para la pareja 3-4. Pero Jaccard (proporción de coatributos respecto al número total de atributos ambos objetos tienen \= probabilidad de que si uno de los objetos tiene un atributo, ambos lo tengan) será alta para los pares 1-2 y 3-4.

Este ajuste del nivel básico de "saturación por atributos" hace que Jaccard tan popular y más útil que Russell-Rao por ejemplo, en el análisis de conglomerados o el escalado multidimensional. En cierto sentido, puede afinar aún más el ajuste anterior seleccionando Kulczynski-2 que es la probabilidad media aritmética de que si un objeto tiene un atributo, el otro objeto también lo tenga: $$ (\frac{a}{a+b} + \frac{a}{a+c}) /2 $$ En este caso, la base (o campo) de atributos de los dos objetos no se agrupa, como en Jaccard, sino que es propia de cada uno de los dos objetos. En consecuencia, si los objetos difieren mucho en el número de atributos que tienen, y todos sus atributos el objeto "más pobre" los comparte con el "más rico", Kulczynski será alto mientras que Jaccard será moderado.

O puede preferir calcular geométrico probabilidad media de que si un objeto tiene un atributo, el otro objeto también lo tenga, lo que arroja Ochiai medida: $$ \sqrt {\frac{a}{a+b} \frac{a}{a+c}} $$ Dado que el producto aumenta más débilmente que la suma cuando sólo crece uno de los términos, Ochiai será realmente alto sólo si ambas proporciones (probabilidades) son altas, lo que implica que para ser considerados similares por Ochiai los objetos deben compartir las grandes proporciones de sus atributos. En resumen, Ochiai frena la similitud si $b$ y $c$ son desiguales. Ochiai es, de hecho, la medida de similitud coseno (y Russell-Rao es la similitud producto punto).


P.D.

¿Es sólo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos (d) no transmite ninguna información?

Hablando de medidas de similitud, no hay que mezclar dicotómico nominal atributos (por ejemplo, femenino, masculino) con binario atributos (presente frente a ausente). El atributo binario no es simétrico (en general), - si usted y yo compartimos una característica, es la base para llamarnos similares; si usted y yo carecemos de la característica, puede o no ser considerada la evidencia de similitud, dependiendo del contexto del estudio. De ahí el tratamiento divergente de $d$ es posible.

Tenga en cuenta también que si desea calcular la similitud entre objetos basándose en 1+ nominal atributos (dicotómicos o politómicos), recodifique cada una de esas variables en el conjunto de variables binarias ficticias. A continuación, la medida de similitud recomendada será Dados ( que cuando se calcula para 1+ conjuntos de variables ficticias, es equivalente a Ochiai y Kulczynski-2).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X