Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard en lugar de Russell y Rao?

Question

Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard en lugar de Russell y Rao?

Preguntado el 13 de Junio, 2013: Cuando se hizo la pregunta
27461 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En Enciclopedia de Ciencias Estadísticas Entiendo que dado $p$ atributos dicotómicos (binarios: 1=presente; 0=ausente) (variables), podemos formar una tabla de contingencia para dos objetos cualesquiera i y j de una muestra:

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

A partir de estos valores podemos calcular coeficientes de similitud entre cualquier par de objetos, concretamente el coeficiente de Jaccard $\frac{a}{a+b+c}$ y el coeficiente de Russell y Rao $\frac{a}{a+b+c+d} = \frac{a}{p}.$

Cuando se calculan estos coeficientes darán valores diferentes, pero no puedo encontrar ningún recurso que explique por qué Debería elegir uno en vez de otro. ¿Es sólo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos ( $d$ ) no transmite ninguna información?

Preguntado el 13 de Junio, 2013 por wflynny

Answer 1

1 Respuestas

Answer 2

18voto

Uri Puntos 111

Existen muchos coeficientes de este tipo (la mayoría se expresan aquí ). Sólo trata de meditar sobre cuáles son las consecuencias de las diferencias en las fórmulas, especialmente cuando calculas un matriz de coeficientes.

Imaginemos, por ejemplo, que los objetos 1 y 2 son similares, como lo son los objetos 3 y 4. Pero 1 y 2 tienen muchos de los atributos de la lista, mientras que 3 y 4 tienen pocos atributos. En este caso, Russell-Rao (proporción de coatributos respecto al número total de atributos considerados) será alto para la pareja 1-2 y bajo para la pareja 3-4. Pero Jaccard (proporción de coatributos respecto al número total de atributos considerados) será alto para la pareja 1-2 y bajo para la pareja 3-4. Pero Jaccard (proporción de coatributos respecto al número total de atributos ambos objetos tienen \= probabilidad de que si uno de los objetos tiene un atributo, ambos lo tengan) será alta para los pares 1-2 y 3-4.

Este ajuste del nivel básico de "saturación por atributos" hace que Jaccard tan popular y más útil que Russell-Rao por ejemplo, en el análisis de conglomerados o el escalado multidimensional. En cierto sentido, puede afinar aún más el ajuste anterior seleccionando Kulczynski-2 que es la probabilidad media aritmética de que si un objeto tiene un atributo, el otro objeto también lo tenga: $(\frac{a}{a+b} + \frac{a}{a+c}) /2$ En este caso, la base (o campo) de atributos de los dos objetos no se agrupa, como en Jaccard, sino que es propia de cada uno de los dos objetos. En consecuencia, si los objetos difieren mucho en el número de atributos que tienen, y todos sus atributos el objeto "más pobre" los comparte con el "más rico", Kulczynski será alto mientras que Jaccard será moderado.

O puede preferir calcular geométrico probabilidad media de que si un objeto tiene un atributo, el otro objeto también lo tenga, lo que arroja Ochiai medida: $\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$ Dado que el producto aumenta más débilmente que la suma cuando sólo crece uno de los términos, Ochiai será realmente alto sólo si ambas proporciones (probabilidades) son altas, lo que implica que para ser considerados similares por Ochiai los objetos deben compartir las grandes proporciones de sus atributos. En resumen, Ochiai frena la similitud si $b$ y $c$ son desiguales. Ochiai es, de hecho, la medida de similitud coseno (y Russell-Rao es la similitud producto punto).

P.D.

¿Es sólo porque para algunos conjuntos de datos, la ausencia simultánea de ambos atributos (d) no transmite ninguna información?

Hablando de medidas de similitud, no hay que mezclar dicotómico nominal atributos (por ejemplo, femenino, masculino) con binario atributos (presente frente a ausente). El atributo binario no es simétrico (en general), - si usted y yo compartimos una característica, es la base para llamarnos similares; si usted y yo carecemos de la característica, puede o no ser considerada la evidencia de similitud, dependiendo del contexto del estudio. De ahí el tratamiento divergente de $d$ es posible.

Tenga en cuenta también que si desea calcular la similitud entre objetos basándose en 1+ nominal atributos (dicotómicos o politómicos), recodifique cada una de esas variables en el conjunto de variables binarias ficticias. A continuación, la medida de similitud recomendada será Dados ( que cuando se calcula para 1+ conjuntos de variables ficticias, es equivalente a Ochiai y Kulczynski-2).

Respondido el 17 de Junio, 2013 por Uri (111 Puntos )

Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard en lugar de Russell y Rao?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Coeficientes de similitud para datos binarios: ¿Por qué elegir Jaccard en lugar de Russell y Rao?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: