Utilizando la convención a,b,c,d de la tabla cuádruple, como aquí ,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
sustituir y obtener
$1-\frac{2(b+c)}{n} = \frac{n-2b-2c}{n} = \frac{(a+d)-(b+c)}{a+b+c+d}$ = La similitud de Hamann coeficiente. Conócelo, por ejemplo aquí . Para citar:
Medida de similitud de Hamann. Esta medida da la probabilidad de que una característica tenga el mismo estado en ambos artículos (presente en ambos o ausente en ambos) menos la probabilidad de que una característica tenga estados diferentes en los dos elementos (presente en uno y ausente en el otro). otro). HAMANN tiene un rango de 1 a +1 y está relacionado monotónicamente con La similitud de coincidencia simple (SM), la similitud 1 de Sokal & Sneath (SS1) y la similitud de Rogers & Tanimoto (RT).
Puede comparar la fórmula de Hamann con la de correlación phi (que usted menciona) dado en términos a,b,c,d. Ambas son medidas de "correlación" - que van de -1 a 1. Pero mira, el numerador de Phi $ad-bc$ se acercará a 1 sólo cuando ambos a y d son grandes (o igualmente -1, si tanto b como c son grandes): producto, ya sabes... En otras palabras, la correlación de Pearson, y especialmente su hipóstasis de datos dicotómicos, Phi, es sensible a la simetría de las distribuciones marginales en los datos. El numerador de Hamann $(a+d)-(b+c)$ Al tener sumas en lugar de productos, no es sensible a ella: o bien de dos sumandos de un par sea grande es suficiente para que el coeficiente se acerque a 1 (o -1). Por lo tanto, si desea una medida de "correlación" (o cuasi-correlación) que desafíe la forma de las distribuciones marginales, elija Hamann en lugar de Phi.
Ilustración:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75