7 votos

¿Cómo se llama esta medida de correlación/asociación entre variables binarias?

Hay varios medidas de asociación (o contingencia o correlación) entre dos variables aleatorias binarias $X$ y $Y$ , entre otros

Me pregunto cómo el siguiente número $\kappa$ se relaciona con medidas conocidas, si es interesante desde el punto de vista estadístico, y bajo qué nombre se discute (posiblemente):

$$\kappa = 1 - \frac{2}{N}|X \triangle Y|$$

con $|X \triangle Y|$ el número de muestras que tienen la propiedad $X$ o propiedad $Y$ pero no ambos (OR exclusivo, diferencia simétrica), $N$ el número total de muestras. Como el coeficiente phi, $\kappa = ± 1$ indica un perfecto acuerdo o desacuerdo, y $\kappa = 0$ indica que no hay relación

11voto

Uri Puntos 111

Utilizando la convención a,b,c,d de la tabla cuádruple, como aquí ,

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

sustituir y obtener

$1-\frac{2(b+c)}{n} = \frac{n-2b-2c}{n} = \frac{(a+d)-(b+c)}{a+b+c+d}$ = La similitud de Hamann coeficiente. Conócelo, por ejemplo aquí . Para citar:

Medida de similitud de Hamann. Esta medida da la probabilidad de que una característica tenga el mismo estado en ambos artículos (presente en ambos o ausente en ambos) menos la probabilidad de que una característica tenga estados diferentes en los dos elementos (presente en uno y ausente en el otro). otro). HAMANN tiene un rango de 1 a +1 y está relacionado monotónicamente con La similitud de coincidencia simple (SM), la similitud 1 de Sokal & Sneath (SS1) y la similitud de Rogers & Tanimoto (RT).

Puede comparar la fórmula de Hamann con la de correlación phi (que usted menciona) dado en términos a,b,c,d. Ambas son medidas de "correlación" - que van de -1 a 1. Pero mira, el numerador de Phi $ad-bc$ se acercará a 1 sólo cuando ambos a y d son grandes (o igualmente -1, si tanto b como c son grandes): producto, ya sabes... En otras palabras, la correlación de Pearson, y especialmente su hipóstasis de datos dicotómicos, Phi, es sensible a la simetría de las distribuciones marginales en los datos. El numerador de Hamann $(a+d)-(b+c)$ Al tener sumas en lugar de productos, no es sensible a ella: o bien de dos sumandos de un par sea grande es suficiente para que el coeficiente se acerque a 1 (o -1). Por lo tanto, si desea una medida de "correlación" (o cuasi-correlación) que desafíe la forma de las distribuciones marginales, elija Hamann en lugar de Phi.

Ilustración:

Crosstabulations:
        Y
X    7     1
     1     7
Phi = .75; Hamann = .75

        Y
X    4     1
     1    10
Phi = .71; Hamann = .75

0 votos

¿Es la similitud de Hamann ampliamente conocida y aceptada como una medida interesante?

1 votos

¿Cómo puedo responder? ¿Cuánto se acepta de forma generalizada? :-) Seguro que es menos conocida que la correlación phi o la similitud de Jaccard. Sin embargo, a veces se utiliza. Busque en Google para ver... Una de sus propiedades importantes es que es monótona equivalente a... (véase la cita).

0 votos

Disculpe mi ingenua pregunta, y gracias por su informativa respuesta:-)

4voto

lfx_cool Puntos 937

Hubalek, Z. Coeficientes de asociación y similitud, basados en datos binarios (presencia-ausencia): una evaluación (Biol. Rev., 1982) revisa y clasifica 42 coeficientes de correlación diferentes para datos binarios. Sólo 3 de ellos cumplen los criterios estadísticos básicos. Lamentablemente, no se discute la cuestión de la interpretación del PRE (reducción proporcional del error). Para la siguiente tabla de contingencia:

        present  absent

present    a       b

absent     c       d

la medida de asociación $r$ debe cumplir las siguientes condiciones obligatorias:

  1. $r(J,K) \le r(J,J) \quad\forall J, K$

  2. $\min(r)$ debe estar en $a = d = 0$ y $\max(r)$ en $b = c = 0$

  3. $r(J,K) = r(K,J) \quad \forall K,J$

  4. discriminación entre asociación positiva y negativa

  5. $r$ debe ser lineal con $\sqrt{\chi^2}$ para ambos subconjuntos $ad-bc < 0 $ y $ad-bc >= 0$ (nota que $\chi^2$ viola la condición 4)

e idealmente las siguientes no obligatorias:

  • gama de $r$ debe ser $\left\{ -1 \dots +1 \right\}$ , $\left\{0 \dots +1 \right\}$ o $\left\{0 \dots \infty \right\}$

  • $r(b=c=0) > r(b = 0 \veebar c = 0)$

  • $r(a=0) = min(r)$ (más estricto que el 2) anterior)

  • $r(a+1)-r(a) = r(a+2)-r(a+1)$

  • $r(a=0,b,c,d), r(a=1,b-1,c-1,d+1), r(a=2,b-2,c-2,d+2)\ldots$ debe ser suave

  • distribución homogénea de $r$ en la muestra de permutación

  • muestras aleatorias de la población con $a,b,c,d$ : $r$ debería mostrar poca variabilidad incluso en muestras pequeñas

  • simplicidad de cálculo, poco tiempo de computación

Todas las condiciones las cumple Jaccard $\left( \frac{a}{a+b+c} \right)$ , Russel & Rao $\left( \frac{a} {a+b+c+d} \right)$ (ambos rango $\left\{0 \dots +1 \right\}$ ) y McConnaughey $\left( \frac{a^2 - bc}{(a+b) \times (a+c)}\right)$ (rango $\left\{ -1 \dots +1 \right\}$ )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X