Processing math: 100%

18 votos

Relación entre los coeficientes de correlación phi, Matthews y Pearson

¿Son los coeficientes de correlación phi y Matthews el mismo concepto? ¿Cómo están relacionados o son equivalentes al coeficiente de correlación de Pearson para dos variables binarias? Supongo que los valores binarios son 0 y 1.


La correlación de Pearson entre dos variables aleatorias Bernoulli x y y es:

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

donde

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n


Coeficiente Phi de Wikipedia:

En estadística, el coeficiente phi (también denominado "coeficiente de contingencia cuadrático medio" y denotado por ϕ o rϕ ) es una medida de asociación para dos variables binarias introducida por Karl Pearson. Esta medida es similar al coeficiente de correlación de Pearson en su interpretación. De hecho, un coeficiente de correlación de Pearson estimado para dos variables binarias devolverá el coeficiente phi ...

Si tenemos una tabla de 2 × 2 para dos variables aleatorias x y y

enter image description here

El coeficiente phi que describe la asociación de x y y es ϕ=n11n00n10n01n1n0n0n1

Coeficiente de correlación de Matthews de Wikipedia:

El coeficiente de correlación de Matthews (MCC) puede calcularse directamente a partir de la matriz de confusión mediante la fórmula: MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

En esta ecuación, TP es el número de verdaderos positivos, TN el número de verdaderos negativos, FP el número de falsos positivos y FN el número de falsos negativos. Si alguna de las cuatro sumas del denominador es cero, el denominador puede fijarse arbitrariamente en uno; esto da como resultado un coeficiente de correlación de Matthews de cero, que puede demostrarse que es el valor límite correcto.

19voto

Ted Puntos 854

Sí, son lo mismo. El coeficiente de correlación de Matthews no es más que una aplicación particular del coeficiente de correlación de Pearson a una tabla de confusión.

Una tabla de contingencia es sólo un resumen de los datos subyacentes. Puede volver a convertir los recuentos mostrados en la tabla de contingencia en una fila por observaciones.

Consideremos el ejemplo de la matriz de confusión utilizada en el Artículo de Wikipedia con 5 verdaderos positivos, 17 verdaderos negativos, 2 falsos positivos y 3 falsos negativos

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

0 votos

Gracias, Peter. Matemáticamente, ¿por qué phi y Mathew son equivalentes a Pearson para dos variables aleatorias binarias?

0 votos

Si se toma la definición de la correlación de Pearson y se manipula para que se refiera a los recuentos en lugar de a las sumas de las diferencias entre las observaciones individuales y las medias, se obtiene la fórmula de Matthews. No lo he hecho, pero debe ser razonablemente sencillo.

4voto

unit3 Puntos 171

En primer lugar, había un error tipográfico en la pregunta: E[xy] no es n1n1n2 sino que

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

En segundo lugar, la clave para demostrar que ρ=ϕ es

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X