11 votos

¿Es posible que valores del coeficiente de correlación de pearson < -1 o valores > 1?

Estoy tratando de calcular el coeficiente de correlación de Pearson según esta fórmula sobre un gran conjunto de datos:

enter image description here

En su mayoría, mis valores entre -1 y 1, pero a veces me siento raro números como:

1.0000000002
-3 

Y así sucesivamente. Es posible tener extraño datos que podrían resultar en esto, o ¿esto significa que tengo un error en el cálculo?

Por ejemplo, me doy cuenta de que a veces mis suma de X es 1, y por lo tanto la suma de X^2 a 1. Esto se traduce en un valor como 1.00000002. Otras veces, voy a tener la suma de XY 0 y, a continuación, voy a tener el resultado del cálculo sea -3. Es este estadísticamente posible, o es que hay un error en mis cálculos?

19voto

AdamSane Puntos 1825

Las fórmulas que se está utilizando tiene mucho que se sabe que numéricamente inestable. Si el cuadrado significa que son grandes en comparación con las variaciones y/o productos-de-los medios son grandes en comparación con las covarianzas, entonces la diferencia en el numerador y en el que figura entre corchetes los términos en el denominador puede tener problemas con la catastrófica de cancelación.

Esto a veces puede llevar a que calculan las varianzas o covarianzas de que ni siquiera retener a un solo dígito de precisión (es decir, que son peor que inútiles).

No usar estas fórmulas. Hicieron algunas sentido cuando la gente se calcula con la mano, donde se podía ver, y tratar la pérdida de precisión cuándo sucedió-por ejemplo, el uso de estas fórmulas, normalmente precedido por la eliminación de la común dígitos, por lo tanto los números como este:

 8901234.567...
 8901234.575...
 8901234.412...

primero tendría 8901234 restan (al menos) -- que iba a ahorrar un montón de tiempo en el trabajo, así como evitar la cancelación de la cuestión. Los medios (y cantidades similares) podría ser ajustados de nuevo en la final, mientras que las varianzas y covarianzas podría usarse como está.

Ideas similares (y otras ideas) puede ser utilizado con los equipos, pero que realmente necesita para usarlos todo el tiempo, en lugar de tratar de adivinar cuando lo necesiten.

Formas eficientes para lidiar con este problema se han conocido por más de la mitad de un siglo, por ejemplo, ver Welford de 1962 papel [1] (en el que da un paso de varianza y covarianza de los algoritmos -- estable de dos pasos de los algoritmos fueron bien saben ya). Chan et al [2] (1983) comparar un número de la varianza de los algoritmos y ofrecen una manera de decidir cuándo utilizar (aunque en la mayoría de las implementaciones en general la gente utiliza solamente un algoritmo).

Ver Wikipedia, la discusión sobre esta cuestión en relación a la varianza y su debate en la varianza de los algoritmos.

Comentarios similares se aplican a la covarianza.

[1] B. P. Welford (1962),
"Nota sobre un Método para el Cálculo de Corregir las Sumas de Cuadrados y Productos",
Technometrics Vol. 4 , de la Iss. 3, 419-420
(citeseer enlace)

[2] T. F. Chan, G. H. Golub y R. J. LeVeque (1983)
"Los algoritmos para el cálculo de la Varianza de la Muestra: Análisis y Recomendaciones",
El Estadístico Americano, Vol. 37, Nº 3 (Ago.1983), pp 242-247
Tech report versión

8voto

Romain Puntos 95

Es el coeficiente de correlación de Pearson entre $-1$y $+1$ (inclusive). Esto sigue de la desigualdad de Cauchy-Schwarz.

Un coeficiente de correlación de $1.0000000002$ es posible (pero improbable) debido a un error numérico, mientras que -3 casi ciertamente indica un error en la aplicación (o una plataforma no numéricos!:).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X