Las fórmulas que se está utilizando tiene mucho que se sabe que numéricamente inestable. Si el cuadrado significa que son grandes en comparación con las variaciones y/o productos-de-los medios son grandes en comparación con las covarianzas, entonces la diferencia en el numerador y en el que figura entre corchetes los términos en el denominador puede tener problemas con la catastrófica de cancelación.
Esto a veces puede llevar a que calculan las varianzas o covarianzas de que ni siquiera retener a un solo dígito de precisión (es decir, que son peor que inútiles).
No usar estas fórmulas. Hicieron algunas sentido cuando la gente se calcula con la mano, donde se podía ver, y tratar la pérdida de precisión cuándo sucedió-por ejemplo, el uso de estas fórmulas, normalmente precedido por la eliminación de la común dígitos, por lo tanto los números como este:
8901234.567...
8901234.575...
8901234.412...
primero tendría 8901234 restan (al menos) -- que iba a ahorrar un montón de tiempo en el trabajo, así como evitar la cancelación de la cuestión. Los medios (y cantidades similares) podría ser ajustados de nuevo en la final, mientras que las varianzas y covarianzas podría usarse como está.
Ideas similares (y otras ideas) puede ser utilizado con los equipos, pero que realmente necesita para usarlos todo el tiempo, en lugar de tratar de adivinar cuando lo necesiten.
Formas eficientes para lidiar con este problema se han conocido por más de la mitad de un siglo, por ejemplo, ver Welford de 1962 papel [1] (en el que da un paso de varianza y covarianza de los algoritmos -- estable de dos pasos de los algoritmos fueron bien saben ya). Chan et al [2] (1983)
comparar un número de la varianza de los algoritmos y ofrecen una manera de decidir cuándo utilizar (aunque en la mayoría de las implementaciones en general la gente utiliza solamente un algoritmo).
Ver Wikipedia, la discusión sobre esta cuestión en relación a la varianza y su debate en la varianza de los algoritmos.
Comentarios similares se aplican a la covarianza.
[1] B. P. Welford (1962),
"Nota sobre un Método para el Cálculo de Corregir las Sumas de Cuadrados y Productos",
Technometrics Vol. 4 , de la Iss. 3, 419-420
(citeseer enlace)
[2] T. F. Chan, G. H. Golub y R. J. LeVeque (1983)
"Los algoritmos para el cálculo de la Varianza de la Muestra: Análisis y Recomendaciones",
El Estadístico Americano, Vol. 37, Nº 3 (Ago.1983), pp 242-247
Tech report versión