4 votos

No estoy seguro de entender cómo R calcula la covarianza

Considera este código R:

    a = c(1,2,3,4,3,2,3,4,5,5,6,5,4,3,4,5,6,7,8,7,6,6,5,6,7,10,9)
    b = c(10,9,7,6,5,6,7,8,4,6,6,5,4,5,6,5,4,5,6,7,5,4,4,5,4,3,2)
    mean((a - mean(a))*(b-mean(b)))
    [1] -2.42524
    cov(a,b)
    [1] -2.518519

¿Por qué son diferentes estos dos valores? ¿No son lo mismo la media y los valores esperados?

4voto

wzzrd Puntos 498

La diferencia es que la función de covarianza de la muestra se divide por $n-1$ mientras que en realidad se está dividiendo por $n$ cuando se utiliza la función media. Intente escribir lo siguiente en su lugar:

sum((a - mean(a))*(b - mean(b)))/(length(a) - 1)

La razón por la que dividimos por $n-1$ para que se cumpla la propiedad estadística de insesgadez. Es decir, en promedio, no estaremos sobreestimando ni subestimando la verdadera covarianza subyacente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X