13 votos

¿El centrado de la media reduce la covarianza?

Suponiendo que tengo dos variables aleatorias no independientes y quiero reducir la covarianza entre ellas lo máximo posible sin perder demasiada "señal", ¿ayuda el centrado de medias? He leído en alguna parte que el centrado de la media reduce la correlación en un factor significativo, así que creo que debería hacer lo mismo con la covarianza.

31voto

Artem Mavrin Puntos 151

Si $X$ y $Y$ son variables aleatorias y $a$ y $b$ son constantes, entonces $$ \begin{aligned} \operatorname{Cov}(X + a, Y + b) &= E[(X + a - E[X + a])(Y + b - E[Y + b])] \\ &= E[(X + a - E[X] - E[a])(Y + b - E[Y] - E[b])] \\ &= E[(X + a - E[X] - a)(Y + b - E[Y] - b)] \\ &= E[(X - E[X])(Y - E[Y])] \\ &= \operatorname{Cov}(X, Y). \end{aligned} $$ El centrado es el caso especial $a = -E[X]$ y $b = -E[Y]$ por lo que el centrado no afecta a la covarianza.


Además, como la correlación se define como $$ \operatorname{Corr}(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}, $$ podemos ver que $$ \begin{aligned} \operatorname{Corr}(X + a, Y + b) &= \frac{\operatorname{Cov}(X + a, Y + b)}{\sqrt{\operatorname{Var}(X + a) \operatorname{Var}(Y + b)}} \\ &= \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}, \end{aligned} $$ por lo que, en particular, la correlación tampoco se ve afectada por el centrado.


Esa era la versión poblacional de la historia. La versión de la muestra es la misma: si utilizamos $$ \widehat{\operatorname{Cov}}(X, Y) = \frac{1}{n} \sum_{i=1}^n \left(X_i - \frac{1}{n}\sum_{j=1}^n X_j\right)\left(Y_i - \frac{1}{n}\sum_{j=1}^n Y_j\right) $$ como nuestra estimación de la covarianza entre $X$ y $Y$ de una muestra emparejada $(X_1,Y_1), \ldots, (X_n,Y_n)$ entonces $$ \begin{aligned} \widehat{\operatorname{Cov}}(X + a, Y + b) &= \frac{1}{n} \sum_{i=1}^n \left(X_i + a - \frac{1}{n}\sum_{j=1}^n (X_j + a)\right)\left(Y_i + b - \frac{1}{n}\sum_{j=1}^n (Y_j + b)\right) \\ &= \frac{1}{n} \sum_{i=1}^n \left(X_i + a - \frac{1}{n}\sum_{j=1}^n X_j - \frac{n}{n} a\right)\left(Y_i + b - \frac{1}{n}\sum_{j=1}^n Y_j - \frac{n}{n} b\right) \\ &= \frac{1}{n} \sum_{i=1}^n \left(X_i - \frac{1}{n}\sum_{j=1}^n X_j\right)\left(Y_i - \frac{1}{n}\sum_{j=1}^n Y_j\right) \\ &= \widehat{\operatorname{Cov}}(X, Y) \end{aligned} $$ para cualquier $a$ y $b$ .

0 votos

Gracias por la respuesta detallada. ¿Significa esto que para la covarianza de la muestra el tamaño de la muestra tampoco tiene ningún impacto? es decir, ¿reducir el tamaño de la muestra no reduce la covarianza de la muestra?

3 votos

@lvdp Probablemente eso debería ser una pregunta aparte.

0 votos

Un tamaño de muestra reducido sólo puede venir con una muestra diferente. Por lo tanto, una muestra diferente podría mostrar una covarianza diferente. Pero como la covarianza de la muestra se define como una media, el tamaño de la muestra se escala en principio.

5voto

jgradim Puntos 1143

La definición de la covarianza de $X$ y $Y$ est $E[(X-E[X])(Y-E[Y])]$ . La expresión $X-E[X]$ en esa fórmula est la versión centrada de $X$ . Así que ya centramos $X$ cuando tomamos la covarianza, y el centrado es un operador idempotente; una vez que una variable está centrada, aplicar el proceso de centrado más veces no la cambia. Si la fórmula no tomara las versiones centradas de las variables, se producirían todo tipo de efectos extraños, como que la covarianza entre la temperatura y otra variable fuera diferente dependiendo de si medimos la temperatura en Celsius o en Kelvin.

4voto

Amadiere Puntos 5606

"en algún lugar" tiende a ser una fuente poco fiable...

La covarianza/correlación son definido con un centrado explícito . Si no centras los datos, entonces no estás calculando la covarianza/correlación. (Precisamente: correlación de Pearson)

La principal diferencia es si se centra basándose en un modelo teórico (por ejemplo, se supone que el valor esperado es exactamente 0) o basándose en los datos (media aritmética). Es fácil ver que la media aritmética producirá una Covarianza menor que cualquier otro centro.

Sin embargo, una menor covarianza no implica una menor correlación, sino lo contrario. Supongamos que tenemos datos X=(1,2) e Y=(2,1). Es fácil ver que con el centrado de la media aritmética se obtendrá una correlación perfectamente negativa, mientras que si sabemos que el proceso generador produce 0 de media, los datos están realmente correlacionados positivamente. Así que en este ejemplo, estamos centrando - pero con el valor teórico esperado de 0.

Esto puede surgir fácilmente. Consideremos que tenemos una matriz de sensores, 11x11, con las celdas numeradas de -5 a +5. En lugar de tomar la media aritmética, tiene sentido usar la media "física" de nuestra matriz de sensores cuando buscamos la correlación de los eventos de los sensores (si enumeráramos las celdas de 0 a 10, usaríamos 5 como media fija, y obtendríamos exactamente los mismos resultados, así que esa elección de indexación desaparece del análisis - bonito).

0 votos

Gracias @Anony-Mousse, ¿la covarianza muestral dependerá del tamaño de la muestra? Es decir, si el tamaño de la muestra es menor, la covarianza será menor (antes del centrado).

1 votos

Depende de la muestra, obviamente. En promedio, no lo sé. Esperaría que las muestras más pequeñas tuvieran más variabilidad en su mayoría, así que tal vez más a menudo los valores extremos. Pero eso es sólo una intuición.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X