48 votos

¿Por qué no el denominador de la estimador de la covarianza n-2 en lugar de n-1?

El denominador de la (imparcial) de la varianza del estimador es $n-1$ hay $n$ observaciones y sólo un parámetro que se está estimando.

$$ \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} $$

Por la misma razón me pregunto por qué no debería el denominador de la covarianza ser $n-2$ cuando dos parámetros se calculan?

$$ \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1} $$

Cualquier ayuda será muy apreciada. Gracias

41voto

jldugger Puntos 7490

Las covarianzas son desviaciones.

Ya por la polarización de la identidad

$$\newcommand{\c}{\text{Cov}}\newcommand{\v}{\text{Var}} \c(X,Y) = \frac{1}{4}\left(\v(X+Y) - \v(X-Y)\right)),$$

el denominador debe ser el mismo.

23voto

Silverfish Puntos 6909

Un caso especial que debe darte una intuición; pensar acerca de lo siguiente:

$$\hat{\mathbb{Cov}}\left(X, X\right)= \hat{\mathbb{V}}\left(X\right)$$

Usted está feliz de que el último es $\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1}$, debido a la corrección de Bessel.

Pero la sustitución de $ $ Y$ $X$ en $\hat{\mathbb{Cov}}\left(X, Y\right)$ para la ex da $\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(X_{i}-\overline{X}\right)}{\text{misterio denominador}}$, entonces, ¿qué hacer ahora creo que sería la mejor forma de llenar el espacio en blanco?

10voto

user8076 Puntos 16

Rápido y sucio respuesta... Vamos a considerar en primer lugar $\text{var}(X)$; si usted tenía $n$ observaciones conocidos con el valor esperado de $E(X) = 0$ utilizaría ${1\over n}\sum_{i=1}^n X_i^2$ para la estimación de la varianza.

El valor esperado de ser desconocido, usted puede transformar su $n$ observaciones en $n-1$ observaciones con el conocido valor esperado tomando $A_i = X_i - X_1$ por $i = 2, \dots,$ n. Usted recibirá una fórmula con un $n-1$ en el denominador, sin embargo, el $A_i$ no son independientes y que tendría que tomar esto en cuenta; al final se iba a encontrar la fórmula habitual.

Ahora para la covarianza puede utilizar la misma idea: si el valor esperado de $(X,Y)$ era $(0,0)$, que había tenido un ${1\over n}$ en la fórmula. Restando $(X_1,Y_1)$ a todos los demás valores observados, se obtiene $n-1$ observaciones con el conocido valor esperado... y un ${1\over n-1}$ en la fórmula - una vez más, este presenta algunos dependencia a tomar en cuenta.

P. S. La manera correcta de hacerlo es elegir un ortonormales base de $\big\langle (1, \dots, 1)' \big\rangle^{\asesino}$, que es de $n-1$ vectores de $c_1, \dots, c_{n-1} \in \mathbb R^n$ que

  • $\sum_j c_{ij}^2 = 1$ para todo $i$,
  • $\sum_j c_{ij} = 0$ para todo $i$,
  • $\sum_j c_{i_1j} c_{i_2j} = 0$ para todo $i_1 \ne i_2$.

A continuación, puede definir $n-1$ variables $A_i = \sum_j c_{ij} X_j$ y $B_i = \sum_j c_{ij} Y_j$. El $(A_i,B_i)$ son independientes, tienen el valor esperado de $(0,0)$, y tienen la misma varianza/covarianza de las variables originales.

Todo el punto es que si usted quiere deshacerse de lo desconocido a la expectativa, se le cae una (y sólo una) de observación. Esto funciona de la misma para ambos casos.

9voto

BatchyX Puntos 812

Supongo que una manera de construir la intuición detrás de la utilización de 'n-1' y no 'n-2' es - que para el cálculo de co-varianza no necesitamos de la media de X y Y, pero cualquiera de los dos, es decir,

8voto

statchrist Puntos 187

Aquí es una prueba de que el p-variable muestra el estimador de la covarianza con denominador $\frac{1}{n-1}$ es un imparcial estimador de la matriz de covarianza:

$ x' = (x_1,...,x_p) $.

$\Sigma= E((x-\mu)(x-\mu)') $

$S = \frac{1}{n} \sum (x_i - \bar{x})(x_i - \bar{x})'$

Para mostrar: $E(S) = \frac{n-1}{n}\Sigma$

Prueba: $S= \frac{1}{n}\sum x_ix_i' - \bar{x}\bar{x}'$

Siguiente:

(1) $ E(x_ix_i') = \Sigma + \mu\mu'$

(2) $E(\bar{x}\bar{x}') = \frac{1}{n} \Sigma+ \mu\mu' $

Por lo tanto: $E(S) = \Sigma + \mu\mu' - (\frac{1}{n} \Sigma+ \mu\mu') = \frac{n-1}{n} \Sigma $

Y por lo que $S_u = \frac{n}{n-1} $ S, con el final denominador $\frac{1}{n-1}$, es imparcial. Los elementos de la diagonal de $S_u$ son sus covarianzas de la muestra.

Observaciones adicionales:

  1. El n sorteos son independientes. Este se utiliza en (2) para calcular la covarianza de la media de la muestra.

  2. El paso (1) y (2) utilice el hecho de que $Cov(x)= E[xx']-\mu\mu'$

  3. El paso (2) utiliza el hecho de que $Cov(\bar{x})= \frac{1}{n}\Sigma$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X