En cuanto a la derivación, el montaje es el siguiente. Supongamos que tenemos una población de tamaño $N$ con la media $\mu$ y la varianza $\sigma^2$ donde cada elemento puede asumir valores $v_k$ para $k = 1, 2, \dots, m$ . Sea $n_k$ sea el número de veces que el valor $v_k$ ocurre en la población, tal que la probabilidad de que saquemos el valor $v_k$ al azar de la población es: $$P(X=v_k) = \frac{n_k}{N}$$
Elegimos una muestra de tamaño $n$ , sin sustitución y estimamos la media global $\mu$ con el estimador $\overline{X}=\frac{\sum_{i=1}^n X_i}{n}$ .
Vamos a encontrar la fórmula del factor de corrección de la población finita mirando la varianza del estimador:
$$ \tag{1} \label{variance} \mathrm{Var}(\overline{X}) = \mathrm{Var} \left( \frac{\sum_{i=1}^n X_i}{n} \right) = \frac{1}{n^2} \sum_{i=1}^n\sum_{j=1}^n \mathrm{Cov}(X_i, X_j) $$
Obsérvese que si hiciéramos un muestreo con reemplazo, las variables $X_i$ serían completamente independientes entre sí, lo que significa que no hay covarianza entre ellos: $$ \mathrm{Cov}(X_i, X_j) = 0, \quad i \ne j $$ Esto implica que podemos descartar todas las termias en las que $i \ne j$ . Además, cuando $i$ y $j$ son iguales la covarianza es sólo la varianza: $$\mathrm{Cov}(X_i, X_i) = \mathrm{Var}(X_i) = \sigma^2$$ Lo que significa que podemos trabajar la varianza así: \begin {align*} \frac {1}{n^2} \sum_ {i=1}^n \sum_ {j=1}^n \mathrm {Cov}(X_i, X_j) &= \frac {1}{n^2} \sum_ {i=1}^n \mathrm {Var}(X_i) \\ &= \frac {1}{n^2} \sum_ {i=1}^n \sigma ^2 \\ &= \frac {n \sigma ^2}{n^2} \\ \mathrm {Var}(X_i) &= \frac { \sigma ^2}{n} \end {align*}
Así que esta es la varianza para el muestreo con reemplazo (o con una población infinita, donde la distinción entre con/sin reemplazo no se hace).
Sin embargo, como estamos haciendo un muestreo sin reemplazo, las variables aleatorias $X_i$ no son independientes (considerando que no podemos obtener un elemento determinado más de una vez, la probabilidad de que obtengamos un determinado valor para un $X_i$ depende de los valores de los restantes). Tratamos la suma anterior dividiendo los índices donde $i=j$ y donde $i\ne j$ de forma similar a como hicimos con la covarianza para el muestreo con reemplazo: \begin {align*} \frac {1}{n^2} \sum_ {i=1}^n \sum_ {j=1}^n \mathrm {Cov}(X_i, X_j) &= \frac {1}{n^2} \left ( \sum_ {i=1}^n \sum_ {j=i} \mathrm {Cov}(X_i, X_j) + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( \sum_ {i=1}^n \mathrm {Var}(X_i) + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( \sum_ {i=1}^n \sigma ^2 + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( n \sigma ^2 + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac { \sigma ^2}{n} + \frac {1}{n^2} \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \tag {2} \label {covarianza} \end {align*}
En seguida debemos encontrar la covarianza entre $X_i$ y $X_j$ cuando $i \ne j$ . Recordemos la definición de covarianza: $$ \mathrm{Cov} (X_i, X_j) = \mathrm{E}[X_i X_j] - E[X_i]E[X_j] $$ Desde $E[X_i] = E[X_j] = \mu$ Esto da como resultado: $$\tag{3} \label{covariance expectation} \mathrm{Cov} (X_i, X_j) = \mathrm{E}[X_i X_j] - \mu^2 $$ Inmediatamente se procede a calcular $E[X_i X_j]$ que se define como:
$$ \tag{4} \label{covariance expectation summation} E[X_i X_j] = \sum_{k=1}^m \sum_{l=1}^m v_k v_l \ P(X_i=v_k \cap X_j=v_l) $$
La parte complicada es calcular la probabilidad anterior. El problema es que esta probabilidad cambia dependiendo de si $k=l$ o no. Todo se aclara con el teorema de Bayes: \begin {align*} P(X_i=v_k \cap X_j=v_l) &= P(X_i = v_k)P(X_j=v_l | X_i=v_k) \end {align*}
Considere el caso en el que $k=l$ : esto equivale a dibujar el mismo valor $v_k$ dos veces. La probabilidad de sacar $v_k$ es $P(X_i=v_k)=\frac{n_k}{N}$ y hacerlo de nuevo ( dado que ya dibujamos $v_k$ ) es: $$P(X_j=v_k | X_i=v_k) = \frac{n_k-1}{N-1}$$
Como antes, considerando el caso en que $k \ne l$ encontramos que el número de ocurrencias de $v_l$ en la población no cambia ( $n_l$ ). Sin embargo, el tamaño total de nuestra población es ahora $N-1$ . Por lo tanto: $$P(X_j=v_l | X_i=v_k) = \frac{n_l}{N-1}, \quad k \ne l$$ Por lo tanto, nuestra probabilidad es: $$P(X_i=v_k \cap X_j=v_l) = \begin{cases} \dfrac{v_k (v_k - 1)}{N(N - 1)}, & \quad k=l\\ \dfrac{v_k v_l}{N(N-1)}, & \quad k \ne l \end{cases} $$
Por ello, debemos dividir la suma en $\eqref{covariance expectation summation}$ en los índices donde $k=l$ y $k \ne l$ como tal: \begin {align*} E[X_i X_j] &= \sum_ {k=1}^m \sum_ {l=1}^m v_k v_l \ P(X_i=v_k \cap X_j=v_l) \\ &= \sum_ {k=1}^m \sum_ {l=k} v_k^2 P(X_i=v_k \cap X_j=v_l) + \sum_ {k=1}^m \sum_ {k \ne l} v_k v_l P(X_i=v_k \cap X_j=v_l) \\ &= \sum_ {k=1}^m v_k^2 \frac {n_k (n_k - 1)}{N(N-1)} + \sum_ {k=1}^m \sum_ {k \ne l} v_k v_l \frac {n_k n_l}{N(N-1)} \end {align*}
Ahora podemos tirar del $N(N-1)$ factor y hacer algunas manipulaciones en estas sumas: \begin {align*} E[X_iX_j] &= \frac {1}{N(N-1)} \left ( \sum_ {k=1}^m v_k^2 n_k(n_k -1) + \sum_ {k=1}^m \sum_ {k \ne l} v_k n_k v_l n_l \right ) \\ &= \frac {1}{N(N-1)} \left ( \sum_ {k=1}^m v_k^2 n_k^2 - \sum_ {k=1}^m v_k^2 n_k + \sum_ {k=1}^m \sum_ {k \ne l} v_k n_k v_l n_l \right ) \\ &= \frac {1}{N(N-1)} \left ( \sum_ {k=1}^m v_k^2 n_k^2 + \sum_ {k=1}^m \sum_ {k \ne l} v_k n_k v_l n_l - \sum_ {k=1}^m v_k^2 n_k \right ) \tag {5} \label {suma ampliada} \end {align*} Debemos darnos cuenta de que hay una forma de simplificar esta expresión, recordando que: \begin {align*} \left ( \sum_i a_i \right )^2 &= \sum_i \sum_j a_i a_j \\ &= \sum_i a_i^2 + \sum_i \sum_ {j \ne i} a_i a_j \end {align*}
Es decir, si elevamos al cuadrado una suma, podemos escribir el resultado dividiendo sus índices. Esto significa que la suma aparentemente intratable anterior es justa: $$ \sum_{k=1}^m v_k^2 n_k^2 + \sum_{k=1}^m \sum_{k \ne l} v_k n_k v_l n_l = \left( \sum_{k=1}^m v_k n_k \right)^2 $$ Así que simplificamos $\eqref{expanded summation}$ a: $$ \tag{6} \label{simplified expectation} E[X_iX_j] = \frac{1}{N(N-1)} \left( \left( \sum_{k=1}^m v_k n_k \right)^2 - \sum_{k=1}^m v_k^2 n_k \right) $$
Ya casi hemos terminado. Nuestra tarea ahora es representar las sumas anteriores en términos de constantes conocidas. Recordemos que, en el caso de que tengamos valores repetidos en nuestro dominio, el valor esperado $E[\cdot]$ se puede escribir como: $$ E[X_i] = \frac{1}{N} \sum_{k=1}^m v_k n_k = \mu $$ El $n_k$ El término explica el hecho de que tenemos más de una ocurrencia del valor $v_k$ . De esto se deduce que: \begin {reunir*} \sum_ {k=1}^m v_k n_k = N \mu \\ \left ( \sum_ {k=1}^m v_k n_k \right )^2 = N^2 \mu ^2 \tag {6.1} \label {cuadrado de la suma} \end {reunir*} Asimismo, el valor esperado del cuadrado de la variable puede escribirse como $$ E[X_i^2] = \frac{1}{N} \sum_{k=1}^m v_k^2 n_k $$ A partir de la definición de varianza esto se simplifica a otra expresión: \begin {align*} \mathrm {Var}(X_i) &= E[X_i^2] - E^2[X_i] \\ \sigma ^2 &= E[X_i^2] - \mu ^2 \\ E[X_i^2] &= \mu ^2 + \sigma ^2 \end {align*} Y se deduce inmediatamente que: \begin {reunir*} \sum_ {k=1}^m v_k^2 n_k = N \ E[X_i^2] \\ \sum_ {k=1}^m v_k^2 n_k = N( \sigma ^2 + \mu ^2) \tag {6.2} \label {suma de cuadrados} \end {reunir*}
Sustituyendo $\eqref{square of sum}$ y $\eqref{sum of squares}$ de nuevo en $\eqref{simplified expectation}$ obtenemos: \begin {align*} E[X_iX_j] &= \frac {1}{N(N-1)} \left ( \left ( \sum_ {k=1}^m v_k n_k \right )^2 - \sum_ {k=1}^m v_k^2 n_k \right ) \\ &= \frac {1}{N(N-1)} \left ( N^2 \mu ^2 - N( \mu ^2 + \sigma ^2) \right ) \\ &= \frac {N^2 \mu ^2 - N \mu ^2 - N \sigma ^2}{N(N-1)} \\ &= \frac { \mu ^2N(N-1) - N \sigma ^2}{N(N-1)} \\ &= \mu ^2 - \frac { \sigma ^2}{N-1} \end {align*}
Volvemos a sustituirlo por $\eqref{covariance expectation}$ para encontrar nuestra covarianza: \begin {align*} \mathrm {Cov}(X_i, X_j) &= E[X_i X_j] - \mu ^2 \\ &= \mu ^2 - \frac { \sigma ^2}{N-1} - \mu ^2 \\ &= - \frac { \sigma ^2}{N-1} \end {align*}
Por fin: $$ \tag{7} \label{covariance for i not j} \boxed{\mathrm{Cov}(X_i, X_j) = - \dfrac{\sigma^2}{N-1}}$$ Por último, sustituimos $\eqref{covariance for i not j}$ en $\eqref{covariance}$ para encontrar la varianza del estimador $\overline{X}$ : \begin {align*} \mathrm {Var}( \overline {X}) &= \frac {1}{n^2} \left ( n \sigma ^2 + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( n \sigma ^2 - \sum_ {i=1}^n \sum_ {j \ne i} \frac { \sigma ^2}{N-1} \right ) \\ &= \frac {1}{n^2} \left ( n \sigma ^2 - \frac {n(n-1) \sigma ^2}{N-1} \right ) \\ &= \frac { \sigma ^2}{n} - \frac {(n-1) \sigma ^2}{n(N-1)} \end {align*}
Para terminar, si sacamos lo común $\frac{\sigma^2}{n}$ encontramos nuestro deseado factor de corrección de la varianza : $$ \boxed{\mathrm{Var}(\overline{X}) = \frac{\sigma^2}{n} \left( 1 - \frac{n-1}{N-1} \right)}$$
$$ \boxed{ \mathrm{FCF} = 1 - \frac{n-1}{N-1} } $$
Si quieres el factor de corrección de la desviación estándar, sólo tienes que sacar la raíz cuadrada. También, $1 - \frac{n-1}{N-1} = \frac{N-n}{N-1}$ por si alguien se lo ha perdido.
15 votos
No se corrige la media!
6 votos
Solo corriges la variación.