42 votos

¿Explicación del factor de corrección por población finita?

Entiendo que al muestrear de una población finita y cuando el tamaño de la muestra es más del 5% de la población, necesitamos hacer una corrección sobre la media de la muestra y el error estándar usando esta fórmula:

$\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}}$

Donde $N$ es el tamaño de la población y $n$ es el tamaño de la muestra.

Tengo 3 preguntas sobre esta fórmula:

  1. ¿Por qué se establece el umbral en 5%?
  2. ¿Cómo se derivó la fórmula?
  3. ¿Existen otros recursos en línea que expliquen de manera comprehensiva esta fórmula además de este documento?

15 votos

No se corrige la media!

6 votos

Solo corriges la variación.

39voto

DavLink Puntos 101

El umbral se elige de manera que garantice la convergencia de la distribución hipergeométrica ($\sqrt{\frac{N-n}{N-1}}$ es su desviación estándar), en lugar de una distribución binomial (para muestreo con reemplazo), a una distribución normal (esto es el Teorema del Límite Central, ver por ejemplo, La Curva Normal, el Teorema del Límite Central, y las Desigualdades de Markov y Chebychev para Variables Aleatorias). En otras palabras, cuando $n/N\leq 0.05$ (es decir, $n$ no es 'demasiado grande' en comparación con $N$), el FPC puede ser ignorado de manera segura; es fácil ver cómo evoluciona el factor de corrección con diferentes valores de $n$ para un $N$ fijo: con $N=10,000$, tenemos $\text{FPC}=.9995$ cuando $n=10$ mientras que $\text{FPC}=.3162$ cuando $n=9,000$. Cuando $N\to\infty$, el FPC se aproxima a 1 y estamos cerca de la situación de muestreo con reemplazo (es decir, como con una población infinita).

Para entender estos resultados, un buen punto de partida es leer algunos tutoriales en línea sobre teoría del muestreo donde el muestreo se hace sin reemplazo (muestreo aleatorio simple). Este tutorial en línea sobre Estadísticas no paramétricas tiene una ilustración sobre cómo calcular la esperanza y la varianza para un total.

Notarás que algunos autores utilizan $N$ en lugar de $N-1$ en el denominador del FPC; de hecho, depende de si trabajas con la muestra o la estadística de la población: para la varianza, será $N$ en lugar de $N-1$ si te interesa $S^2$ en lugar de $\sigma^2$.

En cuanto a referencias en línea, puedo sugerirte

0 votos

Esta fórmula se utiliza para población finita, ¿pero con reemplazo o sin reemplazo?

5 votos

@skan sin reemplazo.

1 votos

Tu respuesta a la primera pregunta del OP de por qué el 5 % es el umbral en el que el FPC puede ser ignorado es tautológica.

18voto

user314580 Puntos 9

En cuanto a la derivación, el montaje es el siguiente. Supongamos que tenemos una población de tamaño $N$ con la media $\mu$ y la varianza $\sigma^2$ donde cada elemento puede asumir valores $v_k$ para $k = 1, 2, \dots, m$ . Sea $n_k$ sea el número de veces que el valor $v_k$ ocurre en la población, tal que la probabilidad de que saquemos el valor $v_k$ al azar de la población es: $$P(X=v_k) = \frac{n_k}{N}$$

Elegimos una muestra de tamaño $n$ , sin sustitución y estimamos la media global $\mu$ con el estimador $\overline{X}=\frac{\sum_{i=1}^n X_i}{n}$ .

Vamos a encontrar la fórmula del factor de corrección de la población finita mirando la varianza del estimador:

$$ \tag{1} \label{variance} \mathrm{Var}(\overline{X}) = \mathrm{Var} \left( \frac{\sum_{i=1}^n X_i}{n} \right) = \frac{1}{n^2} \sum_{i=1}^n\sum_{j=1}^n \mathrm{Cov}(X_i, X_j) $$

Obsérvese que si hiciéramos un muestreo con reemplazo, las variables $X_i$ serían completamente independientes entre sí, lo que significa que no hay covarianza entre ellos: $$ \mathrm{Cov}(X_i, X_j) = 0, \quad i \ne j $$ Esto implica que podemos descartar todas las termias en las que $i \ne j$ . Además, cuando $i$ y $j$ son iguales la covarianza es sólo la varianza: $$\mathrm{Cov}(X_i, X_i) = \mathrm{Var}(X_i) = \sigma^2$$ Lo que significa que podemos trabajar la varianza así: \begin {align*} \frac {1}{n^2} \sum_ {i=1}^n \sum_ {j=1}^n \mathrm {Cov}(X_i, X_j) &= \frac {1}{n^2} \sum_ {i=1}^n \mathrm {Var}(X_i) \\ &= \frac {1}{n^2} \sum_ {i=1}^n \sigma ^2 \\ &= \frac {n \sigma ^2}{n^2} \\ \mathrm {Var}(X_i) &= \frac { \sigma ^2}{n} \end {align*}

Así que esta es la varianza para el muestreo con reemplazo (o con una población infinita, donde la distinción entre con/sin reemplazo no se hace).

Sin embargo, como estamos haciendo un muestreo sin reemplazo, las variables aleatorias $X_i$ no son independientes (considerando que no podemos obtener un elemento determinado más de una vez, la probabilidad de que obtengamos un determinado valor para un $X_i$ depende de los valores de los restantes). Tratamos la suma anterior dividiendo los índices donde $i=j$ y donde $i\ne j$ de forma similar a como hicimos con la covarianza para el muestreo con reemplazo: \begin {align*} \frac {1}{n^2} \sum_ {i=1}^n \sum_ {j=1}^n \mathrm {Cov}(X_i, X_j) &= \frac {1}{n^2} \left ( \sum_ {i=1}^n \sum_ {j=i} \mathrm {Cov}(X_i, X_j) + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( \sum_ {i=1}^n \mathrm {Var}(X_i) + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( \sum_ {i=1}^n \sigma ^2 + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( n \sigma ^2 + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac { \sigma ^2}{n} + \frac {1}{n^2} \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \tag {2} \label {covarianza} \end {align*}

En seguida debemos encontrar la covarianza entre $X_i$ y $X_j$ cuando $i \ne j$ . Recordemos la definición de covarianza: $$ \mathrm{Cov} (X_i, X_j) = \mathrm{E}[X_i X_j] - E[X_i]E[X_j] $$ Desde $E[X_i] = E[X_j] = \mu$ Esto da como resultado: $$\tag{3} \label{covariance expectation} \mathrm{Cov} (X_i, X_j) = \mathrm{E}[X_i X_j] - \mu^2 $$ Inmediatamente se procede a calcular $E[X_i X_j]$ que se define como:

$$ \tag{4} \label{covariance expectation summation} E[X_i X_j] = \sum_{k=1}^m \sum_{l=1}^m v_k v_l \ P(X_i=v_k \cap X_j=v_l) $$

La parte complicada es calcular la probabilidad anterior. El problema es que esta probabilidad cambia dependiendo de si $k=l$ o no. Todo se aclara con el teorema de Bayes: \begin {align*} P(X_i=v_k \cap X_j=v_l) &= P(X_i = v_k)P(X_j=v_l | X_i=v_k) \end {align*}

Considere el caso en el que $k=l$ : esto equivale a dibujar el mismo valor $v_k$ dos veces. La probabilidad de sacar $v_k$ es $P(X_i=v_k)=\frac{n_k}{N}$ y hacerlo de nuevo ( dado que ya dibujamos $v_k$ ) es: $$P(X_j=v_k | X_i=v_k) = \frac{n_k-1}{N-1}$$

Como antes, considerando el caso en que $k \ne l$ encontramos que el número de ocurrencias de $v_l$ en la población no cambia ( $n_l$ ). Sin embargo, el tamaño total de nuestra población es ahora $N-1$ . Por lo tanto: $$P(X_j=v_l | X_i=v_k) = \frac{n_l}{N-1}, \quad k \ne l$$ Por lo tanto, nuestra probabilidad es: $$P(X_i=v_k \cap X_j=v_l) = \begin{cases} \dfrac{v_k (v_k - 1)}{N(N - 1)}, & \quad k=l\\ \dfrac{v_k v_l}{N(N-1)}, & \quad k \ne l \end{cases} $$

Por ello, debemos dividir la suma en $\eqref{covariance expectation summation}$ en los índices donde $k=l$ y $k \ne l$ como tal: \begin {align*} E[X_i X_j] &= \sum_ {k=1}^m \sum_ {l=1}^m v_k v_l \ P(X_i=v_k \cap X_j=v_l) \\ &= \sum_ {k=1}^m \sum_ {l=k} v_k^2 P(X_i=v_k \cap X_j=v_l) + \sum_ {k=1}^m \sum_ {k \ne l} v_k v_l P(X_i=v_k \cap X_j=v_l) \\ &= \sum_ {k=1}^m v_k^2 \frac {n_k (n_k - 1)}{N(N-1)} + \sum_ {k=1}^m \sum_ {k \ne l} v_k v_l \frac {n_k n_l}{N(N-1)} \end {align*}

Ahora podemos tirar del $N(N-1)$ factor y hacer algunas manipulaciones en estas sumas: \begin {align*} E[X_iX_j] &= \frac {1}{N(N-1)} \left ( \sum_ {k=1}^m v_k^2 n_k(n_k -1) + \sum_ {k=1}^m \sum_ {k \ne l} v_k n_k v_l n_l \right ) \\ &= \frac {1}{N(N-1)} \left ( \sum_ {k=1}^m v_k^2 n_k^2 - \sum_ {k=1}^m v_k^2 n_k + \sum_ {k=1}^m \sum_ {k \ne l} v_k n_k v_l n_l \right ) \\ &= \frac {1}{N(N-1)} \left ( \sum_ {k=1}^m v_k^2 n_k^2 + \sum_ {k=1}^m \sum_ {k \ne l} v_k n_k v_l n_l - \sum_ {k=1}^m v_k^2 n_k \right ) \tag {5} \label {suma ampliada} \end {align*} Debemos darnos cuenta de que hay una forma de simplificar esta expresión, recordando que: \begin {align*} \left ( \sum_i a_i \right )^2 &= \sum_i \sum_j a_i a_j \\ &= \sum_i a_i^2 + \sum_i \sum_ {j \ne i} a_i a_j \end {align*}

Es decir, si elevamos al cuadrado una suma, podemos escribir el resultado dividiendo sus índices. Esto significa que la suma aparentemente intratable anterior es justa: $$ \sum_{k=1}^m v_k^2 n_k^2 + \sum_{k=1}^m \sum_{k \ne l} v_k n_k v_l n_l = \left( \sum_{k=1}^m v_k n_k \right)^2 $$ Así que simplificamos $\eqref{expanded summation}$ a: $$ \tag{6} \label{simplified expectation} E[X_iX_j] = \frac{1}{N(N-1)} \left( \left( \sum_{k=1}^m v_k n_k \right)^2 - \sum_{k=1}^m v_k^2 n_k \right) $$

Ya casi hemos terminado. Nuestra tarea ahora es representar las sumas anteriores en términos de constantes conocidas. Recordemos que, en el caso de que tengamos valores repetidos en nuestro dominio, el valor esperado $E[\cdot]$ se puede escribir como: $$ E[X_i] = \frac{1}{N} \sum_{k=1}^m v_k n_k = \mu $$ El $n_k$ El término explica el hecho de que tenemos más de una ocurrencia del valor $v_k$ . De esto se deduce que: \begin {reunir*} \sum_ {k=1}^m v_k n_k = N \mu \\ \left ( \sum_ {k=1}^m v_k n_k \right )^2 = N^2 \mu ^2 \tag {6.1} \label {cuadrado de la suma} \end {reunir*} Asimismo, el valor esperado del cuadrado de la variable puede escribirse como $$ E[X_i^2] = \frac{1}{N} \sum_{k=1}^m v_k^2 n_k $$ A partir de la definición de varianza esto se simplifica a otra expresión: \begin {align*} \mathrm {Var}(X_i) &= E[X_i^2] - E^2[X_i] \\ \sigma ^2 &= E[X_i^2] - \mu ^2 \\ E[X_i^2] &= \mu ^2 + \sigma ^2 \end {align*} Y se deduce inmediatamente que: \begin {reunir*} \sum_ {k=1}^m v_k^2 n_k = N \ E[X_i^2] \\ \sum_ {k=1}^m v_k^2 n_k = N( \sigma ^2 + \mu ^2) \tag {6.2} \label {suma de cuadrados} \end {reunir*}

Sustituyendo $\eqref{square of sum}$ y $\eqref{sum of squares}$ de nuevo en $\eqref{simplified expectation}$ obtenemos: \begin {align*} E[X_iX_j] &= \frac {1}{N(N-1)} \left ( \left ( \sum_ {k=1}^m v_k n_k \right )^2 - \sum_ {k=1}^m v_k^2 n_k \right ) \\ &= \frac {1}{N(N-1)} \left ( N^2 \mu ^2 - N( \mu ^2 + \sigma ^2) \right ) \\ &= \frac {N^2 \mu ^2 - N \mu ^2 - N \sigma ^2}{N(N-1)} \\ &= \frac { \mu ^2N(N-1) - N \sigma ^2}{N(N-1)} \\ &= \mu ^2 - \frac { \sigma ^2}{N-1} \end {align*}

Volvemos a sustituirlo por $\eqref{covariance expectation}$ para encontrar nuestra covarianza: \begin {align*} \mathrm {Cov}(X_i, X_j) &= E[X_i X_j] - \mu ^2 \\ &= \mu ^2 - \frac { \sigma ^2}{N-1} - \mu ^2 \\ &= - \frac { \sigma ^2}{N-1} \end {align*}

Por fin: $$ \tag{7} \label{covariance for i not j} \boxed{\mathrm{Cov}(X_i, X_j) = - \dfrac{\sigma^2}{N-1}}$$ Por último, sustituimos $\eqref{covariance for i not j}$ en $\eqref{covariance}$ para encontrar la varianza del estimador $\overline{X}$ : \begin {align*} \mathrm {Var}( \overline {X}) &= \frac {1}{n^2} \left ( n \sigma ^2 + \sum_ {i=1}^n \sum_ {j \ne i} \mathrm {Cov}(X_i, X_j) \right ) \\ &= \frac {1}{n^2} \left ( n \sigma ^2 - \sum_ {i=1}^n \sum_ {j \ne i} \frac { \sigma ^2}{N-1} \right ) \\ &= \frac {1}{n^2} \left ( n \sigma ^2 - \frac {n(n-1) \sigma ^2}{N-1} \right ) \\ &= \frac { \sigma ^2}{n} - \frac {(n-1) \sigma ^2}{n(N-1)} \end {align*}

Para terminar, si sacamos lo común $\frac{\sigma^2}{n}$ encontramos nuestro deseado factor de corrección de la varianza : $$ \boxed{\mathrm{Var}(\overline{X}) = \frac{\sigma^2}{n} \left( 1 - \frac{n-1}{N-1} \right)}$$

$$ \boxed{ \mathrm{FCF} = 1 - \frac{n-1}{N-1} } $$

Si quieres el factor de corrección de la desviación estándar, sólo tienes que sacar la raíz cuadrada. También, $1 - \frac{n-1}{N-1} = \frac{N-n}{N-1}$ por si alguien se lo ha perdido.

0 votos

¿Cómo responde esta respuesta a la primera pregunta ¿Por qué se establece el umbral en un 5%?

0 votos

@Alexis no lo hace. No estaba intentando responder esa pregunta, solo la derivación de la fórmula.

2 votos

¡Hermosa respuesta!

9voto

Aaron Puntos 36

Aquí hay una configuración alternativa dentro del marco del modelo de superpoblación de la teoría del muestreo. Difiere en notación y concepción de la teoría clásica del muestreo, pero creo que es bastante simple e intuitiva.

Deje que $X_1,X_2,X_3,...$ sea una "superpoblación" intercambiable de valores. Tome los primeros $N$ valores como la población finita de interés y los primeros $n \leqslant N$ valores como una muestra de esta población. (La intercambiabilidad de la superpoblación significa que la muestra es una muestra aleatoria simple de la población). Ahora, considere la diferencia de medias $\bar{X}_n - \bar{X}_N$ que mide la diferencia entre la media de la muestra y la media de la población. Esta cantidad se puede escribir en la forma:

$$\begin{align} \bar{X}_n - \bar{X}_N &= \frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{N} \sum_{i=1}^N X_i \\[6pt] &= \Big( \frac{1}{n} - \frac{1}{N} \Big) \sum_{i=1}^n X_i - \frac{1}{N} \sum_{i=n+1}^N X_i \\[6pt] &= \frac{N-n}{nN} \sum_{i=1}^n X_i - \frac{1}{N} \sum_{i=n+1}^N X_i \\[6pt] &= \frac{1}{n} \Bigg[ \frac{N-n}{N} \sum_{i=1}^n X_i - \frac{n}{N} \sum_{i=n+1}^N X_i \Bigg]. \\[6pt] \end{align}$$

Claramente tenemos $\mathbb{E}(\bar{X}_n - \bar{X}_N) = 0$, por lo que podemos usar la media de la muestra como un estimador no sesgado para la media de la población. Si denotamos la varianza de la superpoblación por $\sigma^2$ entonces nuestra cantidad tiene varianza:

$$\begin{align} \mathbb{V}(\bar{X}_n - \bar{X}_N) &= \frac{1}{n^2} \Bigg[ \Big( \frac{N-n}{N} \Big)^2 \sum_{i=1}^n \mathbb{V}(X_i) + \Big( \frac{n}{N} \Big)^2 \sum_{i=n+1}^N \mathbb{V}(X_i) \Bigg] \\[6pt] &= \frac{1}{n^2} \Bigg[ \Big( \frac{N-n}{N} \Big)^2 n \sigma^2 + \Big( \frac{n}{N} \Big)^2 (N-n) \sigma^2 \Bigg] \\[6pt] &= \frac{1}{n^2 N^2} \Bigg[ (N-n)^2 n \sigma^2 + n^2 (N-n) \sigma^2 \Bigg] \\[6pt] &= \frac{1}{n^2 N^2} \cdot (N-n) N n \sigma^2 \\[6pt] &= \frac{N-n}{N} \cdot \frac{\sigma^2}{n}. \\[6pt] \end{align}$$

Supongamos que permitimos que $S_N^2$ y $S_{N*}^2$ denoten los valores de varianza para la población, donde el primero usa la corrección de Bessel y el segundo no (entonces tenemos $S_N^2 = \frac{N}{N-1} S_{N*}^2$). En la teoría del muestreo clásico la última cantidad se considera "la varianza" de la población. (Formalmente es la varianza de la distribución empírica de la población). Sin embargo, la primera de estas cantidades es un estimador no sesgado de la varianza de la superpoblación, por lo que podemos estimar la varianza de nuestra cantidad de diferencia de medias por:

$$\begin{align} \hat{\mathbb{V}}(\bar{X}_n - \bar{X}_N) &= \frac{N-n}{N} \cdot \frac{S_N^2}{n}. \\[6pt] \end{align}$$

Consecuentemente, utilizando el teorema del límite central podemos establecer el siguiente intervalo de confianza para la media de la población $\bar{X}_N$:

$$\text{CI}_N(1-\alpha) = \Bigg[ \bar{X}_n \pm \sqrt{\frac{N-n}{N}} \cdot \frac{t_{n-1, \alpha/2}}{\sqrt{n}} \cdot S_{N} \Bigg].$$

Esta es la forma del intervalo de confianza que encuentro más natural. Sin embargo, con esta forma, notará que usamos un término de corrección para población finita que es diferente a su expresión. La expresión que está utilizando ocurre cuando convertimos al estimador de varianza $S_{N*}^2$ que no usa la corrección de Bessel (supuestamente "la varianza" de la población). En este caso tenemos la expresión equivalente:

$$\text{CI}_N(1-\alpha) = \Bigg[ \bar{X}_n \pm \sqrt{\frac{N-n}{N-1}} \cdot \frac{t_{n-1, \alpha/2}}{\sqrt{n}} \cdot S_{N*} \Bigg].$$

Como puedes ver, enmarcado en esta última forma, el término de corrección para población finita es el que está en tu pregunta. Puedes ver que el término de corrección para población finita aparece en la fórmula del intervalo de confianza para "corregir" la población finita. Si tomamos $N \rightarrow \infty$ (para que la población de interés sea la superpoblación) obtenemos $FPC \rightarrow 1$, lo que produce el intervalo de confianza estándar para el parámetro de media de una población "grande".

Ahora, en cuanto a la "regla del 5%", es una regla arbitraria, y no la recomiendo. En mi opinión, es mejor siempre incluir el FPC cuando se tiene una población finita. Si la proporción de la muestra es pequeña, entonces el FPC está cerca de uno, por lo que no cambia mucho el intervalo, pero me parece absurdo eliminarlo. Los profesionales que ofrecen estas reglas prácticas evidentemente piensan que con un FPC cercano a uno deberían eliminar el término, pero no veo sentido en eso; es una aproximación por la simple aproximación.

Espero que esta presentación alternativa del tema aclare el término de corrección dentro del marco más amplio del modelo de superpoblación. Siempre he preferido este modelo de teoría del muestreo, ya que hace más simple distinguir entre el caso de población finita y el caso de población infinita. Como puedes ver, dentro de este marco el término de corrección sale de manera bastante simple en el intento de estimar la media de la población finita.

1 votos

¿Cómo responde esta respuesta a la primera pregunta ¿Por qué se establece el umbral en un 5%?

1 votos

@Alexis: Gracias por alertarme sobre eso. He agregado otro párrafo para abordar el problema.

3voto

jldugger Puntos 7490

Esto merece una derivación simple. La idea es separar el análisis de la población del análisis del proceso puramente combinatorio del muestreo sin reemplazo.


Sean los valores de la población $(x_1,x_2,\ldots, x_N)$ con media $\mu$ y varianza $\sigma^2.$ Estamos interesados en el error estándar de la media de la muestra.

Sea $I_j$ el indicador de si $x_j$ está en una muestra aleatoria de tamaño $K.$ Estas variables aleatorias son variables aleatorias de Bernoulli idénticamente distribuidas (¡pero no independientes!) y como suman $K,$ $\Pr(I_j=1) = K/N$ por lo tanto para $j=1,2,\ldots, N,$

$$\operatorname{Var}(I_j) = \frac{K}{N}\left(1 - \frac{K}{N}\right) = \frac{K(N-K)}{N^2}.$$

Además, dado que los $I_j$ suman a la variable aleatoria constante igual a $K,$

$$\begin{aligned} 0 &= \operatorname{Var}(K) = \operatorname{Var}\left(\sum_{j=1}^N I_j\right) = \sum_{j=1}^N \operatorname{Var}(I_j) + \sum_{i\ne j}^N \operatorname{Cov}(I_i,I_j). \end{aligned}$$

De las distribuciones idénticas de los $I_j$ todas las varianzas son iguales entre sí y todas las covarianzas son iguales entre sí. La resolución de esta ecuación produce

$$\operatorname{Cov}(I_i,I_j) = -\frac{1}{N-1}\operatorname{Var}(I_i) = -\frac{K(N-K)}{N^2(N-1)}.$$

Esa es la clave del asunto: el muestreo sin reemplazo induce correlaciones negativas computables entre los indicadores.


El resto es álgebra sencilla. La media de la muestra es

$$\bar X = \frac{1}{K} \sum_{j=1}^N x_jI_j,$$

por lo tanto tiene una expectativa de $E[\bar X]=\mu$ (fácilmente) y varianza

$$\begin{aligned} \operatorname{Var}(\bar X) &= \frac{1}{K^2}\sum_{i=1}^N\sum_{j=1}^N x_ix_j\operatorname{Cov}(I_i,I_j) \\ &= \frac{1}{K^2}\sum_{j=1}^N x_j^2 \frac{K(N-K)}{N^2} - \frac{1}{K^2}\sum_{i\ne j}^N x_ix_j \frac{K(N-K)}{N^2(N-1)}\\ &= \frac{N-K}{K(N-1)}\,\frac{1}{N}\left(\sum_{j=1}^N x_j^2 - \frac{1}{N}\left(\sum_{j=1}^N x_i\right)^2\right)\\ &= \frac{N-K}{K(N-1)}\sigma^2. \end{aligned}$$

Eso es todo. (Por favor, note que $\sigma^2$ es la verdadera varianza de la población, no un estimador. Difiere al usar una fracción de $1/N$ en lugar de $1/(N-1)$ en su definición.)


La fórmula habitual de la población "infinita" para el error estándar de $\bar X$ es $\sqrt{\sigma^2/K}.$ El resultado anterior multiplica esto por $\sqrt{(N-K)/(N-1)},$ el llamado factor de corrección de población finita para muestras aleatorias sin reemplazo. Una aproximación de primer orden es

$$\sqrt{\frac{N-K}{N-1}} \ \approx\ 1 - \frac{K-1}{2(N-1)}\ \approx \ 1 - \frac{K}{2N}.$$

Así, el tamaño de muestra relativo $K/N$ gobierna la precisión de la aproximación. El umbral del 5% simplemente asume que quieres estimar el error estándar de la media dentro de una precisión del 5%.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X