7 votos

¿El CLT puede fallar en estas condiciones?

La CLT dice que cuando el tamaño de la muestra n llega a infinito, la curva de suma o media de la muestra converge a la distribución normal.

Mi pregunta es: si el tamaño de la muestra se acerca o incluso es igual al tamaño de la población, ¿los valores medios no se acercarían tanto a la media que violarían la distribución en forma de campana?

15voto

Aaron Puntos 36

El teorema del límite central se aplica a secuencias infinitas de variables aleatorias $X_1,X_2,X_3,...$ en lugar de vectores finitos de variables aleatorias. Esto es evidente en el hecho de que tomamos el límite $n \rightarrow \infty$ en estos teoremas. Así que lo que esto significa es que estos problemas tratan implícitamente con un infinito población (o "superpoblación", si se prefiere). Cuando tomamos este tipo de límite, el tamaño de la muestra nunca se acerca o es igual al tamaño de la población, ya que ésta es infinita. Independientemente del tamaño $n$ consigue en el análisis limitante, sigue siendo finito y por eso nunca se acerca al tamaño de la población.

Ahora bien, es posible, por supuesto, observar el comportamiento de la media muestral para una población finita de tamaño $N \in \mathbb{N}$ . En este caso, si se toma el tamaño de la muestra $n$ hasta el tamaño de la población $N$ entonces la media de la muestra será igual a la media de la población exactamente. Si su análisis condiciona el conocimiento de la media poblacional (o la trata como una constante fija), entonces la distribución de la media muestral es una distribución puntual sobre el valor de la media poblacional. Del mismo modo, si la media de la muestra se aproxima a la media (finita) de la población, su distribución tampoco tendrá forma de campana. (Se puede pensar en esto como la CLT a la inversa; si el número de puntos de datos no muestreados es pequeño, entonces la distribución de la media no muestreada no está bien aproximada por la normal, y la media muestral es una función afín de este valor, por lo que tampoco está bien aproximada por la normal).

7voto

Si vas a realizar un argumento asintótico con $n$ cerca de $N$ se necesitan secuencias de poblaciones y muestras finitas. Para cada $m=1,2,3,\dots$ Supongamos que se tiene una población de tamaño $N_m$ y una muestra de tamaño $n_m$ con $N_m\geq n_m$ y $n_m\to\infty$ . Necesitaremos algunas suposiciones sobre las poblaciones; podemos volver a calcular lo que se necesitaba después del argumento

Ya sabemos (bajo supuestos razonables) que si $n_m\to\infty$ tenemos un Teorema Central del Límite, ya sea con $n_m/N_n\to 0$ o con $n_m/N_n\to c\in(0,1)$ . Si $\mu_m$ es la verdadera media de la población finita y $\sigma^2$ es el límite de las verdaderas varianzas de la población, entonces $$\sqrt{n_m}(\bar X_{n_m}-\mu_m)\stackrel{d}{\to} N(0,\sigma^2)$$

Supongamos que $n_m$ es muy grande, para que el número de individuos no muestreados no llegue al infinito. En ese caso, la CLT falla. En el caso extremo, supongamos que $n_m=N_m-1$ para que sólo un individuo no sea muestreado. Podríamos intentar que una media escalada fuera Normal de varias maneras

En primer lugar, podríamos intentar $\sqrt{n_m}(\bar X_{n_m}-\mu_m)$ . Eso no funciona porque sólo hay una diferencia de observación entre $\bar X_{n_m}$ y $\mu_m$ : obtenemos $$\sqrt{n_m}(\bar X_{n_m}-\mu_m)=\sqrt{n_m}\cdot O_p(1/n_m)\stackrel{p}{\to}0$$ Podríamos reescalar e intentar $n_m(\bar X_{n_m}-\mu_m)$ . Eso es del orden correcto, pero es igual $X_{n_m}-\mu$ la única observación no muestreada centrada menos la media verdadera. O podríamos escalar por $\sqrt{N_m-n_m}=1$ la raíz cuadrada del tamaño no muestreado, pero eso va a cero. O escalar el total para obtener $$\frac{N_m}{\sqrt{N_m-n_m}}(\bar X_{n_m}-\mu_m)$$ que es, de nuevo, la observación no muestreada menos la media.

Si $N_m-n_m$ es mayor que uno pero está acotado, se obtiene el mismo tipo de resultado: dependiendo del escalado se infla, se va a cero o se obtiene una suma finita que no converge a Normal.

Sin embargo, si $N_n-n_m\to\infty$ eres bueno. Las observaciones no muestreadas son una suma infinita que entonces sí satisface un CLT, y $$\frac{1}{\sqrt{N_m-n_m}}\left(\sum_{i=1}^{n_m} (X_i-\mu_m)\right)\stackrel{d}{\to}N(0,\sigma^2)$$ así que $$\frac{n_m}{\sqrt{N_m-n_m}}\left(\bar X_{n_m}-\mu_m\right)\stackrel{d}{\to}N(0,\sigma^2)$$

Sin embargo, sigue siendo cierto que $\sqrt{n_m}(\bar X_{n_m}-\mu_m)$ explotará.

Bien, entonces, ¿qué teníamos que asumir? Creo que bastaría con que las varianzas de la población $$\sigma^2_m=\frac{1}{N_m}\sum_{i=1}^{N_m} (X_i-\mu_m)^2$$ convergen a $\sigma^2$ y que los terceros momentos absolutos de la población $$\kappa_m=\frac{1}{N_m}\sum_{i=1}^{N_m} |X_i-\mu_m|^3$$ están acotados. Esta podría ser la suposición, o podríamos tratar las poblaciones como generadas aleatoriamente y hacer suposiciones sobre el proceso de generación de datos que obliga a que estos se mantengan con probabilidad uno.

4voto

user164061 Puntos 281

Mi pregunta es: si el tamaño de la muestra se acerca o incluso es igual al tamaño de la población, ¿los valores medios no se acercarían tanto a la media que violarían la distribución en forma de campana?

En efecto, si se toma una muestra sin repetición de una población, entonces para $n$ más cerca del tamaño de la población se obtiene una distribución que en algún momento es exactamente igual a la verdadera media de la población.

Pero, ten en cuenta que no tienes todas las condiciones necesarias para que se aplique el teorema del límite central. Es necesario que los individuos de la muestra sean independiente . Este no es el caso cuando se toma una muestra de una población finita sin repetición.

3voto

aberson Puntos 1

No, no lo hace, ya que la distribución gaussiana converge a la Delta de Dirac para s.d. muy pequeños. $\epsilon$ , $\delta(x)=\lim\limits_{\epsilon\to 0^+}\frac{e^{-\frac{1}{2}\frac{x^2}{\epsilon^2}}}{\epsilon\sqrt{2\pi}}$ .

Por CLT, para las v.r. i.d. $X_1,\ldots, X_n$ con la media de la población $\mu$ y una varianza finita $\sigma^2$ ,

$\bar{X_n}-\mu \overset{D}{\to} \mathcal{N}(0,\sigma^2/n)$ . Cuando tenemos un gran tamaño de muestra $n$ tenemos $\epsilon=\dfrac{\sigma}{\sqrt{n}} \to 0$ , por lo que la forma de la distribución se aproxima a la Delta de Dirac, que es una función de impulso unitaria, refiérase a esto: https://en.m.wikipedia.org/wiki/Dirac_delta_function .

Por ejemplo, puede utilizar lo siguiente R código para visualizar la forma del pdf de una v.r. normal estándar, con varianza $\dfrac{\sigma^2}{n}$ para algún valor de la d.s. de la población. $\sigma$ (por ejemplo, 10) diferente tamaño de la muestra $n$ como se muestra en la siguiente animación (se aproxima a la Delta de Dirac con grandes $n$ ).

  <- 10
 plot(x, dnorm(x, sd = sigma/sqrt(n)), ylab='pdf', type='l', 
         main=paste('normal pdf with variance ^2/n,  = 10, n =', n))

enter image description here

0voto

jgradim Puntos 1143

Por lo general, las variables aleatorias se modelan como si procedieran de una población infinita. Incluso cuando tomamos muestras de un conjunto finito de instancias, podemos considerar que la población es infinita. Por ejemplo, si tenemos una urna con 10 bolas rojas y 30 verdes, podemos considerar que nuestra variable aleatoria es "el color de una bola seleccionada al azar", y siempre que hagamos nuestra selección con reemplazo, podemos seleccionar bolas un número infinito de veces. Además, puedes modelar la situación como si hubiera algún proceso que creara cada una de las bolas de la urna, y puedes imaginar lo que obtendrías si obtuvieras un número infinito de bolas de cualquier proceso que sea.

Si se considera que el tamaño de la población es finito y se realiza un muestreo sin reemplazo, no se cumplen las condiciones de la CLT. La formulación clásica de la CLT requiere que las variables aleatorias provengan de distribuciones idénticas con una varianza finita, y que cada variable aleatoria sea independiente de las demás. Las dos primeras condiciones se pueden relajar para obtener un enunciado más general, pero que las variables aleatorias sean dependientes entre sí puede reducir o incluso eliminar la convergencia a una distribución gaussiana. Si se extrae de una población finita sin reemplazo, cada extracción afecta a la población restante y, por tanto, las extracciones posteriores dependen de las anteriores, lo que viola las condiciones de la CLT.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X