5 votos

Teorema del límite central para la distribución normal de la binomial negativa

La pregunta es:

Explica por qué la distribución binomial negativa será aproximadamente normal si el parámetro k es suficientemente grande. ¿Cuáles son los parámetros de esta aproximación normal?

Ya he preguntado anteriormente sobre partes de esta pregunta, pero quiero confirmar que mi pensamiento es correcto en esto, ya que es la respuesta con la que me siento menos cómodo. He proporcionado todo mi trabajo a continuación, pero no estoy seguro de si la varianza que he indicado para la distribución normal es correcta a partir de mi trabajo o si he omitido una variable importante del cálculo.

1.6(c) Por el Teorema Central del Límite sabemos que a medida que aumenta el número de muestras de cualquier distribución, ésta se aproxima mejor a una distribución normal. La ecuación que demuestra esto es
$\Sigma_{i=1}^nX_i\underset{n\rightarrow\infty}\rightarrow\mathcal{N}(n\mu_x,\sigma{^2}_{\Sigma X}=\sigma^2)$
Definiendo una distribución binomial negativa como la suma de k distribuciones geométricas:
$X=Y_1+Y_2+...+Y_k=\Sigma^k_{i=1}Y_i$
Donde $Y_i\sim{Geometric(\pi)}$
Por lo tanto, al aumentar k, podemos replantear el Teorema Central del Límite como
$\Sigma_{i=1}^kY_i\underset{k\rightarrow\infty}\rightarrow\mathcal{N}(k\mu_y,\sigma{^2}_{\Sigma X}=\sigma^2)$
Como hemos demostrado que la distribución binomial negativa X puede representarse como una colección de k distribuciones geométricas independientes e idénticamente distribuidas $\Sigma^k_{i=1}Y_i$
$E[X]=k\times E[Y_i]=k\times\mu_y=\dfrac{k}{\pi}$
También sabemos que la varianza de una distribución geométrica viene dada por lo siguiente: $Var(Y_i)=\dfrac{(1-\pi)}{\pi^2}$ Así, para una distribución binomial negativa, a medida que k se hace más grande, se puede demostrar que es capaz de ser aproximada por:
$X\sim\mathcal{N}(\mu=\mu_x,\sigma^2=\dfrac{1-\pi}{\pi^2})$

4voto

Deep North Puntos 1260

También se puede utilizar directamente el CLT, una forma de los estados del CLT:

$\frac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt{n}}\sim N(0,1)=\Rightarrow\sum_{i=1}^nX_i\sim N(n\mu,n\sigma^2)$

Las ecuaciones anteriores implican dos teoremas: El primero es una forma CLT

enter image description here

La segunda está relacionada con la distribución normal multivariante, pero también se aplica a un vector aleatorio unidimensional.

enter image description here

En su caso:

$\sum_{i=1}^k Y_i \sim N(\frac{k}{\pi},k\frac{1-\pi}{\pi^2})$

2voto

Josh Peterson Puntos 108

1.6(c) Por el Teorema del Límite Central sabemos que a medida que aumenta el número de muestras de cualquier distribución, ésta se aproxima mejor a una distribución normal.

Esto no es lo que dice el teorema del límite central. El CLT no se cumple para todas las distribuciones, y en su forma estándar se refiere a las medias muestrales debidamente escaladas y estandarizadas. La afirmación $\sum_{i=1}^n X_i \underset{n \to \infty}{\to}N(n\mu_x,.)$ no es del todo correcto, incluso si tomamos el modo de convergencia que se entiende por el contexto. Si $n$ se acerca al infinito, no se puede tener un $n$ a la izquierda en el lado derecho. En efecto, si el $X_i$ son variables aleatorias geométricas independientes e idénticamente distribuidas, $\sum_{i=1}^nX_i \overset{a.s}{\to} \infty$ por lo que ciertamente la suma no puede converger en la distribución, que es una forma más débil de convergencia, a otra cosa.

Sin embargo, puedes salvar tu argumento siendo más cuidadoso con el teorema del límite central.

2voto

Jeff Bauer Puntos 236

El Teorema del Límite Central hace un enunciado de distribución límite para sumas de variables aleatorias a las que hemos restado el valor esperado de la suma, y que hemos dividido por su desviación típica. Denotando $\sum_{i=1}^kY_i \equiv S_k$ el CLT puede escribirse como

$$\frac {S_k - E(S_k)}{\sqrt {{\rm Var}(S_k)}} \xrightarrow{d} \mathcal N(0,1),\;\;\; {k\rightarrow\infty} $$

En efecto, un Binomio Negativo ( $X$ ) variable aleatoria con parámetros $k$ (número de fallos antes del tiempo de parada) y $p$ (probabilidad de éxito) puede escribirse como la suma de $k$ variables aleatorias geométricas independientes e idénticamente distribuidas (con $0$ incluido en el soporte) con parámetro común $1-p$ . Así que $\sum_{i=1}^kY_i \equiv S_k$ en nuestro caso es la suma de estos $k$ rv's geométricos, y $S_k = X$ . Tenemos

$$E(Y_i) = \frac {p}{1-p} \implies E(S_k) = \frac {kp}{1-p}$$ $${\rm Var}(Y_i) = \frac {p}{(1-p)^2} \implies {\rm Var}(S_k) = \frac {kp}{(1-p)^2}$$

Introduciendo estos datos en la expresión CLT tenemos

$$\frac {S_k - E(S_k)}{\sqrt {{\rm Var}(S_k)}} = \frac {X - \frac {kp}{1-p}}{\sqrt {\frac {kp}{(1-p)^2}}} \xrightarrow{d} Z \sim\mathcal N(0,1),\;\;\; {k\rightarrow\infty}$$

Entonces, aproximadamente para "grandes $k$ " ( y no para $k\rightarrow \infty$ ) podemos escribir (aceptando que el resultado de la distribución se mantiene para un número finito de $k$ )

$$X \sim_{approx} \left(\sqrt {\frac {kp}{(1-p)^2}}\right)\cdot Z + \frac {kp}{1-p}$$

que por propiedades estándar de las variables aleatorias escaladas y desplazadas implica que $$X \sim_{approx}\mathcal N \left(\frac {kp}{1-p}, \frac{kp}{(1-p)^2}\right)$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X