Sinopsis
Ha redescubierto parte de la construcción descrita en Teorema del límite central para las medianas de las muestras que ilustra un análisis de la mediana de una muestra. (El análisis se aplica obviamente, mutatis mutandis a cualquier cuantil, no sólo a la mediana). Por tanto, no es de extrañar que para parámetros Beta grandes (correspondientes a muestras grandes) surja una distribución Normal bajo la transformación descrita en la pregunta. Lo que interesa es lo cerca que está la distribución de la Normal incluso para pequeño Parámetros beta. Eso merece una explicación.
A continuación esbozaré un análisis. Para que este artículo tenga una longitud razonable, implica muchas sutilezas: Sólo pretendo señalar las ideas clave. Por tanto, permítanme resumir los resultados aquí:
-
Cuando $\alpha$ está cerca de $\beta$ Todo es simétrico. Esto hace que la distribución transformada ya parezca Normal.
-
Las funciones de la forma $\Phi^{\alpha-1}(x)\left(1-\Phi(x)\right)^{\beta-1}$ parecen bastante normales en primer lugar, incluso para valores pequeños de $\alpha$ y $\beta$ (siempre que ambos superen $1$ y su proporción no es demasiado cercana a $0$ o $1$ ).
-
La aparente normalidad de la distribución transformada se debe a que su densidad consiste en una densidad Normal multiplicada por una función en (2).
-
Como $\alpha$ y $\beta$ el alejamiento de la normalidad puede medirse en los términos restantes de una serie de Taylor para la densidad logarítmica. El término de orden $n$ disminuye en proporción a la $(n-2)/2$ poderes de $\alpha$ y $\beta$ . Esto implica que eventualmente, para un tamaño suficientemente grande $\alpha$ y $\beta$ , todos los términos de poder $n=3$ o mayor se han vuelto relativamente pequeñas, dejando sólo una cuadrática: que es precisamente la densidad logarítmica de una distribución Normal.
En conjunto, estos comportamientos explican muy bien por qué incluso para los pequeños $\alpha$ y $\beta$ los cuantiles no extremos de una muestra normal iid parecen aproximadamente normales.
Análisis
Porque puede ser útil generalizar, dejemos que $F$ sea cualquier función de distribución, aunque tenemos en mente $F=\Phi$ .
La función de densidad $g(y)$ de un Beta $(\alpha,\beta)$ es, por definición, proporcional a
$$y^{\alpha-1}(1-y)^{\beta-1}dy.$$
Dejar $y=F(x)$ sea la transformada integral de probabilidad de $x$ y escribir $f$ para la derivada de $F$ es inmediato que $x$ tiene una densidad proporcional a
$$G(x;\alpha,\beta)=F(x)^{\alpha-1}(1-F(x))^{\beta-1}f(x)dx.$$
Como se trata de una transformación monótona de una distribución fuertemente unimodal (una Beta), a menos que $F$ es bastante extraño, la distribución transformada también será unimodal. Para estudiar lo cerca que puede estar de la Normal, examinemos el logaritmo de su densidad,
$$\log G(x;\alpha,\beta) = (\alpha-1)\log F(x) + (\beta-1)\log(1-F(x)) + \log f(x) + C\tag{1}$$
donde $C$ es una constante de normalización irrelevante.
Ampliar los componentes de $\log G(x;\alpha,\beta)$ en series de Taylor para ordenar tres alrededor de un valor $x_0$ (que estará cerca de un modo). Por ejemplo, podemos escribir la expansión de $\log F$ como
$$\log F(x) = c^{F}_0 + c^{F}_1 (x-x_0) + c^{F}_2(x-x_0)^2 + c^{F}_3h^3$$
para algunos $h$ con $|h| \le |x-x_0|$ . Utilice una notación similar para $\log(1-F)$ y $\log f$ .
Términos lineales
El término lineal en $(1)$ por lo que se convierte en
$$g_1(\alpha,\beta) = (\alpha-1)c^{F}_1 + (\beta-1)c^{1-F}_1 + c^{f}_1.$$
Cuando $x_0$ es un modo de $G(\,;\alpha,\beta)$ Esta expresión es cero. Nótese que como los coeficientes son funciones continuas de $x_0$ , como $\alpha$ y $\beta$ son variados, el modo $x_0$ también variará continuamente. Además, una vez $\alpha$ y $\beta$ son lo suficientemente grandes, el $c^{f}_1$ término se vuelve relativamente intrascendente. Si pretendemos estudiar el límite como $\alpha\to\infty$ y $\beta\to\infty$ para lo cual $\alpha:\beta$ se mantiene en una proporción constante $\gamma$ Por lo tanto, podemos elegir de una vez por todas un punto base $x_0$ para lo cual
$$\gamma c^{F}_1 + c^{1-F}_1 = 0.$$
Un buen caso es cuando $\gamma=1$ , donde $\alpha=\beta$ en todo momento, y $F$ es simétrica respecto a $0$ . En ese caso es obvio $x_0=F(0)=1/2$ .
Hemos conseguido un método por el cual (a) en el límite, el término de primer orden de la serie de Taylor desaparece y (b) en el caso especial que acabamos de describir, el término de primer orden es siempre cero.
Términos cuadráticos
Estas son la suma
$$g_2(\alpha,\beta) = (\alpha-1)c^{F}_2 + (\beta-1)c^{1-F}_2 + c^{f}_2.$$
En comparación con una distribución Normal, cuyo término cuadrático es $-(1/2)(x-x_0)^2/\sigma^2$ podemos estimar que $-1/(2g_2(\alpha,\beta))$ es aproximadamente la varianza de $G$ . Estandaricemos $G$ mediante el reajuste de la escala $x$ por su raíz cuadrada. no necesitamos realmente los detalles; basta con entender que este reescalado va a multiplicar el coeficiente de $(x-x_0)^n$ en la expansión de Taylor por $(-1/(2g_2(\alpha,\beta)))^{n/2}.$
Plazo restante
Aquí está el remate: el término de orden $n$ en la expansión de Taylor es, según nuestra notación,
$$g_n(\alpha,\beta) = (\alpha-1)c^{F}_n + (\beta-1)c^{1-F}_n + c^{f}_n.$$
Tras la normalización, se convierte en
$$g_n^\prime(\alpha,\beta) = \frac{g_n(\alpha,\beta)}{(-2g_2(\alpha,\beta))^{n/2})}.$$
Los dos $g_i$ son combinaciones afines de $\alpha$ y $\beta$ . Al elevar el denominador al $n/2$ potencia, el comportamiento neto es del orden $-(n-2)/2$ en cada uno de $\alpha$ y $\beta$ . A medida que estos parámetros crecen, entonces, cada término de la expansión de Taylor después del segundo disminuye a cero asintóticamente. En particular, el término de remanente de tercer orden se vuelve arbitrariamente pequeño.
El caso cuando $F$ es normal
La desaparición del término restante es especialmente rápida cuando $F$ es la Normal estándar, porque en este caso $f(x)$ es puramente cuadrática: no aporta nada a los términos restantes. En consecuencia, la desviación de $G$ de la normalidad depende únicamente de la desviación entre $F^{\alpha-1}(1-F)^{\beta-1}$ y la normalidad.
Esta desviación es bastante pequeña incluso para los pequeños $\alpha$ y $\beta$ . Para ilustrarlo, consideremos el caso $\alpha=\beta$ . $G$ es simétrica, por lo que el término de orden 3 desaparece por completo. El resto es de orden $4$ en $x-x_0=x$ .
Este es un gráfico que muestra cómo cambia el término normalizado de cuarto orden con valores pequeños de $\alpha \gt 1$ :
El valor comienza en $0$ para $\alpha=\beta=1$ porque entonces la distribución es obviamente Normal ( $\Phi^{-1}$ aplicada a una distribución uniforme, que es lo que Beta $(1,1)$ es decir, da una distribución normal estándar). Aunque aumenta rápidamente, alcanza un máximo de menos de $0.008$ --que es prácticamente indistinguible de cero. A partir de ahí se produce el decaimiento recíproco asintótico, que hace que la distribución se acerque cada vez más a la Normal, ya que $\alpha$ aumenta más allá de $2$ .
2 votos
Aquí no pasa nada interesante. Como $\alpha$ y $\beta$ crecer, supongamos que se mantienen en la misma proporción, o al menos que $\alpha/(\alpha+\beta)$ restos lejos de $0$ y $1$ . A continuación, el Beta $(\alpha,\beta)$ la distribución se vuelve Normal y se concentra dentro de un rango arbitrariamente estrecho. $\Phi^{-1}$ Al ser diferenciable, se convierte en esencialmente lineal, por lo que sólo se trata de una transformación lineal de una variable casi normal. Este resultado no tiene nada más que ver con $\Phi^{-1}$ y no añade ninguna información sobre las distribuciones Beta.
1 votos
@whuber Eso tiene sentido para los grandes $\alpha$ y $\beta$ (Tuve algunas simulaciones que me hicieron pensar que esto estaba más cerca de lo normal que el equivalente normal a la beta, pero al volver a ejecutar creo que tuve un error en ese momento). Alguna idea sobre $\alpha=2$ ; $\beta=2$ ? Dist está muy lejos de la normalidad, pero qnorm de ella está bastante cerca.
1 votos
@whuber Por ejemplo, intente
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
alorshist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. En otras palabras, cuando $\alpha=\beta=1$ es normal porque la beta es uniforme, cuando $\alpha$ y $\beta$ son altos es porque la beta es aproximadamente normal- pero ¿por qué funciona cuando son iguales e intermedios, donde no es ni normal ni uniforme?6 votos
¡Eso es definitivamente más interesante! Tienes razón en que Beta no está muy cerca de la Normal pero que la transformación es aproximadamente Normal, incluso para pequeños parámetros de Beta. Las desviaciones de la normalidad se hacen evidentes en las colas, alrededor de $Z=\pm 3$ o mayor, pero son notablemente pequeñas en todo el cuerpo de la distribución. En última instancia, esto se debe al comportamiento de ley de potencia de las colas Beta.