Esta pregunta está relacionada con las otras dos preguntas de Cross Validated, que ya han sido contestadas:
En resumen, mi pregunta es la siguiente: ¿Debo utilizar resultados específicos como los recogidos por Gupta y Nadarajah (2004) (véase también la respuesta por @kjetil-b-halvorsen a una pregunta anterior ) para aproximar la distribución de la combinación lineal de $n=20$ variables aleatorias independientes con distribución beta, ¿o el CLT sería lo suficientemente preciso en este caso? El contexto: control de calidad estadístico sobre la producción de un entorno industrial estándar (no de la NASA, quiero decir).
Esta es mi situación concreta:
Tengo una secuencia $X_1, X_2, X_3, \dots$ de variables aleatorias independientes que se puede suponer que siguen una distribución beta, cada una de ellas con sus respectivos parámetros de distribución, no necesariamente iguales, es decir:
$$ X_i \sim \mathrm{Beta}(a_i,b_i) \text{,} \quad \forall\; i \text{.} $$
En realidad, todos los $X_i$ deberían tener la misma distribución. Es decir, teóricamente hablando, hay una distribución subyacente $\mathrm{Beta}(a,b)$ que todos los $X_i$ 'debe venir, pero el proceso no está bajo control estadístico.
Me interesa determinar aproximadamente la distribución de la media de $n$ de esos $X_i$ 's. Sin pérdida de generalidad, me gustaría aproximar la distribución de
$$ Y = \frac{1}{n}\sum_{i=1}^n{X_i} \text{.} $$
Es posible un enfoque basado en datos concretos (me refiero a calcular valores concretos para $Y$ a partir de valores concretos para la secuencia de $X_i$ y tratar de ajustar una distribución) y se hará. Pero también me interesa conectar la distribución de $Y$ con la distribución del $X_i$ de una manera más teórica, para poder deducir cosas sobre $Y$ basándose en lo que ocurre con el $X_i$ 's.
Utilizando el CLT de Lindeberg-Feller (véase https://stats.stackexchange.com/a/156464/44075 ), podría afirmar -si no me equivoco- que $Y$ se distribuye aproximadamente como una variable normal con media $\mu_Y$ y la desviación estándar $\sigma_Y$ , donde $\mu_Y$ puede estimarse como la media de una muestra de $X_i$ y $\sigma_Y$ puede estimarse como la (cuasi)desviación estándar de la muestra del $X_i$ dividido por $\sqrt{n}$ .
Por otro lado, Johannesson y Giri (1995) que son citados por Gupta y Nadarajah (2004) , proporcionan dos formas de aproximación $Y$ utilizando una distribución beta. El más complejo de ellos dice que $Y$ es aproximadamente igual a $\rho Z/\gamma$ , donde $Z$ es una variable aleatoria beta estándar con parámetros $g$ y $h$ y donde $\rho$ , $\gamma$ , $g$ y $h$ puede determinarse mediante ecuaciones explícitas que pueden ser traducido a estimar a partir de una muestra de $X_i$ 's.
Entonces, ¿cuál de los enfoques debería utilizar? El normal aproximación o la beta ¿uno?
Como ya he dicho, en mi caso concreto, el valor de $n$ es $20$ más o menos.
EDITAR:
Me interesa este asunto porque fue advertido sobre el hecho de que la tasa de convergencia de $Y$ a una distribución normal (cuando $n$ tiende a infinito) no es declarado por la CLT de Lindeberg-Feller.