7 votos

Aproximación de la distribución de una combinación lineal de variables aleatorias independientes con distribución beta

Esta pregunta está relacionada con las otras dos preguntas de Cross Validated, que ya han sido contestadas:

En resumen, mi pregunta es la siguiente: ¿Debo utilizar resultados específicos como los recogidos por Gupta y Nadarajah (2004) (véase también la respuesta por @kjetil-b-halvorsen a una pregunta anterior ) para aproximar la distribución de la combinación lineal de $n=20$ variables aleatorias independientes con distribución beta, ¿o el CLT sería lo suficientemente preciso en este caso? El contexto: control de calidad estadístico sobre la producción de un entorno industrial estándar (no de la NASA, quiero decir).


Esta es mi situación concreta:

Tengo una secuencia $X_1, X_2, X_3, \dots$ de variables aleatorias independientes que se puede suponer que siguen una distribución beta, cada una de ellas con sus respectivos parámetros de distribución, no necesariamente iguales, es decir:

$$ X_i \sim \mathrm{Beta}(a_i,b_i) \text{,} \quad \forall\; i \text{.} $$

En realidad, todos los $X_i$ deberían tener la misma distribución. Es decir, teóricamente hablando, hay una distribución subyacente $\mathrm{Beta}(a,b)$ que todos los $X_i$ 'debe venir, pero el proceso no está bajo control estadístico.

Me interesa determinar aproximadamente la distribución de la media de $n$ de esos $X_i$ 's. Sin pérdida de generalidad, me gustaría aproximar la distribución de

$$ Y = \frac{1}{n}\sum_{i=1}^n{X_i} \text{.} $$

Es posible un enfoque basado en datos concretos (me refiero a calcular valores concretos para $Y$ a partir de valores concretos para la secuencia de $X_i$ y tratar de ajustar una distribución) y se hará. Pero también me interesa conectar la distribución de $Y$ con la distribución del $X_i$ de una manera más teórica, para poder deducir cosas sobre $Y$ basándose en lo que ocurre con el $X_i$ 's.

Utilizando el CLT de Lindeberg-Feller (véase https://stats.stackexchange.com/a/156464/44075 ), podría afirmar -si no me equivoco- que $Y$ se distribuye aproximadamente como una variable normal con media $\mu_Y$ y la desviación estándar $\sigma_Y$ , donde $\mu_Y$ puede estimarse como la media de una muestra de $X_i$ y $\sigma_Y$ puede estimarse como la (cuasi)desviación estándar de la muestra del $X_i$ dividido por $\sqrt{n}$ .

Por otro lado, Johannesson y Giri (1995) que son citados por Gupta y Nadarajah (2004) , proporcionan dos formas de aproximación $Y$ utilizando una distribución beta. El más complejo de ellos dice que $Y$ es aproximadamente igual a $\rho Z/\gamma$ , donde $Z$ es una variable aleatoria beta estándar con parámetros $g$ y $h$ y donde $\rho$ , $\gamma$ , $g$ y $h$ puede determinarse mediante ecuaciones explícitas que pueden ser traducido a estimar a partir de una muestra de $X_i$ 's.

Entonces, ¿cuál de los enfoques debería utilizar? El normal aproximación o la beta ¿uno?

Como ya he dicho, en mi caso concreto, el valor de $n$ es $20$ más o menos.


EDITAR:

Me interesa este asunto porque fue advertido sobre el hecho de que la tasa de convergencia de $Y$ a una distribución normal (cuando $n$ tiende a infinito) no es declarado por la CLT de Lindeberg-Feller.

3voto

AdamSane Puntos 1825

Si la asimetría de los componentes beta es baja, entonces los terceros momentos absolutos también deberían ser bajos*, y la aproximación normal debería tender a entrar con bastante rapidez (véase el Teorema de Berry-Esseen para las variantes no i.d.).

* No me refiero a este comentario como algo general, sólo con respecto a las variantes beta. Por ejemplo, si la asimetría $\gamma_1$ de una variante beta es pequeña la curtosis está limitada por arriba y por abajo por $1 +$ un múltiplo de $\gamma_1^2$ (donde ambos múltiplos son pequeños), y creo que el tercer momento absoluto de una variante estandarizada debe ser menor que el cuarto momento. Estas dos cosas juntas sugieren que un tercer momento pequeño implica un tercer momento absoluto pequeño.

Sin embargo, lo que estamos tratando con "cercanía" en el teorema es cdfs, pero limitar la diferencia en cdfs no necesariamente hace que cualquier otra propiedad que desee como que para una normal; puede tener más sentido para identificar lo que las propiedades que está buscando e investigar esos.

Por otro lado, si la asimetría es alta, no esperaríamos una aproximación muy rápida a la normalidad; de hecho, la simulación establece fácilmente que la asimetría puede permanecer en la media estandarizada. Por ejemplo, aquí hay un histograma para 10000 simulaciones de medias estandarizadas de 20 variantes beta(100,1):

enter image description here

De todos modos, estos puntos pueden ayudarte a entender mejor cuándo puedes decidir trabajar con la aproximación normal en lugar de las fórmulas más complicadas.

0 votos

Creo que entiendo su respuesta. En mi caso, las variables con distribución beta que estoy considerando son de sesgo positivo (tienen que ver con proporciones que están como entre el 5 y el 10%, en promedio). Debería graficar mis datos reales para ver si $Y$ puede considerarse aproximadamente normal o no. Gracias. De momento, dejo la pregunta como no contestada para recibir más aportaciones, quizá con diferentes enfoques.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X