3 votos

Distribución de distancias a la media de una distribución beta simétrica

Tengo una distribución beta simétrica y extraigo d muestras $x_i \sim Beta(a, a)$ para algún a. Ahora quiero saber la distribución de $\ell_2$ -distancias del vector muestra $(x_1, \dotsc, x_d)^T$ a la media $(0.5, ..., 0.5)^T$ . Esto es algo parecido a lo que el $\chi$ -para una distribución normal.

Me interesaría sólo conocer la distribución pero sería un gran plus si también ahora la FCD de la misma.

Mis mejores enfoques actuales serían aproximar la distribución beta mediante una distribución normal o calcular la $\ell_\infty$ -porque en ese caso se puede reducir a un problema unidimensional, pero no estoy muy contento con estas aproximaciones.

1voto

Jim Baldwin Puntos 427

Esto debería considerarse un comentario extendido más que una respuesta. Muestro un resultado no muy útil para $d=2$ y luego mostrar cómo construir la función generadora de momentos para el cuadrado de la distancia (y no la distancia como se pide).

FCD para $d=2$

Utilizando un sistema de álgebra computacional se pueden obtener fórmulas explícitas de las cdf's y pdf's para $n=2$ (y quizá superiores) y valores enteros de $a$ . He aquí algunas de esas soluciones para casos especiales utilizando Mathematica :

n = 2;
a = 1;
dist = TransformedDistribution[Sqrt[Sum[(x[i] - 1/2)^2, {i, n}]],
   Table[x[i] \[Distributed] BetaDistribution[a, a], {i, n}]];
cdf1 = CDF[dist, z]

cdf for a = 1 and n=2

n = 2;
a = 2;
dist = TransformedDistribution[Sqrt[Sum[(x[i] - 1/2)^2, {i, n}]],
   Table[x[i] \[Distributed] BetaDistribution[a, a], {i, n}], 
   Assumptions -> a > 0];
cdf2 = FullSimplify[CDF[dist, z] /.
   -I (Log[I - Sqrt[-1 + 4 z^2]] - Log[I + Sqrt[-1 + 4 z^2]]) -> 2 ArcTan[Sqrt[-1 + 4 z^2]]]

cdf for a = 2 and n = 2

Un gráfico de las fdc para $a=1, 2, 3$ sigue:

CDF's for n=2 and alpha = 1, 2, 3

Función generadora de momentos para el cuadrado de la distancia

Después de jugar con la construcción del momento generador con valores enteros de $a$ y obteniendo resultados, probé a utilizar números racionales para $a$ y el patrón de la función generadora de momento se hizo evidente. ( Mathematica no devolvía resultados cuando el símbolo $a$ o si se indica un número no racional, pero siempre se obtenían resultados cuando se utilizaban números racionales para el parámetro $a$ .)

Siguiendo la sugerencia de @whuber en los comentarios se puede encontrar la distribución de $(x_i-1/2)^2$ :

dist = TransformedDistribution[(x - 1/2)^2, x \[Distributed] BetaDistribution[a, a], 
  Assumptions -> a > 0];

La función generadora de momentos para esa variable aleatoria con un valor especificado de $a$ es

mgf = MomentGeneratingFunction[dist /. a -> 17/16, t] // FullSimplify

$$\, _1F_1\left(\frac{1}{2};\frac{25}{16};\frac{t}{4}\right)$$

donde $\, _1F_1$ es la función hipergeométrica confluente de Kummer. Observando diversos valores racionales de $a$ la forma general de la función generadora de momentos para $a=p/q$ es

$$M(t)=\, _1F_1\left(\frac{1}{2};\frac{2 p+q}{2 q};\frac{t}{4}\right)$$

Así que esto se puede reescribir de la siguiente manera:

$$M(t)=\, _1F_1\left(\frac{1}{2};a+\frac{1}{2};\frac{t}{4}\right)$$

Para la suma de $d$ variables aleatorias independientes con el mismo valor de $a$ la función generadora de momentos es $M(t)^d$ . Podemos encontrar todos los momentos deseados:

mgf = Hypergeometric1F1[1/2, a + 1/2, t/4]

mean = D[mgf^d, t] /. t -> 0 // FullSimplify

$$\frac{d}{8 a+4}$$

variance = (D[mgf^d, {t, 2}] /. t -> 0) - mean^2 // FullSimplify

$$\frac{a d}{4 (2 a+1)^2 (2 a+3)}$$

Los momentos 3 y 4 son un poco más largos:

m3 = D[mgf^d, {t, 3}] /. t -> 0 // FullSimplify

$$\frac{d \left(4 a^2 (d+2) (d+4)+4 a (d+4) (4 d-1)+15 d^2\right)}{64 (2 a+1)^3 (2 a+3) (2 a+5)}$$

m4 = D[mgf^d, {t, 4}] /. t -> 0 // FullSimplify

$$\frac{d \left(96 a \left(8 a^3-20 a+3\right)+(2 a+3)^2 (2 a+5) (2 a+7) d^3+24 a (2 a+3) (2 a+5) (2 a+7) d^2+16 a (2 a+7) (a (22 a+31)-12) d\right)}{256 (2 a+1)^4 (2 a+3)^2 (2 a+5) (2 a+7)}$$

A modo de comprobación, considere algunas simulaciones con $a=36/11$ y $d=7$ .

n = 1000000;  (* Sample size *)
d = 7;  (* Dimension *)
a = 36/11
SeedRandom[12345];
x = Total[(# - 1/2)^2] & /@ RandomVariate[BetaDistribution[a, a], {n, d}];
Mean[x]
(* 0.231805 *)
d/(4 + 8 a) // N
(* 0.231928 *)
Variance[x]
(* 0.0105387 *) 
(a d)/(4 (1 + 2 a)^2 (3 + 2 a)) // N
(* 0.0105385 *)

Esto no te da la cdf o pdf pero quizás conocer los momentos del cuadrado de la distancia te puede ayudar a conseguir tu objetivo de análisis.

Una distribución gamma generalizada con pdf

$$\frac{\gamma e^{-\left(\frac{z}{\beta }\right)^{\gamma }} \left(\frac{z}{\beta }\right)^{\alpha \gamma -1}}{\beta \Gamma (\alpha )}$$

para $z>0$ y 0 en el resto parece proporcionar un ajuste razonable.

sol = FindDistributionParameters[x, GammaDistribution[, , , 0],
 {{, 1.947}, {, 0.1639}, {, 1.641}}]
(* { -> 1.92386,  -> 0.165846,  -> 1.65522} *)

Show[Histogram[x, "FreedmanDiaconis", "PDF"],
 Plot[PDF[GammaDistribution[, , , 0] /. sol, z], {z, Min[x], Max[x]}]]

Generalized gamma fit

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X