Estoy tratando de determinar si una suma de variables aleatorias continuas idénticamente distribuidas pero solo no correlacionadas podría converger a una distribución normal. En primer lugar definimos las variables aleatorias i.i.d. $\theta_i\sim Unif(0,2\pi)$, por lo que una distribución uniforme en el intervalo $(0,2\pi)$, función de densidad dada por: $$ f_{\theta_i}(\theta) = \begin{cases}\frac{1}{2\pi} \mbox{ si $\theta\in(0,2\pi$)} \\ 0 \mbox{ en otro caso} \end{cases} $$ Mi pregunta es: ¿qué podemos decir sobre la suma de variables aleatorias $$ \sum_{i En primer lugar podemos notar que si $i\not = j \not = k \not = s$, entonces $\cos(\theta_i-\theta_j)$ y $\cos(\theta_k-\theta_s)$ son independientes (porque son función de variables aleatorias independientes). El problema principal es que las variables aleatorias no son mutuamente independientes sino "solo" no correlacionadas (o al menos, logro probar que son no correlacionadas pero no creo que puedan ser independientes.. aunque tengo que encontrar un contraejemplo para demostrarlo). Por otro lado $\{\cos(\theta_i-\theta_j)\}_{i son idénticamente distribuidos con $\mathbb{E}(\cos(\theta_i-\theta_j))=0$ y $Var(\cos(\theta_i-\theta_j))=\frac{1}{2}$. Sé que el TCL estándar no se puede aplicar aquí.. pero también sé de la existencia de alguna forma más general de este teorema con hipótesis más débiles.
¿Sabes si, en este caso particular, es posible aplicar alguna de ellas? ¡Gracias de antemano por tu ayuda!
ACTUALIZACIÓN 1
Dado que
$$ |\{(i,j)\in\mathbb{N}^2:i
la suma cuenta $\frac{N(N-1)}{2}$ variables aleatorias y aplicando el TCL (¿en su versión estándar?) tenemos: $$ \frac{\sum_{i donde usamos el hecho de que $\mu = 0$ y $\sigma^2 = \frac{1}{2}$.
Mi pregunta
Me gustaría saber cómo puedo justificar rigurosamente este hecho. En particular, ¿qué versión del TCL debería utilizar?
Observaciones
Observa que si definimos $X_{ij} = \cos(\theta_i-\theta_j)$, nuestra secuencia de variables aleatorias compone un array triangular con entradas $\{X_{ij}\}_{1\leq i\leq j-1,j \geq 2}$ donde estamos interesados en la convergencia de la suma de todas sus entradas: $$ \sum_{i cuando $N\to +\infty$. Además noto que cada fila del triángulo está compuesta por variables aleatorias independientes. Por ejemplo, si $j=5$ entonces: $X_{15},X_{25},X_{35},X_{45}$ son independientes.
Teorema central del límite de Lindeberg-Feller
Nuestro array satisface el TCL de Lindeberg-Feller, lo que implica que si $S_k$ es la suma de la $k-ésima$ fila, entonces $S_k\longrightarrow\mathcal{N}(0,\sigma^2)$.. pero cómo usarlo para el problema de la convergencia de la suma de TODAS las entradas del array?
Dudas
Después de mi respuesta (que puedes encontrar más abajo), donde me referí a algunos papers, de repente gracias a @jd27 entiendo que mi generación con R no parece una distribución normal.. aunque debido a los resultados que cité debería serlo.
Los ingredientes que he utilizado son:
- Independencia pareja (es decir, $\forall i_1 y $\forall i_2 con $(i_1,j_1)\not = (i_2,j_2)$ tenemos que $\cos(\theta_{i_1}-\theta_{j_1})$ y $\cos(\theta_{i_2}-\theta_{j_2})$ son independientes);
- Simetria de $X_{ij}$ (es decir, $X_{ij}\sim -X_{ij}$);
- Las variables aleatorias $X_{ij}$ son idénticamente distribuídas con valor esperado finito y varianza finita.
No entiendo qué hice mal.. ¿Una de estas propiedades es falsa en mi secuencia de variables aleatorias? Gracias de antemano por tu ayuda.
También podemos observar que:
$$ \min {\sum_{i mientras que $$ \max {\sum_{i lo cual es extraño porque produce una distribución.. que no parece ser normal, aunque la distribución límite de $$ \frac{\sum_{i parece tener $\mathbb{E}(W) = 0$ y $Var(W) = 1$ como se puede ver en la salida del código:
library(EnvStats)
nsample <- 20000
n <- 50
mat <- matrix(rep(0,n^2), n, n)
total <- integer(nsample)
for (k in 1:nsample) {
sample <- runif(n, min = 0, max = 2*pi)
for(i in 1:n) {
for(j in 1:n) {
if(j > i) {
mat[i,j] <- cos(sample[i]-sample[j])
}
}
}
total[k] <- (sum(mat))/(sqrt(n*(n-1)/4))
}
T <- total
CDF <- ecdf(T)
par(mfrow=c(1,2))
plot(CDF)
epdfPlot(T, epdf.col = "red")
print(sum(1/nsample*total))
print(var(T))
La distribución límite parece ser una distribución log-normal:
Pero también recuerda a la distribución de Landau: