¿Cuál es la varianza del producto de $k$ ¿variables aleatorias correlacionadas?
Respuestas
¿Demasiados anuncios?Puede encontrar más información sobre este tema de la que probablemente necesite en Goodman (1962): "La varianza del producto de K variables aleatorias" que deriva fórmulas tanto para variables aleatorias independientes como para variables aleatorias potencialmente correlacionadas, junto con algunas aproximaciones. En un documento anterior ( Goodman, 1960 ), se derivó la fórmula para el producto de exactamente dos variables aleatorias, que es Algo así como más simple (aunque sigue siendo bastante complicado), así que ese podría ser un mejor lugar para empezar si quieres entender la derivación.
Sin embargo, para completar, es así.
Dos variables
Supongamos lo siguiente:
- $x$ y $y$ son dos variables aleatorias
- $X$ y $Y$ son sus expectativas (no nulas)
- $V(x)$ y $V(y)$ son sus variantes
- $\delta_x = (x-X)/X$ (y lo mismo para $\delta_y$ )
- $D_{i,j} = E \left[ (\delta_x)^i (\delta_y)^j\right]$
- $\Delta_x = x-X$ (y lo mismo para $\Delta_y$ )
- $E_{i,j} = E\left[(\Delta_x)^i (\Delta_y)^j\right]$
- $G(x)$ es el coeficiente de variación al cuadrado: $V(x)/X^2$ (igualmente para $G(Y)$ )
Entonces: $$V(xy) = (XY)^2[G(y) + G(x) + 2D_{1,1} + 2D_{1,2} + 2D_{2,1} + D_{2,2} - D_{1,1}^2] $$ o de forma equivalente:
$$ V(xy) = X^2V(y) + Y^2V(x) + 2XYE_{1,1} + 2XE_{1,2} + 2YE_{2,1} + E_{2,2} - E_{1,1}^2$$
Más de dos variables
El documento de 1960 sugiere que se trata de un ejercicio para el lector (¡lo que parece haber motivado el documento de 1962!).
La notación es similar, con algunas extensiones:
- $(x_1, x_2, \ldots x_n)$ sean las variables aleatorias en lugar de $x$ y $y$
- $M = E\left( \prod_{i=1}^k x_i \right)$
- $A = \left(M / \prod_{i=1}^k X_i\right) - 1$
- $s_i$ = 0, 1 o 2 para $i = 1, 2, \ldots k$
- $u$ = número de 1's en $(s_1, s_2, \ldots s_k)$
- $m$ = número de 2's en $(s_1, s_2, \ldots s_k)$
- $D(u,m) = 2^u - 2$ para $m=0$ y $2^u$ para $m>1$ ,
- $C(s_1, s_2, \ldots, s_k) = D(u,m) \cdot E \left( \prod_{i=1}^k \delta_{x_i}^{s_i} \right)$
- $\sum_{s_1 \cdots s_k}$ indica la suma de los $3^k - k -1$ conjuntos de $(s_1, s_2, \ldots s_k)$ donde $2m + u > 1$
Entonces, por fin:
$$ V\left(\prod_{i=1}^k x_i\right) = \prod X_i^2 \left( \sum_{s_1 \cdots s_k} C(s_1, s_2 \ldots s_k) - A^2\right)$$
Consulte los documentos para conocer los detalles y las aproximaciones un poco más manejables.
Una buena pregunta, aquí mi intento de respuesta.
Para describir un sistema termodinámico, se pueden pedir los valores de ciertas magnitudes termodinámicas: Presión $p$ Volumen $V$ , número de partícula $N$ , potencial químico $\mu$ , temperatura $T$ , la entropía $S$ , energía interna $E$ .
Sin embargo, resulta que estas cantidades no son totalmente independientes. Para un gas ideal monoatómico, por ejemplo, $E = 3/2 N k_B T$ , por lo que si se fija el número de partículas $N$ y la temperatura $T$ la energía interna ya está determinada.
Para un sistema termodinámico, se puede demostrar que especificando tres cantidades es suficiente para determinar todas las demás cantidades, y tienes algunos libertad en cuál de esas tres cantidades se especifica: Podrías especificar la temperatura, el volumen y el número de partículas, y eso te daría todas las demás cantidades, incluida la entropía, $S(T,V,N)$ . O puede especificar la temperatura, la presión y el número de partículas, lo que le da $S(T,p,N)$ .
Matemáticamente, se pasa de $S(T,V,N)$ a $S(T,p,N)$ expresando el volumen en términos de temperatura, presión y número de partículas, $V(T,p,N)$ y sustituyendo eso en $S$ .
(En tu ejemplo parece que sólo hay dos variables. Si se entiende que estamos viendo sistemas donde $N$ no puede cambiar, se suele omitir en los argumentos de la función)
Sin embargo, hay que tener cuidado con una cosa: Para que tus tres variables especifiquen el sistema, no puedes usar variables "conjugadas": No puedes describir un sistema (general) especificando presión, volumen y temperatura, por ejemplo, porque la presión y el volumen son conjugados. (Nota hace funcionan para el caso especial del gas ideal debido a $pV = NkT$ .
Además de la fórmula general dada por Matt, cabe señalar que existe una fórmula algo más explícita para las variables aleatorias gaussianas de media cero. Se deduce de Teorema de Isserlis Ver también Momentos superiores para la distribución normal multivariante centrada.
Supongamos que $(x_1, \ldots, x_k)$ sigue una distribución normal multivariante con media 0 y matriz de covarianza $\Sigma$ . Si el número de variables $k$ es impar, $E\left(\prod_i x_i\right) = 0$ y
$$V\left(\prod_i x_i\right) = E\left( \prod_i x_i^2\right) = \sum \prod \tilde{\Sigma}_{i,j}$$ donde $\Sigma \prod$ significa la suma de todas las particiones de $\{1, \ldots, 2k\}$ en $k$ pares disjuntos $\{i, j\}$ siendo cada término un producto de los correspondientes $k$ $\tilde{\Sigma}_{i,j}$ y donde $$\tilde{\Sigma} = \left( \begin{array}{cc} \Sigma & \Sigma \\ \Sigma & \Sigma \end{array} \right)$$ es la matriz de covarianza de $(x_1, \ldots, x_k, x_1, \ldots, x_k)$ . Si $k$ está en paz, $$V\left(\prod_i x_i\right) = \sum \prod \tilde{\Sigma}_{i,j} - \left(\sum \prod \Sigma_{i,j}\right)^2.$$ En el caso $k = 2$ obtenemos $$V(x_1x_2) = \Sigma_{1,1} \Sigma_{2,2} + 2 (\Sigma_{1,2})^2 - \Sigma_{1,2}^2 = \Sigma_{1,1} \Sigma_{2,2} + (\Sigma_{1,2})^2.$$ Si $k = 3$ obtenemos $$V(x_1x_2x_3) = \sum \Sigma_{i,j}\Sigma_{k,l}\Sigma_{r,t},$$ donde hay 15 términos en la suma.
De hecho, es posible aplicar la fórmula general. La parte más difícil parece ser el cálculo de las particiones necesarias. En R, esto se puede hacer con la función setparts
del paquete partitions
. Utilizando este paquete no hubo ningún problema para generar las 2.027.025 particiones para $k = 8$ las 34.459.425 particiones para $k = 9$ también podría generarse, pero no las 654.729.075 particiones para $k = 10$ (en mi portátil de 16 GB).
Cabe destacar un par de cosas más. En primer lugar, para las variables gaussianas con media distinta de cero debería ser posible derivar una expresión también a partir del teorema de Isserlis. En segundo lugar, no está claro (para mí) si la fórmula anterior es robusta frente a las desviaciones de la normalidad, es decir, si puede utilizarse como aproximación incluso si las variables no están distribuidas normalmente de forma multivariante. En tercer lugar, aunque las fórmulas anteriores son correctas, es cuestionable cuánto dice la varianza sobre la distribución de los productos. Incluso para $k = 2$ la distribución del producto es bastante leptocúrtica, y para mayores $k$ rápidamente se vuelve extremadamente leptocúrtico.