4 votos

¿Cuál es la mejor manera de tomar muestras de distribuciones conjuntas con marginales independientes?

Supongamos que tenemos un $n$ -distribución conjunta de dimensiones en la que todos sus marginales son independientes. Es decir, si la función de densidad conjunta es $p(x_1,\ldots,x_n)$ entonces $p(x_1,\ldots,x_n)=p_1(x_1)\cdots p_n(x_n)$ , donde $p_1,\ldots,p_n$ son densidades marginales, y todos estos marginales son conocidos y bastante simples.

Ahora queremos obtener muestras ${\bf x}_k=(x_{k,1},\ldots,x_{k,n}),k=1,\ldots,m$ de $p$ donde cada muestra es un $n$ -y el objetivo es utilizar estas muestras para estimar la expectativa de $E(h(X))$ donde $h$ es una función de valor real, X es una variable aleatoria distribuida según $p$ calculando la media de $h({\bf x}_1),\ldots,h({\bf x}_m)$ .

Para ello $m$ es mejor que sea un número muy grande. Alguien sabe cuál es la forma más eficiente de hacerlo además de MCMC ?

La forma brutalmente ingenua es tomar una muestra $x_{k,i}$ de $p_i$ por cada $i=1,\ldots,n$ por cada $k$ . Esto no es deseable cuando $m$ es grande.

Excluimos el MCMC porque su coste es demasiado elevado para nuestra aplicación. Todos los marginales son independientes, conocidos y simples. No queremos involucrar a esta pesada maquinaria.

Una posible alternativa puede ser que, después de muestrear ${\bf x}$ de $p$ , luego nos turnamos para volver a muestrear cada dimensión de ${\bf x}$ del correspondiente marginal, pero no estamos seguros de que esto sea correcto ( es decir, si la estimación es insesgada, la convergencia será mucho más lenta ). ¿Alguien puede ayudar a demostrar o mostrar un contraejemplo de esto?

2voto

Blair Gibson Puntos 16

La eficacia que pueda alcanzar dependerá del tipo de función que tenga para $h({\bf X})$ así como en la implementación y el coste de la CPU de los distintos cálculos y, por supuesto, el problema en cuestión.

El método de remuestreo que sugieres está absolutamente bien. Sin embargo, los vectores adicionales así obtenidos no son totalmente independientes. Así que se obtiene un intercambio entre una convergencia más lenta debido a eso, frente a un cálculo más rápido porque sólo se necesita generar y evaluar las probabilidades de las pocas dimensiones que se muestrean, mientras que la mayoría de los componentes del vector ${\bf x}_k$ siguen siendo los mismos.

No se puede saber de antemano qué tan bien funciona esto y cuánto mejor será la media estimada sin conocer la función $h({\bf X})$ y las distintas probabilidades.

La última generalización de esta idea es tomar todas las combinaciones posibles de los componentes del $k$ vectores que tiene. Así que en lugar de $$ E(h({\bf X})) = \sum_{k=1}^m p({\bf x}_k) h({\bf x}_k) = \sum_{k=1}^m \left( \prod_{i=1}^n p_i(x_{k,i}) \right) h({\bf x}_k) $$ podrías tomar $m^n$ vectores diferentes (pero no independientes): $$ E(h({\bf X})) = \sum_{i_1=1}^m p_1(x_{i_1,1})\dots \sum_{i_n=1}^m p_n(x_{i_n,n}) h(\{x_{i_1,1},\dots,x_{i_n,n}\}) $$ que permite cálculos muy eficientes y es la mayor información que se puede obtener del $m$ vectores independientes que se generaron de forma innata. Por supuesto, esto sólo funciona si la función $h({\bf X})$ consiste en términos aditivos y multiplicativos de subconjuntos de los distintos componentes.

Obsérvese que el error estimado en $E(h({\bf X}))$ debe determinarse teniendo en cuenta que sólo hay $m$ vectores independientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X