7 votos

Distribución conjunta de distribuciones independientes

Tenemos $N$ independiente discreto finito de variables aleatorias (RVs) $X_1,\dots,X_i,\dots,X_N$ donde RV $X_i$ $M_i$ número finito de elementos. Somos libres de elegir cualquier distribución $f_i$ RV $X_i$ $\forall i=\{1,\dots,N\}$. Entonces considere el conjunto de productos de $Y = X_1\times\dots\times X_i\times\dots\times X_N$ y decir que estamos interesados en una determinada distribución de $f_Y$, que es el conjunto de todas las posibles distribuciones en las $Y$. Nota: $f_Y$ no es el producto de $f_i$s.

Cómo de cerca se puede llegar a $f_Y$ mediante la manipulación de las distribuciones independientes $f_i$ $\forall i=\{1,\dots,N\}$ ? Lo que yo creo (no estoy seguro) es igual a preguntar cómo está cerca de las $\prod_i^Nf_i$$f_Y$?

Hay un conjunto de números reales $\boldsymbol{a}=\{a(y)\}_{y\in Y}$. El objetivo es hacer que la expectativa de que el conjunto de $\boldsymbol{a}$ $f_i$s tan cerca como sea posible a la expectativa de $\boldsymbol{a}$$f_Y$.

He tratado de escribir un problema de optimización para minimizar $\mid \sum_{y\in Y}[\prod_i^Nf_i(y)-f_Y(y)]a(y)\mid$, pero no es convexo. Y no estoy seguro de si este es el problema de optimización que debo resolver.

¿Qué significa ser "cerrar" cuando tenemos dos distribuciones?

Tenga en cuenta que sólo las expectativas de estar cerca no es suficiente, la probabilidad de $\prod_i^Nf_i(y)$ tiene que estar cerca de la verdadera probabilidad de $f_Y(y)$ $\forall y \in Y$.

La cuestión de la Distancia entre el producto de las distribuciones marginales y de la distribución conjunta es un poco similar, pero de ahí marginales vienen de la articulación, pero en mi pregunta no marginales de la comparación.

Estaría muy agradecido por cualquier pista. Gracias.

PS. No a la tarea. Parte del trabajo de investigación.

3voto

user87400 Puntos 120

(Esta es la discusión en lugar de responder)

Medidas de distribución de distancia existen - de Kullback-Leibler divergencia (o "relación de la entropía") y la distancia de Hellinger son sólo dos de los que vienen inmediatamente a la mente. Pero de lo que se escribe, que buscan minimizar la distancia entre dos valores esperados - el "verdadero" valor esperado, que se toma con respecto a la verdadera función de masa de probabilidad conjunta $p(Y)$ de los no-independiente de las variables aleatorias, y una aproximación de la misma, el cual se utiliza una función de masa de probabilidad conjunta $q(Y)$ que asume la independencia, algo así como

$$d = \left|E_p\left[a(Y)\right] - E_q\left[a(Y)\right]\right| = \left|\sum_{S_Y}a(y)p(y) - \sum_{S_Y}a(y)q(y) \right|$$

o cuadradas o ..., donde el $y$ $N$- dimensiones del vector y de las sumas se entienden adecuadamente múltiples.

Puede parecer que el problema cae en el campo de la "estimación de densidad", pero no: la densidad de los métodos de estimación de empezar con un ejemplo y tratar de estimar a partir de esta muestra de la densidad de los que mejor lo describe. Su problema en el otro lado no incluye una muestra de realizaciones de las variables aleatorias involucradas. Es un resumen teórico del problema. Tal vez esta es la razón por la que la frase en matemáticas en vez de en términos estadísticos.

Por ejemplo, escribe sobre "la manipulación de la persona densidades". Esto podría significar cualquier cosa, no sólo el uso de una distribución conjunta de las variables independientes (=producto de las densidades individuales) -podría significar cualquier combinación de las densidades individuales (una suma ponderada, lo que sea), visto como un matemático de aproximación de la verdadera distribución conjunta -y no como un proceso estocástico de estimación (esta respuesta de la mina de ofertas en cierto grado con las diferencias entre los dos aunque en otro contexto).

Así que parece que hay dos aspectos importantes que tal vez la necesidad de distinguir y decidir: en Primer lugar, después de "minimizar la distancia de la verdadera distribución" o "minimizar el error de estimación verdadero valor esperado"? Dos, se va a intentar en un matemático de aproximación marco (donde todo vale), o en un marco estadístico, donde su aproximación debería ser la función de una densidad apropiada?

Espero que estos comentarios sean de utilidad para usted.

ADDENDUM (tras una discusión con el OP en los comentarios).

sería interesante aplicar una medida de la "distribución de la distancia" para el valor esperado. Suponga que usted está usando la Hellinger distancia. Así que, elige $q(y)$, de modo que

$$q(y): H(a(y)p(y),a(y)q(y)) = \frac {1}{\sqrt 2} \left(\sum_i\left[\sqrt {a(y_i)p(y_i)}-\sqrt {a(y_i)q(y_i)}\right]^2\right)^\frac 12 =\min$$

$$\Rightarrow \frac {1}{\sqrt 2} \left(\sum_ia(y_i)\left[\sqrt {p(y_i)}-\sqrt {q(y_i)}\right]^2\right)^\frac 12 =\min $$

Uno debe explorar las propiedades de dicha medida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X