4 votos

¿Cómo calcular los valores óptimos de$\lambda_1,\ldots,\lambda_K$?

Así que, he aquí una pregunta que ha surgido en mi trabajo de investigación. Supongamos $P_1$ e $P_2$ se $M\times M$ probabilidad de transición de matrices tales que $P_1\neq P_2$. Además, vamos a $\mu_1$ e $\mu_2$ denotar el único estacionaria de las distribuciones asociadas con $P_1$ e $P_2$ respectivamente. Para cualquier entero $d\geq 1$, vamos a denotar por $P_1^d$ la probabilidad de transición de la matriz obtenida al multiplicar $P_1$ con el mismo $d$ veces. La cantidad de $P_2^d$ se define de manera similar.

Vamos a definir ahora el de Kullback Leibler divergencia (KL divergencia) entre las matrices $P_1^d$ e $P_2^d$ ponderado por $\mu_1$ como \begin{equation} D(P_1^d||P_2^d|\mu_1):= \sum\limits_{i=1}^{M}\mu_1(i)\sum\limits_{j=1}^{M}P_1^d(i,j)\log\frac{P_1^d(i,j)}{P_2^d(i,j)}, \end{equation} donde $P_1^d(i,j)$ indica el $(i,j)$ésima de la matriz de transición $P_1^d$; la cantidad de $P_2^d(i,j)$ se define de manera similar.

Dado un $K$-longitud de la probabilidad de vectores $\lambda=(\lambda_1,\ldots,\lambda_K)$ donde $\lambda_i\geq 0$ e $\sum\limits_{i}\lambda_i=1$, podemos definir una función de $f(\lambda)$ como sigue: \begin{equation} f(\lambda):=\sum\limits_{d=1}^{\infty}\bigg[\underbrace{\lambda_1(1-\lambda_1)^{d-1}}_{\text{Geometric distb. with parameter }\lambda_1}\,D(P_1^d||P_2^d|\mu_1)\,+\,\underbrace{\sum\limits_{k=2}^{K}\frac{1}{K-1}\lambda_k(1-\lambda_k)^{d-1}}_{\text{mixture of Geometric distributions}}\,D(P_2^d||P_1^d|\mu_2)\bigg]. \end{equation}

Me gustaría para determinar el valor de la probabilidad de vectores $\lambda=(\lambda_1,\ldots,\lambda_K)$ que maximiza $f(\lambda)$. Como he señalado en la ecuación anterior, uno de los términos representa una distribución Geométrica con parámetro de $\lambda_1$, mientras que el otro representa una suma ponderada de distribuciones Geométricas, donde el peso de la es $1/(K-1)$ para cada una de las distribuciones Geométricas $\text{Geo}(\lambda_2),\ldots,\text{Geo}(\lambda_K)$.

$P_1$ e $P_2$, y por lo tanto, puedo calcular las cantidades $D(P_1^d||P_2^d|\mu_1)$ e $D(P_2^d||P_1^d|\mu_2)$ al menos en principio. En la de arriba, $M\geq 2$ e $K\geq 3$.

Estoy frente a la dificultad de encontrar el valor de $\lambda$ que maximiza $f(\lambda)$. Un enfoque es parcialmente diferenciar $f(\lambda)$ con respecto al $\lambda_i$ por cada $i$, y establecer esta derivada parcial a $0$. Pero no tengo ningún tipo de justificación para el paso de la derivada parcial dentro de la infinita suma más de la $d$ variable.

Uno más enfoque que he intentado es tratar de utilizar la desigualdad de Jensen para simplificar la mezcla de los parámetros Geométricos de la función $g(x)=x(1-x)^{d-1}$. Sin embargo, esta función no es ni convexa ni cóncavo en el conjunto de la $[0,1]$, así que no podía continuar. En todo caso la aplicación de la desigualdad de Jensen fue un éxito, el $K$-variable de optimización habría llegado a la optimización de sólo más de $\lambda_1\in[0,1]$. Yo soy básicamente buscando límite superior $f(\lambda)$, pero no es capaz de llegar a cualquier lugar.

Consejos sobre cómo puedo proceder será muy apreciada.

1voto

Shar1z Puntos 148

Vamos a asumir que las matrices de $P_1,P_2$ son irreductibles, aperiódicos y no contienen ceros.

Como consecuencia de la Perron-Frobenius teorema, $P_i^d$ converge a $\bf{1}\mu_i$ como $d$ tiende a infinito ($\bf{1}$ es un vector columna de unos y $\mu_i$ se supone que es un vector fila). Por lo tanto, la divergencia $D(P_1||P_2|\mu_1)$ converge y $f(\lambda)$ está bien definido.

Tenga en cuenta que nosotros $f$ puede ser linealmente separados como $f(\lambda)=f_1(\lambda_1)+...+f_K(\lambda_K)$, y que podemos independientemente de maximizar cada una de las $f_i$ sobre sus respectivos variable $\lambda_i$.

Cualquier potencia de la serie pueden ser diferenciados plazo sabio dentro de su radio de convergencia, por lo que pasar la derivada parcial dentro de la infinita suma es justificado. por ejemplo, para $\lambda>0$

$$\frac{\partial f_1(\lambda)}{\partial \lambda_1}=D(P_1||P_2|\mu_1)+\sum_{d=2}^{\infty}\left[(1-\lambda_1)^{d-1}-(d-1)\lambda_1(1-\lambda_1)^{d-2}\right]D(P_1^d||P_2^d|\mu_1) $$

Yo no puedo ver a través de cualquier medio de obtención de soluciones exactas a $\frac{\partial f_i}{\partial \lambda_i}=0$ así que me gustaría sugerir el uso de un método numérico. Por ejemplo, usted podría usar el método de Newton:

Elija $x_0\in(0,1)$, iterar
$x_{n+1}=x_n-\frac{\left(\frac{\partial f}{\partial \lambda_i}\right)}{\left(\frac{\partial^2 f}{\partial \lambda_i^2}\right)}$, luego de seleccionar varias más $x_0$s y repita hasta que usted piensa que usted ha encontrado la mayor parte de las raíces.

Usted ha mencionado que desea encontrar una cota superior para $f(\lambda)$. Proposición 3 en el documento a continuación da un salto en la tasa a la cual una discreta de la cadena de Markov converge a su distribución estacionaria. Podría ser posible el uso de esta proposición para limitar la velocidad a la que $D(P_1^d||P_2^d|\mu_1)$ converge a $M\sum_{i=1}^M\mu_1(i)^2\log \frac{\mu_1(i)}{\mu_2(i)}$ y por lo tanto, encontrar una cota superior para $f$.

Douc, R.; Moulines, E.; Rosenthal, Jeffrey S. Cuantitativa límites en la convergencia de tiempo-no homogénea de las cadenas de Markov. Ann. Appl. El Probab. 14 (2004), no. 4, 1643--1665. https://projecteuclid.org/euclid.aoap/1099674073

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X