Así que, he aquí una pregunta que ha surgido en mi trabajo de investigación. Supongamos $P_1$ e $P_2$ se $M\times M$ probabilidad de transición de matrices tales que $P_1\neq P_2$. Además, vamos a $\mu_1$ e $\mu_2$ denotar el único estacionaria de las distribuciones asociadas con $P_1$ e $P_2$ respectivamente. Para cualquier entero $d\geq 1$, vamos a denotar por $P_1^d$ la probabilidad de transición de la matriz obtenida al multiplicar $P_1$ con el mismo $d$ veces. La cantidad de $P_2^d$ se define de manera similar.
Vamos a definir ahora el de Kullback Leibler divergencia (KL divergencia) entre las matrices $P_1^d$ e $P_2^d$ ponderado por $\mu_1$ como \begin{equation} D(P_1^d||P_2^d|\mu_1):= \sum\limits_{i=1}^{M}\mu_1(i)\sum\limits_{j=1}^{M}P_1^d(i,j)\log\frac{P_1^d(i,j)}{P_2^d(i,j)}, \end{equation} donde $P_1^d(i,j)$ indica el $(i,j)$ésima de la matriz de transición $P_1^d$; la cantidad de $P_2^d(i,j)$ se define de manera similar.
Dado un $K$-longitud de la probabilidad de vectores $\lambda=(\lambda_1,\ldots,\lambda_K)$ donde $\lambda_i\geq 0$ e $\sum\limits_{i}\lambda_i=1$, podemos definir una función de $f(\lambda)$ como sigue: \begin{equation} f(\lambda):=\sum\limits_{d=1}^{\infty}\bigg[\underbrace{\lambda_1(1-\lambda_1)^{d-1}}_{\text{Geometric distb. with parameter }\lambda_1}\,D(P_1^d||P_2^d|\mu_1)\,+\,\underbrace{\sum\limits_{k=2}^{K}\frac{1}{K-1}\lambda_k(1-\lambda_k)^{d-1}}_{\text{mixture of Geometric distributions}}\,D(P_2^d||P_1^d|\mu_2)\bigg]. \end{equation}
Me gustaría para determinar el valor de la probabilidad de vectores $\lambda=(\lambda_1,\ldots,\lambda_K)$ que maximiza $f(\lambda)$. Como he señalado en la ecuación anterior, uno de los términos representa una distribución Geométrica con parámetro de $\lambda_1$, mientras que el otro representa una suma ponderada de distribuciones Geométricas, donde el peso de la es $1/(K-1)$ para cada una de las distribuciones Geométricas $\text{Geo}(\lambda_2),\ldots,\text{Geo}(\lambda_K)$.
Sé $P_1$ e $P_2$, y por lo tanto, puedo calcular las cantidades $D(P_1^d||P_2^d|\mu_1)$ e $D(P_2^d||P_1^d|\mu_2)$ al menos en principio. En la de arriba, $M\geq 2$ e $K\geq 3$.
Estoy frente a la dificultad de encontrar el valor de $\lambda$ que maximiza $f(\lambda)$. Un enfoque es parcialmente diferenciar $f(\lambda)$ con respecto al $\lambda_i$ por cada $i$, y establecer esta derivada parcial a $0$. Pero no tengo ningún tipo de justificación para el paso de la derivada parcial dentro de la infinita suma más de la $d$ variable.
Uno más enfoque que he intentado es tratar de utilizar la desigualdad de Jensen para simplificar la mezcla de los parámetros Geométricos de la función $g(x)=x(1-x)^{d-1}$. Sin embargo, esta función no es ni convexa ni cóncavo en el conjunto de la $[0,1]$, así que no podía continuar. En todo caso la aplicación de la desigualdad de Jensen fue un éxito, el $K$-variable de optimización habría llegado a la optimización de sólo más de $\lambda_1\in[0,1]$. Yo soy básicamente buscando límite superior $f(\lambda)$, pero no es capaz de llegar a cualquier lugar.
Consejos sobre cómo puedo proceder será muy apreciada.