Sea la secuencia de estados $x_1^T=(x_1,x_2,\ldots,x_T)$ y la secuencia de observación sea $y_1^T=(y_1,y_2,\ldots,y_T)$ . Si definimos las probabilidades hacia delante \begin{align} \alpha_t(x_t)=\mathbb{P}(Y_1^t=y_1^t, X_t=x_t) \end{align} y las probabilidades hacia atrás \begin{align} \beta_t(x_t)=\mathbb{P}(Y_1^t=y_1^t | X_t=x_t) \end{align} entonces tenemos posterior \begin{align} \mathbb{P}(X_t=x_T|Y_1^t=y_1^T) = \frac{\alpha_t(x_t)\beta_t(x_t)}{\alpha_{T+1}(END)}. \end{align} Ahora bien, si generalizamos estas definiciones clásicas mediante probabilidades de avance retardadas \begin{align} \alpha_t^{(d)}(x_t)&=\mathbb{P}(Y_1^{t+d-1}=y_1^{t+d-1}, X_t^{t+d-1}=x_t^{t+d-1})\\ &= \alpha_t(x_t)\Biggl\{ \prod_{i=1}^{d-1} \mathbb{P}(x_{t+i}|x_{t+i-1})\mathbb{P}(y_{t+i}|x_{t+i}) \Biggr\}\\ &=\alpha_t(x_t)\gamma_{t+1,t+d-1}(x_{t+1}^{t+d-1}) \end{align} y las probabilidades de retroceso retardado \begin{align} \beta_t^{(d)}(x_t^{t+d-1})&=\mathbb{P}(Y_{t+d}^T=y_{t+d}^T | X_t^{t+d-1}=x_t^{t+d-1})\\ &= \beta_{t+d}(x_{t+d}) \end{align} entonces hemos retrasado posterior \begin{align} \mathbb{P}(X_t^{t+d-1}=x_t^{t+d-1}|Y_1^T=y_1^T) &= \frac{\alpha^{(d)}_t(x_t^{t+d-1})\beta^{(d)}_t(x_t^{t+d-1})}{\alpha_{T+1}(END)}\\ &\propto \alpha_t(x_t)\gamma_{t+1,t+d-1}(x_{t+1}^{t+d-1})\beta_{t+d}(x_{t+d}) \end{align} en cualquier momento $t\in\{1,2,\ldots,T-d+1\}$ y retraso $d\in\{1,2,\ldots,T\}$ . Establecer $d=2$ para responder a su pregunta sobre el cálculo de la probabilidad de la subsecuencia de estados $x_{t}^{t+1}$ dada la secuencia de observación $y_1^T$ .
Usted mencionó el algoritmo de Viterbi, así que permítanme señalar que $\gamma_{t+1,t+d-1}(x_{t+1}^{t+d-1})$ es la métrica clásica del camino de Viterbi para la subsecuencia de estado. Sin embargo, como no conocemos el estado inicial de la subsecuencia, $x_t$ ni el estado final de la subsecuencia, $x_{t+d}$ debemos utilizar las probabilidades de avance y retroceso para ponderar cada posible estado inicial y final. La métrica de la trayectoria de Viterbi retardada es el numerador de la posterior retardada, a saber $$\alpha_t(x_t)\gamma_{t+1,t+d-1}(x_{t+1}^{t+d-1})\beta_{t+d}(x_{t+d}),$$ que se maximiza sobre $x_t^{t+d}$ utilizando el algoritmo de Viterbi para obtener la estimación máxima a posteriori de la subsecuencia (estimación MAP).