Decir que su espacio de estado es $\Omega$ y su proceso es $X_{t}$. Considere ahora un nuevo espacio de estado - $\Omega \times \Omega$. A continuación, $Y_{y} := (X_{t-1}, X_{t})$ es un proceso de Markov en $\Omega \times \Omega$. Ahora, usted puede utilizar el ergodic teorema, siempre y cuando se conozca el invariante de distribución de $Y_t$. Esta es una distribución de pares $(X_{t-1}, X_t)$ e se puede escribir como la distribución conjunta $\pi( x_{t-1}, x_t)$. Por las leyes de la probabilidad,
$$
\pi( x_{t-1}, x_t ) = \pi (x_{t-1} ) p( x_t | x_{t-1} ).
$$
Por lo tanto:
\begin{align}
\lim _{T\to \infty} \frac{1}{T} \sum_{t=1}^{T} \log p(x_t | x_{t-1} ) &= \mathbb{E}_{\pi( x, y )} [ \log p( y | x ) ]\\
&= \sum_{(x,y) \in \Omega \times \Omega } \log p( y | x ) \pi(x,y) \\
&= \sum_{(x,y) \in \Omega \times \Omega } \log \frac{\pi(x,y)}{\pi(x)} \pi(x,y) \\
&= \sum_{(x,y) \in \Omega \times \Omega } \log \pi(x,y) \pi(x,y) -\log \pi(x) \pi(x,y) \\
&= \sum_{(x,y) \in \Omega \times \Omega } \log \pi(x,y) \pi(x,y)
-\sum_{x \in \Omega } \log \pi(x) \pi(x) \text{ marginalized in } y \\
&= H(X_{t-1}) - H(X_{t-1},X_t) \\
&= H(X_{t-1}) - H(X_{t-1},X_t) \\
&= -H(X_t | X_{t-1} ).
\end{align}
$H$ es la entropía de la función(al) y el $H(X|Y)$ es el condicional de la entropía. De acuerdo a Wikipedia: la entropía condicional (o equivocidad) cuantifica la cantidad de información necesaria para describir el resultado de una variable aleatoria Y dado que el valor de otra variable aleatoria X es conocido.
Entonces creo que tal vez usted debería considerar la posibilidad de la negativa de la cantidad anterior.
Respecto a tu última pregunta, se puede aplicar el mismo truco de arriba a $(X_{t-L} ,..., x_{t})$.