Tengo una pregunta acerca de una notación que parece ser muy habitual.
Para empezar, la cruz de la entropía se define por:
\begin{align}H(X, q) &= H(X) + D(p||q) \\ & =-\sum_x p(x)\log_2 q(x)\end{align}
Sin embargo, cuando se aplica a un modelo de lenguaje $m$, con un lenguaje $L=X_{i}\approx p(x)$, se define como:
$$H(L, m) = -\lim_{n \to \infty}\frac{1}{n}\sum_{X_{ \,\scriptstyle 1n}}p(x_{1n})\log \;m(x_{1n})\tag{1}$$
Disculpas si es demasiado pequeña para ver. La suma es $X_{1n}$ y la notación $x_{1n}$ significa que la secuencia de $(x_1, x_2,\ldots, x_n)$. Bien, mi pregunta es: ¿Qué quiere decir $(1)$? Mi suposición es que si me tiene un lenguaje que consta de, digamos, 5 palabras {hola, esto, es, un, prueba} y quiero saber que tan bueno es un modelo de que el lenguaje es, entonces, $\sum_{X_{\,\scriptstyle 1n}}$ es sumar más secuencias de $n$ elementos de mis palabras. Si yo fuera a decir que $n=4$, en este caso, $m(x_{1n})$ debería ser algo así como la probabilidad de acuerdo a mi modelo de $m$ de tener una sentencia {hola, esto es, un} además de la probabilidad de {esto, es, un, prueba}, además de la probabilidad de ... etc, aunque no estoy seguro de si deben ser consecutivas, lo cual es una buena restricción a tener en lingüística, pero no veo que se refleja en $(1)$. Es esta la interpretación correcta?
Otra pregunta: $x_{1n}$ contiene elementos que una variable aleatoria $X$ puede tener? Entonces, ¿qué significa $X_{1n}$, $(X_{1}, X_{2},\ldots,X_{n})$ ? Supongo que todos los $X_{i}$ se refiere al mismo evento en el espacio, pero que parece sugerir que podría haber {hi, hi, hi, hi}. Es eso cierto?
Última pregunta: ¿Qué sucede a $(1)$ al $n\to \infty$? Supuestamente, este límite es apropiado cuando se trata de un idioma o de una gran oración. En este caso, estamos considerando infinitamente grandes secuencias de letras o palabras, pero ¿cómo se puede calcular algo como eso? De hecho, en general, ¿cómo se calcula el $(1)$?
ACTUALIZACIÓN
Creo que entiendo un poco mejor lo que está destinado a ser $(1)$. Es más claro si puedo usar esta alternativa notación:
$$H(L, m) = -\lim_{n \to \infty}\frac{1}{n}\sum_{x_{1}, x_{2},..., x_{n}\in L }p(x_{1}, x_{2},..., x_{n})\log m(x_{1}, x_{2},..., x_{n})\tag{2}$$
donde $L$ es el conjunto de cada secuencia de $n$ elementos (pueden ser letras, las palabras, los dígrafos, etc). El uso de dígrafos como un ejemplo, $n = 2$. Entonces, si yo tenía una frase (de la sentencia), $(2)$ se refiere a la suma como este:
$$H(L, m) = -\lim_{n \to \infty}\frac{1}{2}\sum_{x_{1}, x_{2}\in L }p(x_{1}, x_{2})\log m(x_{1}, x_{2})\tag{3}$$
Así, el límite está diciendo simplemente que podemos calcular la cruz entropía de un lenguaje $L$ y un modelo de $m$ (que es, cuán bueno es nuestro modelo de $m$ dado que la verdadera distribución de $L$ está dado por $p(x)$) cuando se trata de una secuencia de gran tamaño. Cruz de la entropía parece ser una modificación de la entropía de la tasa, la cual es definida por:
$$H(L) = -\lim_{n \to \infty}\frac{1}{n}\sum_{x_{1}, x_{2},..., x_{n}\in L }p(x_{1}, x_{2},..., x_{n})\log p(x_{1}, x_{2},..., x_{n})\tag{*}$$
En (*), tenemos que calcular el promedio de la entropía por símbolo. $\displaystyle \frac{1}{n}$ está ahí para garantizar que estamos consiguiendo que la media.
Es esta la interpretación correcta?
Gracias!