7 votos

¿Por qué utilizar la entropía para medir la calidad de un modelo de lenguaje?

Estoy leyendo el < Fundamentos de la Estadística de Procesamiento de Lenguaje Natural >. Se tiene la siguiente declaración acerca de la relación entre la entropía de información y el modelo de lenguaje:

...El punto esencial aquí es que si un modelo de captura más de la la estructura de una lengua, entonces la entropía del modelo deben ser inferior. En otras palabras, se puede demandar a la entropía como una medida de la calidad de nuestros modelos...

Pero, ¿cómo acerca de este ejemplo:

Supongamos que tenemos una máquina que escupen $2$ personajes, a y B, uno por uno. Y el diseñador de la máquina hace que a y B tiene la misma probabilidad.

Yo no soy el diseñador. Y yo tratamos de modelo a través de la experimentación.

Durante un experimento inicial, veo que la máquina de dividir la siguiente secuencia de caracteres:

A, B, A

Así que el modelo de la máquina como $P(A)=\frac{2}{3}$$P(B)=\frac{1}{3}$. Y podemos calcular la entropía de este modelo como : $$ \frac{-2}{3}\cdot\log{\frac{2}{3}}-\frac{1}{3}\cdot\log{\frac{1}{3}}= 0.918\quad\text{bit} $$ (la base es $2$)

Pero entonces, el diseñador de decirme acerca de su diseño, así que he refinado mi modelo con esto obtener más información. El nuevo modelo se parece a esto:

$P(A)=\frac{1}{2}$ $P(B)=\frac{1}{2}$

Y la entropía de este nuevo modelo es: $$ \frac{-1}{2}\cdot\log{\frac{1}{2}}-\frac{1}{2}\cdot\log{\frac{1}{2}} = 1\quad\text{bit} $$ El segundo modelo es obviamente mejor que la primera. Pero el aumento de la entropía.

Mi punto es que, debido a la arbitrariedad de la modelo que se está intentado, no podemos ciegamente decir una menor entropía indica un mejor modelo.

Alguien podría arrojar algo de luz sobre esto?

1voto

smwikipedia Puntos 206

(Para obtener más información, por favor marque aquí: http://stackoverflow.com/questions/22933412/why-can-we-use-entropy-to-measure-the-quality-of-language-model)

Después de que me re-digerido el mencionado libro de PNL. Creo que puedo explicar ahora.

Lo he calculado es en realidad la entropía del modelo de lenguaje de distribución. No se puede utilizar para evaluar la eficacia de un modelo de lenguaje.

Para evaluar un modelo de lenguaje, se debe medir la magnitud de la sorpresa que nos da la real secuencias en ese idioma. Por cada palabra encontrada, el modelo de lenguaje le dará una probabilidad p. Y el uso-log(p) para cuantificar la sorpresa. Y media de la total sorpresa de más de un largo de la secuencia. Así, en el caso de un 1000-secuencia de las letras con 500 y 500 B, la sorpresa dada por el 1/3-2/3 modelo será:

[-500*log(1/3) - 500*log(2/3)]/1000 = 1/2 * Log(9/2)

Mientras la correcta 1/2-1/2 modelo se tendrá:

[-500*log(1/2) - 500*log(1/2)]/1000 = 1/2 * Log(8/2)

Así, podemos ver, el 1/3, 2/3 modelo da una sorpresa más, lo que indica que es peor que el modelo correcto.

Sólo cuando la secuencia es lo suficientemente larga, el efecto promedio imitan la expectativa de más de 1/2 de 1/2 de distribución. Si la secuencia es corto, no va a dar un resultado convincente.

No he mencionado la cruz de entropía de aquí, ya que creo que esta jerga es demasiado intimidante y no mucho más útil para revelar la causa raíz.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X