Yo también me lo he preguntado. La primera explicación no está mal, pero aquí están mis 2 nats por lo que vale la pena.
En primer lugar, la perplejidad no tiene nada que ver con la frecuencia con la que se acierta algo. Tiene más que ver con caracterizar la complejidad de una secuencia estocástica.
Estamos viendo una cantidad, $$2^{-\sum_x p(x)\log_2 p(x)}$$
Anulemos primero el logaritmo y la exponenciación.
$$2^{-\sum_{x} p(x)\log_2 p(x)}=\frac{1}{\prod_{x} p(x)^{p(x)}}$$
Creo que merece la pena señalar que la perplejidad es invariante con la base que utilices para definir la entropía. Así que, en este sentido, la perplejidad es infinitamente más única/menos arbitraria que la entropía como medida.
Relación con Dice
Juguemos un poco con esto. Digamos que estás mirando una moneda. Cuando la moneda es justa, la entropía está en un máximo, y la perplejidad está en un máximo de $$\frac{1}{\frac{1}{2}^\frac{1}{2}\times\frac{1}{2}^\frac{1}{2}}=2$$
Ahora bien, ¿qué ocurre cuando observamos un $N$ ¿dados de caras? La perplejidad es $$\frac{1}{\left(\frac{1}{N}^\frac{1}{N}\right)^N}=N$$
Así pues, la perplejidad representa el número de caras de un dado justo que, al lanzarse, produce una secuencia con la misma entropía que su distribución de probabilidad dada.
Número de Estados
Bien, ahora que tenemos una definición intuitiva de la perplejidad, echemos un vistazo rápido a cómo se ve afectada por el número de estados de un modelo. Empecemos con una distribución de probabilidad sobre $N$ estados, y crear una nueva distribución de probabilidad sobre $N+1$ estados tales que la razón de verosimilitud del original $N$ los estados siguen siendo los mismos y el nuevo estado tiene probabilidad $\epsilon$ . En el caso de empezar con una feria $N$ podemos imaginar la creación de un nuevo $N + 1$ de tal forma que la nueva cara se lanza con probabilidad $\epsilon$ y el original $N$ lados se enrollan con la misma probabilidad. Así, en el caso de una distribución de probabilidad original arbitraria, si la probabilidad de cada estado $x$ viene dada por $p_x$ la nueva distribución del original $N$ estados dado el nuevo estado será $$p^\prime_x=p_x\left(1-\epsilon\right)$$ y la nueva perplejidad vendrá dada por:
$$\frac{1}{\epsilon^\epsilon\prod_x^N {p^\prime_x}^{p^\prime_x}}=\frac{1}{\epsilon^\epsilon\prod_x^N {\left(p_x\left(1-\epsilon\right)\right)}^{p_x\left(1-\epsilon\right)}} = \frac{1}{\epsilon^\epsilon\prod_x^N p_x^{p_x\left(1-\epsilon\right)} {\left(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}} = \frac{1}{\epsilon^\epsilon{\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}\prod_x^N p_x^{p_x\left(1-\epsilon\right)}} $$
En el límite como $\epsilon\rightarrow 0$ esta cantidad se aproxima a $$\frac{1}{\prod_x^N {p_x}^{p_x}}$$
Así que a medida que haces que sacar una cara del dado sea cada vez más improbable, la perplejidad acaba pareciendo como si la cara no existiera.
0 votos
¿Cómo puedo calcular la perplejidad para pLSA. Tengo datamatrix $X$ que tiene el recuento y por el algoritmo TEM $p(d)$ y $p(w|d)$ se calculan.
3 votos
He revisado los índices de 5 libros de minería de datos / aprendizaje automático / análisis predictivo de Nisbett, Larose, Witten, Torgo y Shemueli (más coautores) y este término no aparece en ninguno de ellos. Estoy perplejo :)
2 votos
La perplejidad es otro nombre elegante para la incertidumbre. Puede considerarse una evaluación intrínseca contra una evaluación extrínseca. Jan Jurafsky lo explica elegantemente con ejemplos acordes con el modelado del lenguaje aquí en youtube.com/watch?v=BAN3NB_SNHY
2 votos
@zbicyclist, Si estás buscando ejemplos en la naturaleza, es particularmente común en NLP, y específicamente para la evaluación de cosas como modelos de lenguaje.
1 votos
En algunos campos (por ejemplo, la economía) se habla de los números equivalentes de modo que, por ejemplo $\exp(H)$ donde $H$ es la entropía basada en logaritmos naturales es un número equivalente de categorías igualmente comunes. Así, dos categorías cada una con probabilidad 0,5 producen una entropía de $\ln 2$ y la exponenciación devuelve 2 como el número de categorías igualmente comunes. Para probabilidades desiguales el equivalente numérico no es en general un número entero.