61 votos

¿Qué es la perplejidad?

Me encontré con el término perplejidad que se refiere a la probabilidad inversa promediada logarítmicamente en datos no vistos. W artículo sobre la perplejidad no da un significado intuitivo de la misma.

Esta medida de perplejidad se utilizó en pLSA papel.

¿Puede alguien explicar la necesidad y el significado intuitivo de medida de perplejidad ?

0 votos

¿Cómo puedo calcular la perplejidad para pLSA. Tengo datamatrix $X$ que tiene el recuento y por el algoritmo TEM $p(d)$ y $p(w|d)$ se calculan.

3 votos

He revisado los índices de 5 libros de minería de datos / aprendizaje automático / análisis predictivo de Nisbett, Larose, Witten, Torgo y Shemueli (más coautores) y este término no aparece en ninguno de ellos. Estoy perplejo :)

2 votos

La perplejidad es otro nombre elegante para la incertidumbre. Puede considerarse una evaluación intrínseca contra una evaluación extrínseca. Jan Jurafsky lo explica elegantemente con ejemplos acordes con el modelado del lenguaje aquí en youtube.com/watch?v=BAN3NB_SNHY

32voto

Ayberk Özgür Puntos 101

Me pareció bastante intuitivo:

La perplejidad de lo que sea que estés evaluando, sobre los datos que estás evaluarlo, te dice algo así como "esta cosa está bien como a menudo como un dado de x caras sería ".

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

25voto

Alan Puntos 7273

Ha mirado el Artículo de Wikipedia sobre la perplejidad . Da la perplejidad de una distribución discreta como

$$2^{-\sum_x p(x)\log_2 p(x)}$$

que también podría escribirse como

$$\exp\left({\sum_x p(x)\log_e \frac{1}{p(x)}}\right)$$

es decir, como media geométrica ponderada de los inversos de las probabilidades. Para una distribución continua, la suma se convertiría en una integral.

El artículo también ofrece una forma de estimar la perplejidad de un modelo utilizando $N$ datos de prueba

$$2^{-\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)}$$

que también podría escribirse

$$\exp\left(\frac{{\sum_{i=1}^N \log_e \left(\dfrac{1}{q(x_i)}\right)}}{N}\right) \text{ or } \sqrt[N]{\prod_{i=1}^N \frac{1}{q(x_i)}}$$

o de muchas otras formas, y esto debería aclarar aún más de dónde viene la "probabilidad inversa logarítmica media".

0 votos

¿Existe alguna distinción particular cuando se utiliza e como exponente en lugar de 2?

2 votos

@HenryE: no, y logaritmos comunes base $10$ también funcionaría - los logaritmos en bases diferentes son proporcionales entre sí y claramente $a^{\log_a x} = b^{\log_b x}$

0 votos

Me lo imaginaba. Me encontré con esta respuesta cuando intentaba entender por qué un código utilizaba e para calcular la perplejidad cuando todas las demás formulaciones que había visto antes utilizaban 2. Ahora me doy cuenta de lo importante que es saber qué valor utiliza un marco como base para el cálculo de la pérdida logarítmica.

17voto

Potatoswatter Puntos 243

Yo también me lo he preguntado. La primera explicación no está mal, pero aquí están mis 2 nats por lo que vale la pena.


En primer lugar, la perplejidad no tiene nada que ver con la frecuencia con la que se acierta algo. Tiene más que ver con caracterizar la complejidad de una secuencia estocástica.

Estamos viendo una cantidad, $$2^{-\sum_x p(x)\log_2 p(x)}$$

Anulemos primero el logaritmo y la exponenciación.

$$2^{-\sum_{x} p(x)\log_2 p(x)}=\frac{1}{\prod_{x} p(x)^{p(x)}}$$

Creo que merece la pena señalar que la perplejidad es invariante con la base que utilices para definir la entropía. Así que, en este sentido, la perplejidad es infinitamente más única/menos arbitraria que la entropía como medida.

Relación con Dice

Juguemos un poco con esto. Digamos que estás mirando una moneda. Cuando la moneda es justa, la entropía está en un máximo, y la perplejidad está en un máximo de $$\frac{1}{\frac{1}{2}^\frac{1}{2}\times\frac{1}{2}^\frac{1}{2}}=2$$

Ahora bien, ¿qué ocurre cuando observamos un $N$ ¿dados de caras? La perplejidad es $$\frac{1}{\left(\frac{1}{N}^\frac{1}{N}\right)^N}=N$$

Así pues, la perplejidad representa el número de caras de un dado justo que, al lanzarse, produce una secuencia con la misma entropía que su distribución de probabilidad dada.

Número de Estados

Bien, ahora que tenemos una definición intuitiva de la perplejidad, echemos un vistazo rápido a cómo se ve afectada por el número de estados de un modelo. Empecemos con una distribución de probabilidad sobre $N$ estados, y crear una nueva distribución de probabilidad sobre $N+1$ estados tales que la razón de verosimilitud del original $N$ los estados siguen siendo los mismos y el nuevo estado tiene probabilidad $\epsilon$ . En el caso de empezar con una feria $N$ podemos imaginar la creación de un nuevo $N + 1$ de tal forma que la nueva cara se lanza con probabilidad $\epsilon$ y el original $N$ lados se enrollan con la misma probabilidad. Así, en el caso de una distribución de probabilidad original arbitraria, si la probabilidad de cada estado $x$ viene dada por $p_x$ la nueva distribución del original $N$ estados dado el nuevo estado será $$p^\prime_x=p_x\left(1-\epsilon\right)$$ y la nueva perplejidad vendrá dada por:

$$\frac{1}{\epsilon^\epsilon\prod_x^N {p^\prime_x}^{p^\prime_x}}=\frac{1}{\epsilon^\epsilon\prod_x^N {\left(p_x\left(1-\epsilon\right)\right)}^{p_x\left(1-\epsilon\right)}} = \frac{1}{\epsilon^\epsilon\prod_x^N p_x^{p_x\left(1-\epsilon\right)} {\left(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}} = \frac{1}{\epsilon^\epsilon{\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}\prod_x^N p_x^{p_x\left(1-\epsilon\right)}} $$

En el límite como $\epsilon\rightarrow 0$ esta cantidad se aproxima a $$\frac{1}{\prod_x^N {p_x}^{p_x}}$$

Así que a medida que haces que sacar una cara del dado sea cada vez más improbable, la perplejidad acaba pareciendo como si la cara no existiera.

7voto

De hecho, existe una clara conexión entre la perplejidad y las probabilidades de adivinar correctamente un valor de una distribución, según Elements of Information Theory 2ed de Cover (2.146): Si $X$ y $X'$ son variables iid, entonces

$P(X=X') \ge 2^{-H(X)} = \frac{1}{2^{H(X)}} = \frac{1}{\text{perplexity}}$ (1)

Para explicarlo, la perplejidad de una distribución uniforme X es sólo |X|, el número de elementos. Si intentamos adivinar los valores que tomarán las muestras iid de una distribución uniforme X simplemente haciendo conjeturas iid de X, acertaremos 1/|X|=1/perplejidad de las veces. Dado que la distribución uniforme es la más difícil de adivinar, podemos utilizar 1/perplejidad como límite inferior/aproximación heurística de la frecuencia con la que acertaremos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X