5 votos

Lucha por entender la relación entre dos definiciones de entropía

Estoy familiarizado con la entropía tal y como se define en la teoría de la información, que es simplemente

$ H(X) = \sum_{i=1}^{n} p(x_{i}) \log p(x_{i}) $ ,

para un conjunto discreto de probabilidades. En términos de clustering, la entropía puede utilizarse para medir la calidad de una solución de clustering. Se define como,

$ E(S_{r}) = - \frac{1}{\log{q}} \sum_{i=1}^{q} \frac{n_{r}^{i}}{n_{r}} \log \frac{n_{r}^{i}}{n_{r}} $ ,

donde $S_{r}$ es una agrupación, $q$ es el número de clases del conjunto de datos, $n_{r}^{i}$ es el número de documentos del $i$ que fueron asignados a la clase $r$ 'th cluster y $n_{r}$ es el tamaño del cluster. La definición es exactamente la misma en Comparaciones empíricas y teóricas de funciones de criterio seleccionadas para la agrupación de documentos .

Entiendo la idea de por qué se utiliza, aunque no entiendo cómo hemos pasado de la primera definición de entropía a la segunda ecuación.

4 votos

Se pasa de la primera expresión a la segunda dejando que $\frac{n_r^i}{n_r}=p(x_i)$ señalando que $\log_q(z) = \log(z)/log(q)$ interpretando la $\log$ como $\log_q$ e insertando el signo menos que debería estar ahí.

0 votos

@whuber, su explicación no tiene sentido para mí. Al dejar que $\frac{n_{r}^{i}}{n_{r}} = p(x_i)$ obtenemos $E(S_r) - \sum_{i=1}^{q}\frac{n_{r}^{i}}{n_{r}}\log{\frac{n_{r}^{i}}{n_{r}}}$ .

0 votos

@zeferino Te concedo que falta el signo '=' en tu comentario y te pongo un factor común de $1/\log(q)$ para tener en cuenta la base del logaritmo. Ahora bien, ¿no es exactamente ¿qué dice la pregunta?

3voto

Marco Puntos 136

El $\dfrac{1}{\log q}$ en la segunda definición es un factor de normalización para que el valor de la entropía esté en el intervalo $[0, 1]$ .

Considerando la evaluación de un cluster, la entropía es máxima cuando presenta elementos de todas las clases en la misma proporción.

En este caso, $n_{r}^{i} = 1$ para $i = 1, \ldots, q$ y $ q = n$ . La entropía será: \begin{eqnarray} E(S_r) & = & -\sum_{i=1}^{q}\dfrac{1}{q}\log \dfrac{1}{q} \\ & = & -\log \dfrac{1}{q} = -(\log 1 - \log q) = \log q\\ \end{eqnarray}

Dado que la entropía máxima es $\log q$ La segunda definición utiliza este hecho para normalizar la entropía de un cluster.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X