Estoy familiarizado con la entropía tal y como se define en la teoría de la información, que es simplemente
$ H(X) = \sum_{i=1}^{n} p(x_{i}) \log p(x_{i}) $ ,
para un conjunto discreto de probabilidades. En términos de clustering, la entropía puede utilizarse para medir la calidad de una solución de clustering. Se define como,
$ E(S_{r}) = - \frac{1}{\log{q}} \sum_{i=1}^{q} \frac{n_{r}^{i}}{n_{r}} \log \frac{n_{r}^{i}}{n_{r}} $ ,
donde $S_{r}$ es una agrupación, $q$ es el número de clases del conjunto de datos, $n_{r}^{i}$ es el número de documentos del $i$ que fueron asignados a la clase $r$ 'th cluster y $n_{r}$ es el tamaño del cluster. La definición es exactamente la misma en Comparaciones empíricas y teóricas de funciones de criterio seleccionadas para la agrupación de documentos .
Entiendo la idea de por qué se utiliza, aunque no entiendo cómo hemos pasado de la primera definición de entropía a la segunda ecuación.
4 votos
Se pasa de la primera expresión a la segunda dejando que $\frac{n_r^i}{n_r}=p(x_i)$ señalando que $\log_q(z) = \log(z)/log(q)$ interpretando la $\log$ como $\log_q$ e insertando el signo menos que debería estar ahí.
0 votos
@whuber, su explicación no tiene sentido para mí. Al dejar que $\frac{n_{r}^{i}}{n_{r}} = p(x_i)$ obtenemos $E(S_r) - \sum_{i=1}^{q}\frac{n_{r}^{i}}{n_{r}}\log{\frac{n_{r}^{i}}{n_{r}}}$ .
0 votos
@zeferino Te concedo que falta el signo '=' en tu comentario y te pongo un factor común de $1/\log(q)$ para tener en cuenta la base del logaritmo. Ahora bien, ¿no es exactamente ¿qué dice la pregunta?
0 votos
@whuber ¿Estás diciendo que la base del logaritmo es $q$ ¿en la primera ecuación o en la segunda?
1 votos
@zeferino Cuando escribí "interpretando el $\log$ como $\log_q", que se refería a la primera ecuación. Para más información, consulte propiedades de los logaritmos .