Estoy tratando de entender cómo la fórmula I(x) = -log(p(x))
para la autoinformación se derivó.
Por lo que he leído, se impusieron 2 restricciones a las propiedades que nos gustaría que cumpliera la autoinformación. Estas restricciones se enumeran a continuación:
I(x) < I(y) if p(x) > p(y)
I(x and y) = I(x) + I(y) if P(x and y) = p(x).p(y)
Siguiendo esto descubrimos de alguna manera que I(x) = -log(p(x))
cumple los requisitos anteriores.
Mis preguntas exactas son:
- ¿Por qué definimos los requisitos de la autoinformación como arriba?
- ¿Cómo llegamos a
I(x) = -log(p(x))
? - ¿Cómo sabemos que
I(x) = log(p(x))
¿conforme a los requisitos anteriores?
Referencia: http://people.seas.harvard.edu/~jones/cscie129/nu_lectures/lecture2/info%20theory/Info_Theory_1.html#def