2 votos

¿Qué significa diferenciar la entropía y los contenidos de información?

Estoy tomando una clase de teoría de la información y encontré algunos conceptos sobre diferenciación que no estaba seguro de cómo entender.

En clase, mi instructor dio muchos ejemplos y soluciones realizadas "encontrando la derivada" para ciertas funciones de distribución de probabilidad, o encontrando las derivadas para otros conceptos como la entropía de la información o la información mutua.

Pero en general, ¿qué significa exactamente diferenciar una probabilidad y cuál es la motivación para hacerlo?

$\space$

Editar

Aquí tienes un ejemplo específico al que me refiero. Es un problema de ejercicio del libro Teoría de la información, inferencia y algoritmos de aprendizaje - David Mackay.

$\space$

Problema de Ejercicio

Considera el canal $Z$ con $f = 0.15$. Identificar la distribución de entrada óptima no es tan sencillo. Evaluamos explícitamente $I(X;Y)$ para $P_X = \{p_0, p_1\}$. Primero, necesitamos calcular $P(y)$. La probabilidad de que $y = 1$ es más fácil de escribir:

$$P(y = 1) = p_1(1 - f)$$

Luego la información mutua es:

$$I(X; Y) = H(Y) - H(Y|X)$$ $$ = H_2(p_1(1 - f)) - (p_0H_2(0) + p_1H_2(f))$$ $$ = H_2(p_1(1 - f)) - p_1H_2(f))$$

Esta es una función no trivial de $p_1$. Se maximiza para $f = 0.15$ por $p_1^* = 0.445$. Encontramos la capacidad $C(Q_Z) = 0.685$.

Ahora, en el caso general de $f$, muestra que la distribución de entrada óptima es

$$p_1^* = \frac{1/(1-f)}{1 + 2^{(H_2(f)/(1 - f))}}$$

$\space$

Solución

En el ejercicio, mostramos que la información mutua entre la entrada y la salida del canal $Z$ es

$$I(X;Y) = H(Y) - H(Y|X)$$ $$ = H_2(p_1(1 - f)) - p_1H_2(f)$$

Diferenciamos esta expresión con respecto a $p_1$, cuidando de no confundir $\log_2$ con $\log_e$:

$$\frac{d}{dp_1}I(X;Y) = (1 - f)\log_2\frac{1 - p_1(1 - f)}{p_1(1 - f)} - H_2(f)$$

Al igualar esta derivada a cero y reorganizándola, obtenemos:

$$p_1^*(1 - f) = \frac{1}{1 + 2^{H_2(f)/(1 - f)}}$$

así que la distribución de entrada óptima es

$$p_1^* = \frac{1/(1-f)}{1 + 2^{(H_2(f)/(1 - f))}}$$

$\space$

Así que esa es la pregunta y solución específicas que me motivaron a hacer esta pregunta. Simplemente no estaba seguro de cómo la solución llegó a la idea de diferenciar la información mutua, y si había una motivación más "general" para diferenciar funciones de probabilidad cuál podría ser.

Gracias.

3voto

kodlu Puntos 1178

El autor no está diferenciando "información".

La capacidad del canal, la información mutua, etc. son funciones dependientes de la probabilidad. Él está diferenciando para encontrar el máximo de la información mutua que es por definición la capacidad del canal con la maximización realizada sobre todas las distribuciones de entrada.

En este caso, la información mutua resulta depender solo de un parámetro $f$, por lo que la maximización puede realizarse analíticamente.

En el caso general, se utiliza el algoritmo de Blahut-Arimoto para esta maximización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X