Estoy tomando una clase de teoría de la información y encontré algunos conceptos sobre diferenciación que no estaba seguro de cómo entender.
En clase, mi instructor dio muchos ejemplos y soluciones realizadas "encontrando la derivada" para ciertas funciones de distribución de probabilidad, o encontrando las derivadas para otros conceptos como la entropía de la información o la información mutua.
Pero en general, ¿qué significa exactamente diferenciar una probabilidad y cuál es la motivación para hacerlo?
$\space$
Editar
Aquí tienes un ejemplo específico al que me refiero. Es un problema de ejercicio del libro Teoría de la información, inferencia y algoritmos de aprendizaje - David Mackay.
$\space$
Problema de Ejercicio
Considera el canal $Z$ con $f = 0.15$. Identificar la distribución de entrada óptima no es tan sencillo. Evaluamos explícitamente $I(X;Y)$ para $P_X = \{p_0, p_1\}$. Primero, necesitamos calcular $P(y)$. La probabilidad de que $y = 1$ es más fácil de escribir:
$$P(y = 1) = p_1(1 - f)$$
Luego la información mutua es:
$$I(X; Y) = H(Y) - H(Y|X)$$ $$ = H_2(p_1(1 - f)) - (p_0H_2(0) + p_1H_2(f))$$ $$ = H_2(p_1(1 - f)) - p_1H_2(f))$$
Esta es una función no trivial de $p_1$. Se maximiza para $f = 0.15$ por $p_1^* = 0.445$. Encontramos la capacidad $C(Q_Z) = 0.685$.
Ahora, en el caso general de $f$, muestra que la distribución de entrada óptima es
$$p_1^* = \frac{1/(1-f)}{1 + 2^{(H_2(f)/(1 - f))}}$$
$\space$
Solución
En el ejercicio, mostramos que la información mutua entre la entrada y la salida del canal $Z$ es
$$I(X;Y) = H(Y) - H(Y|X)$$ $$ = H_2(p_1(1 - f)) - p_1H_2(f)$$
Diferenciamos esta expresión con respecto a $p_1$, cuidando de no confundir $\log_2$ con $\log_e$:
$$\frac{d}{dp_1}I(X;Y) = (1 - f)\log_2\frac{1 - p_1(1 - f)}{p_1(1 - f)} - H_2(f)$$
Al igualar esta derivada a cero y reorganizándola, obtenemos:
$$p_1^*(1 - f) = \frac{1}{1 + 2^{H_2(f)/(1 - f)}}$$
así que la distribución de entrada óptima es
$$p_1^* = \frac{1/(1-f)}{1 + 2^{(H_2(f)/(1 - f))}}$$
$\space$
Así que esa es la pregunta y solución específicas que me motivaron a hacer esta pregunta. Simplemente no estaba seguro de cómo la solución llegó a la idea de diferenciar la información mutua, y si había una motivación más "general" para diferenciar funciones de probabilidad cuál podría ser.
Gracias.