Hay dos propiedades aquí para un canal discreto sin memoria de $n\times n$, y no son equivalentes: a) capacidad cero y b) la distribución que logra la capacidad tiene salidas equiprobables
a) El canal tiene capacidad cero si y solo si $p(y_j | x_i) = g(j)$, es decir si las probabilidades de transición dependen solo de la salida (la matriz de Markov es una única fila repetida $n$ veces)
Prueba:
($\Leftarrow$) La condición implica directamente que $p(x_i | y_j) = \frac{p(y_j | x_i) p(x_i)}{ p(y_j)}$, por lo tanto $H(X|Y) = H(X) \Rightarrow I(X;Y)=0$ para cualquier distribución de entrada, por lo tanto $C = 0$
($\Rightarrow$) Supongamos que se viola la condición, entonces para algún $j$ existen dos entradas $i_a$, $i_b$ ,con $p(y_j|x_{i_a}) > p(y_j|x_{i_b}) $. Simplemente utilizando una fuente que produzca esas dos entradas con igual probabilidad obtenemos $H(X|Y) < H(X) \Rightarrow C>0$
b) La segunda parte del problema parece más difícil de responder en general. Una condición suficiente (quizás no necesaria) es que la matriz sea débilmente simétrica: todas las filas difieren solo en una permutación, y todas las columnas tienen la misma suma. En este caso, es claro que $H(Y | X=x) = H(q)$ no depende de $x$ ($q$ es una fila), y por lo tanto $I(X;Y) = H(Y) - H(q)$ se maximiza con una salida equiprobable, que se logra (debido a que todas las columnas suman lo mismo) con una entrada equiprobable. Observar que esto incluye tanto el canal completamente ruidoso como el canal completamente silencioso, el canal binario simétrico, el canal de "máquina de escribir ruidosa", así como generalizaciones de este último, como la "máquina de escribir ruidosa asimétrica", también con más de dos salidas (por ejemplo, 0.7 probabilidad de acertar la tecla correcta, 0.2 de acertar la siguiente, 0.1 de acertar la anterior).
Actualización: Al derivar $I(X|Y)$ con respecto a $p_y$ se puede mostrar que la condición necesaria para alcanzar un extremo local en $p_y=1/n$ es que la matriz de transición tenga "entropía de fila" constante ($H(q)$ arriba). Esto cubre mucho más espacio de matrices que requerir que cada fila sea una permutación de las otras (débilmente simétrica), pero no es suficiente: también se debe verificar que exista algún $p_x$ válido que verifique $p_y = 1/n = p_x A$.
Por supuesto, en este caso la capacidad es $C=\log(n) - H(q)$
Como ejemplo:
>>> A =[.1, .5, .4 ; .5, .4, .1 ; .19382, .2 ,.60618]
A =
0.10000 0.50000 0.40000
0.50000 0.40000 0.10000
0.19382 0.20000 0.60618
>>> y = [1/3,1/3,1/3];
>>> x=y*inv(A)
x = 0.11681 0.49145 0.39174
C= -A .* log(A);
>>> C * ones(3,1) % entropía de cada fila
0.94335
0.94335
0.94335
>>> ixy = (log(3) - (C*ones(3,1))(1) )/log(2)
ixy = 0.22400