TL;DR: No, no hay ningún esquema de este tipo que no estemos utilizando ya. Hay razones, a continuación.
La teoría de la información nos dice que tenemos que transmitir el menor número de bits (usando menos energía que transmitiendo más bits) si usamos codificación de la fuente para comprimir los datos de entrada, haciendo que el 0 y el 1 sean igualmente probables.
El trabajo de codificación de canales es tomar estos bits igualmente probables y encontrar un esquema de transmisión que sea óptimo para el sistema de extremo a extremo - normalmente óptimo como la menor tasa de error de bits para una potencia de transmisión determinada, o la menor potencia necesaria para una tasa de error de bits fija. Puede haber muchos otros parámetros a tener en cuenta, pero estos son los principales aspectos que solemos tener en cuenta cuando optimizamos la codificación del canal para las comunicaciones de alta velocidad de larga distancia, que son las que más energía utilizan.
Por tanto, lo que propones "ya está hecho", y hay 80 años de amplia teoría y práctica en ingeniería de comunicaciones en ello.
Por ejemplo, sabemos que los esquemas que se apagan para señalar un valor de bit y transmitir algo para el otro son en casi todos los casos ineficientes desde el punto de vista energético, realmente. El medio de transmisión es una onda electromagnética, ya sea la interfaz de radio de su teléfono, el campo entre los cables de un par trenzado o la fibra óptica para los enlaces de >= 100 Gbit/s. Y éstas tienen una fase, lo que nos permite transmitir, digamos, amplitudes de -0,5/+0,5 en lugar de 0,0/1,0, y obtener la misma "distancia" entre símbolos ruidosos recibidos en el receptor. Sin embargo, la potencia media utilizada por el primer esquema es \$0.5^2=\frac14\$ mientras que en el segundo caso es \$\frac12(0^2+1^2)=\frac12\$ . Este ejemplo de BPSK (codificación binaria por desplazamiento de fase) frente a OOK (codificación de encendido y apagado) sirve para ilustrar que hay belleza en hacer las cosas simétricas - y entonces, se pierde por completo el argumento del "bit que tiene menor energía".
Ahora bien, no sólo hay conjuntos de símbolos que tengan una potencia constante; por el contrario, en las comunicaciones de alta velocidad, utilizamos conjuntos que tienen rangos muy altos de potencias diferentes. Sin embargo, si empiezas a "dar forma" a la distribución de probabilidad de estos símbolos, te encuentras con un problema:
Digamos que tienes una constelación con 1024 símbolos de transmisión diferentes (1024-QAM, por ejemplo). Si simplemente tomas 10 bits de entrada y eliges el símbolo con ese número, ¡tu único símbolo transporta 10 bits de información! Es fácil. Eso también significa que cada símbolo es igualmente probable, ya que cada secuencia de 10 bits es igualmente probable.
Ahora, vienes y dices que quieres optimizar la potencia, por lo que los símbolos de mayor amplitud deben aparecer con menos frecuencia que los de menor amplitud. Resulta que bajo esa condición, cada símbolo ya no lleva 10 bits; 10 bits por símbolo es lo máximo que puedes conseguir con 2 10 \=1024 símbolos, y eso ocurre cuando eliges las probabilidades de todos los símbolos de forma idéntica. Así, para transmitir el mismo, digamos, 1 millón de bits, donde en el esquema equidistribuido necesitabas 100 mil símbolos, ahora necesitas más. Cuánto más depende de la forma exacta de la probabilidad¹.
Ahora bien, para que la energía sea más eficiente por cada símbolo que se transmita, hay que transmitir más símbolos.
Y lo que es peor: en el receptor hay que decidir qué símbolo has enviado. Esto hace que significativamente más involucrados cuando los símbolos son no distribuidos de forma equitativa. El procesamiento de la señal del receptor y la decodificación del canal contribuyen significativamente a la demanda de energía de las comunicaciones. Me refiero a que hasta la mitad del consumo total del sistema se gasta en el receptor, no en el transmisor, que tiene que llevar los símbolos físicamente al canal de transmisión.
Por lo tanto, este es un camino que no suele llevar a ninguna parte.
Sí que lleva a alguna parte si su canal no es agradable y lineal, y las potencias de señal más altas conducen a una mayor distorsión. Esto es lo que vemos en los enlaces de fibra de mayor velocidad (piense en 400 Gbit/s o más), donde encontrará conformación probabilística utilizado para maximizar la información mutua entre el transmisor y el receptor. En realidad, no se aplica a los casos de uso más sencillos hoy en día, y la comunidad ha sido bastante buena a la hora de demostrar matemáticamente que las situaciones en las que sí produce una ganancia no son realmente estos casos de uso con velocidades de datos más bajas.
¹ En realidad tenemos fórmulas para describirlo: lo máximo que se puede obtener de una fuente \$X\$ con un conjunto de símbolos con esa forma de probabilidad \$(P(x_i))_{i=1,\ldots,1024}\$ es la entropía de la fuente:
$$H(X) = -\sum_{i=1}^{1024} P(x_i) \log_2(P(x_i))$$
Con un poco de análisis se encontrará que tiene un máximo global para \$P(x_1)=P(x_2)=\ldots=\frac1{1024}\$ ya que las probabilidades tienen que sumar siempre 1. El valor de la entropía en ese momento es \$H(X) = -1024\cdot \frac1{1024}\log_2\left(\frac1{1024}\right) = -(-10)=10\$ (bit).