Reformulando lo que otros han respondido de manera formal, míralo de esta manera:
La información sólo puede transmitirse a través del cambiar de algún estado ("sorpresas" en términos de @Evan). Una onda sinusoidal de ancho de banda cero (amplitud y frecuencia constantes) no transmite cualquier información, simplemente está ahí.
Ahora, cada vez que una señal (sinusodial) de frecuencia f cambia Si se produce un cambio de frecuencia, ya sea de amplitud, de fase o de ambas, la señal resultante en el momento del cambio ya no puede ser de frecuencia f; de lo contrario, la señal no cambiaría en absoluto. Así pues, cualquier cambio de una señal a partir de una onda sinusoidal continua (temporalmente) genera una frecuencia o frecuencias algo superiores y/o inferiores a la frecuencia original f.
La diferencia entre la frecuencia temporal/ies y la frecuencia base f, delta-f, determina lo rápido y lo grande que puede ser el cambio (tasa de cambio) y viceversa. Un cambio rápido genera/requiere mayores desviaciones de frecuencia que uno lento. En teoría, si tienes una señal sinusodial constante y la desconectas (0% de amplitud) al instante Es decir, con un tiempo 0 para pasar de un estado (100% de amplitud) al otro (0%), esto crearía/requeriría frecuencias infinitamente altas. Por eso es imposible modificar una señal dada a velocidades arbitrariamente altas.
Retomando lo anterior, cada uno de los cambios de la señal puede ser utilizado para transmitir alguna información, ya sea un solo bit o menos o más de un bit. Para incluir más información en un solo cambio (más bits) se necesitan cambios mayores (hay que poder discernir, por ejemplo, 4 estados (2 bits, rango 0-3) en lugar de 2 (1 bit, rango 0-1)). Los cambios mayores provocan/requieren mayores delta-f. Si sólo quieres transmitir más cambia por segundo, se reduce el tiempo que tarda cada cambio en hacerse efectivo (antes de que se module el siguiente). Así, se obtiene un mayor delta-f porque hay que asegurarse de que los cambios se hagan visibles más rápidamente.
Ejemplo: Si tuviera que transmitir 1 bit por segundo, podría limitarme a frecuencias realmente bajas, porque probablemente estaré bien si cada bit enviado requiere 0,5 segundos para alcanzar el estado de señal correspondiente en el extremo receptor. A ancho de banda de 1-2Hz puede ser suficiente. No se puede intentar enviar 100 bits por segundo si cada bit requiere 0,5 segundos para ser visible en el receptor: Durante este tiempo hay otros 50 bits también modulados en la señal, por lo que el receptor vería algún tipo de media de los 50 bits enviados después de 0,5s. No hay manera de reconstruir los bits individuales. Por eso necesito más ancho de banda para permitir mayores delta-f's, lo que permite que la señal en el lado receptor cambie de estado más rápidamente.
Así que, haga lo que haga para obtener más información por segundo transmitida, tendrá que proporcionar más ancho de banda, porque deben ser visibles más cambios de señal por segundo.
(Todo esto suponiendo el mismo margen de SNR requerido. Al reducir el margen de SNR se puede exprimir algo más de información en una señal de un ancho de banda determinado).
Para visualizar la relación entre el ancho de banda y la tasa de cambio, puedes tomar/simular, por ejemplo, un simple filtro de paso bajo. Observe lo que ocurre en la salida del filtro cuando se activa/desactiva "instantáneamente" una determinada señal de entrada (sinusodial): La salida sólo responderá lentamente al cambio rápido. Si modulas la señal de entrada más rápidamente, empezarás a ver que la señal de salida se vuelve más o menos estable cuanto más rápido modulas la entrada, hasta un punto en el que la modulación de entrada ya no se puede ver en la señal de salida.