No pretendo que esto sea una respuesta. Estoy más bien pensando en voz alta aquí y esto es demasiado para un comentario.
La prueba más sencilla del teorema del muestreo consiste en demostrar que cualquier señal con frecuencia inferior a alguna frecuencia de corte, $\vert f \vert < f_c $ puede reconstruirse aplicando un filtro ideal de paso bajo (definido por la misma frecuencia de corte) a la versión muestreada de la sinusoide. Podemos representar el muestreo a una frecuencia de $f_s=1/T_s$ en el dominio del tiempo multiplicando la señal de entrada $x(t)$ por
$$ \textrm{comb}_{T_s}(t) = \sum_{k}{\delta(t-kT_s) }. $$
En el dominio de la frecuencia esto se convierte en
$$ x(t) \cdot \textrm{comb}_{T_s}(t) \leftrightarrow X(f) \ast \textrm{comb}_{f_s}(f). $$
Como las réplicas estarán separadas por $f_s$ Hertz, si $X(f)$ tiene una magnitud nula para $\vert f\vert > f_s/2$ y dejamos que $f_c = f_s/2$ entonces
$$ \textrm{rect}\left( f \over 2f_c \right) \cdot \left( X(f) \ast \textrm{comb}_{f_s}(f) \right) = X(f). $$
Así, si $x(t)$ no tiene contenido espectral en las frecuencias inferiores a $-f_s/2$ y mayor que $+f_s/2$ entonces la frecuencia de muestreo $f_s$ es suficiente para reconstruirlo.
Si en lugar de ello muestreamos la primera derivada de $x(t)$ entonces tendríamos
$$ \left( { {d} \over {dt} } x(t) \right) \cdot \textrm{comb}_{T_s}(t) \leftrightarrow \left( f \cdot X(f) \right) \ast \textrm{comb}_{f_s}(t). $$
Supongamos que $\vert f_1 \vert < f_s/2$ y $\vert f_2 \vert < f_s$ y $\vert f_1 - f_2 \vert = f_s$ . Si $x(t) = a \cdot e^{j2\pi f_1 t} + b \cdot e^{j2\pi f_2 t}$ , $a,b\in\mathbb{C}$ y muestreamos tanto el valor como la primera derivada a razón de $f_s$ entonces los espectros que vemos después de aplicar los filtros de paso bajo son
$$ X_{f_s}(f) = a\cdot\delta(f-f_1) + b\cdot\delta(f-f_1) \\ fX_{f_s}(f) = a\cdot f_1 \cdot \delta(f-f_1) + b \cdot f_2 \cdot\delta(f-f_1) , $$
que, si no me equivoco, es información suficiente para reconstruir $x(t)$ dadas las restricciones de $f_1$ y $f_2$ . Así, disponer del valor de la muestra y de la primera derivada nos permite duplicar la frecuencia por debajo de la cual podemos reconstruir con precisión la señal en el dominio del tiempo.
Lejos de una prueba, lo sé. Pero la pregunta me pareció interesante y quise reflexionar sobre ella.