Supongamos que no fuera así. Entonces habría un $\varepsilon > 0$ tal que para cada $n \in \mathbb{N}$ hay un $x_n \in E$ con
$$\lVert T x_n\rVert > \varepsilon \lVert x_n\rVert + n\cdot \lVert ST x_n\rVert.$$
$x_n$ no puede ser $0$ por lo que podemos suponer, sin pérdida de generalidad, que $\lVert x_n\rVert = 1$ .
$T$ es compacto, por lo que $T x_n$ tiene una subsecuencia convergente, digamos $T x_{n_k} \to y \in F$ . Entonces $\lVert y\rVert \geqslant \varepsilon$ desde $\lVert T x_{n_k}\rVert > \varepsilon$ . En particular, $y \neq 0$ Por lo tanto, también $S y \neq 0$ . Pero entonces
$$\lVert S y\rVert = \lim_{k \to \infty} \lVert ST x_{n_k}\rVert \leqslant \limsup_{k\to\infty} \frac{1}{n_k}\lVert T x_{n_k}\rVert = \lim_{k \to \infty} \frac{1}{n_k} \lVert y\rVert = 0,$$
lo que contradice la inyectividad de $S$ .
Sería bueno señalar que si $S$ tiene rango cerrado (en particular si es suryectiva), se tiene la estimación $\lVert Tx \rVert \leqslant \lVert S^{-1}\rVert \cdot \lVert STx\rVert$ independientemente de que $T$ es compacto.
Y que en general, cuando el rango de $S$ no es (necesariamente) cerrado, se necesitan las dos partes del lado derecho en la estimación de $\varepsilon < \lVert T\rVert$ . Como ejemplo, considere $E = F = G = \ell^2$ y $S = T$ el operador $(x_k) \mapsto \left(\frac1k x_k\right)$ .