Olvidemos los índices por un momento y hagamos la regla de la cadena: $$ \partial_x\left(f(\lambda^{-1} x)\right) =\dfrac{\partial f(\lambda^{-1} x)}{\partial x} =\lambda^{-1}\dfrac{\partial f(\lambda^{-1} x)}{\partial (\lambda^{-1} x)} \quad. $$ Esto explica el $\Lambda^{-1}$ prefactor en el RHS. Si entiendes esto, añadir índices debería ser bastante sencillo.
La segunda parte de tu pregunta está causada por el abuso estándar de la notación. De nuevo, suprimamos los índices por un momento. Dado que $$ \dfrac{\partial f(s)}{\partial s} \equiv (\partial_s f)(s) \quad, $$ podemos escribir $$ \dfrac{\partial f(\lambda^{-1} x)}{\partial (\lambda^{-1} x)} = (\partial_s f)(s) \biggr\rvert_{s=\lambda^{-1}x} = f^{\,\prime}(\lambda^{-1}x) \quad. $$
$\partial_\mu(\phi(\Lambda^{-1}x))$ corresponde a la derivada de la función $\tilde{\phi}(x)=\phi(\Lambda^{-1}x)$ con respecto a $x^\mu$ : $$ \partial_\mu(\phi(\Lambda^{-1}x)) = \dfrac{\partial \tilde{\phi}(x)}{\partial x^\mu} = \dfrac{\partial \phi(\Lambda^{-1}x)}{\partial x^\mu} \quad. $$ $(\partial_\mu\phi)(\Lambda^{-1}x)$ corresponde al cálculo de la derivada de $\phi(s)$ con respecto a $x^{\mu}$ y luego evaluar esta derivada en el punto $s = \Lambda^{-1}x$ : $$ (\partial_\mu\phi)(\Lambda^{-1}x) = \left.\dfrac{\partial\phi(s)}{\partial x^\mu}\right|_{s=\Lambda^{-1}x} \quad. $$