Entonces, lo que tienes aquí es básicamente una funcional. Estás introduciendo una matriz (\mathbf{X}) y un par de vectores (\mathbf{y} y \beta), luego combinándolos de tal manera que la salida es solo un número. Entonces, lo que necesitamos aquí se llama una derivada funcional.
Sea \epsilon > 0 y \gamma un vector arbitrario de tamaño p \times 1, entonces \frac{\partial \text{RSS}}{\partial \beta} \equiv \lim_{\epsilon \to 0} \Big((\epsilon \gamma^T)^{-1}\big(\text{RSS}(\beta + \epsilon \gamma) - \text{RSS}(\beta)\big) \Big).
Estamos sumando un vector pequeño y arbitrario a \beta y luego viendo cómo eso cambia \text{RSS}. 'Dividimos' este vector arbitrario al final, y he utilizado la transpuesta aquí porque \beta y \gamma entran en la funcional original como multiplicación desde la derecha, así que al venir desde la izquierda usamos la transpuesta. Todo lo que queda es evaluar estas expresiones.
\text{RSS}(\beta+\epsilon\gamma) = \left(\mathbf{y}-\mathbf{X}(\beta+\epsilon\gamma)\right)^{T}\left(\mathbf{y}-\mathbf{X}(\beta+\epsilon\gamma)\right) = \left((\mathbf{y}-\mathbf{X}\beta)^{T}-(\mathbf{X}\epsilon\gamma)^T)\right)\left((\mathbf{y}-\mathbf{X}\beta)-\mathbf{X}\epsilon\gamma)\right) = (\mathbf{y}-\mathbf{X}\beta)^{T}(\mathbf{y}-\mathbf{X}\beta)-(\mathbf{y}-\mathbf{X}\beta)^{T}\mathbf{X}\epsilon\gamma-(\mathbf{X}\epsilon\gamma)^T(\mathbf{y}-\mathbf{X}\beta)+(\mathbf{X}\epsilon\gamma)^T\mathbf{X}\epsilon\gamma =\text{RSS}(\beta)- \epsilon \big((\mathbf{y}-\mathbf{X}\beta)^{T}\mathbf{X}\gamma+(\mathbf{X}\gamma)^T(\mathbf{y}-\mathbf{X}\beta)\big) + \epsilon^2 (\mathbf{X}\gamma)^T\mathbf{X}\gamma Entonces, \frac{\text{RSS}(\beta + \epsilon \gamma) - \text{RSS}(\beta)}{\epsilon \gamma^T} = \frac{-\big((\mathbf{y}-\mathbf{X}\beta)^{T}\mathbf{X}\gamma+(\mathbf{X}\gamma)^T(\mathbf{y}-\mathbf{X}\beta)\big) + \epsilon (\mathbf{X}\gamma)^T\mathbf{X}\gamma}{\gamma^T}.
El tercer término, entonces, no sobrevive en el límite y nos queda \frac{-\big((\gamma^T \mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta))+(\gamma^T \mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta))^T\big)}{\gamma^T}
Sin embargo, dado que ambos términos son solo matrices de tipo 1 \times 1, es decir, escalares, entonces el término y su transpuesta son iguales y nos queda \frac{\partial \text{RSS}}{\partial \beta} = -2 \mathbf{X}^T(\mathbf{y}-\mathbf{X}\beta)