$MSE=(y-Xb)^T(y-Xb)=(y^T-b^TX^T)(y-Xb)=y^Ty-y^TXb-b^TX^Ty+b^TX^TXb$.
A continuación, tenga en cuenta que cada término aquí es escalar, y por lo $y^TXb$, es decir, ($(1\times n)(n \times k)(k \times 1)$), donde $n$ es el número de muestras (puntos de datos), $k$ es el número de regresores, incluidos los prejuicios plazo.
Para escalar términos, podemos tomar la transposición o no, es decir, $\alpha=\alpha^T$. Así, $y^TXb=(y^TXb)^T=b^TX^Ty$, que es el tercer término de arriba. Entonces, MSE se vuelve $y^Ty-2b^TX^Ty+b^TX^TXb$.
Nota: Si usted da información adicional acerca de donde se enfrentó esta ecuación (por ejemplo, la regresión lineal de conferencias, etc.), es mejor adaptarse a este foro; de lo contrario, esta pregunta puede también adaptarse a las matemáticas foro (tal vez mejor), aunque el procedimiento es bastante común en ML para el MSE de cálculo.