Supongo que el $\frac{1}{m}$ componente es obvio y, por tanto, me centraré en el $\frac{1}{2}$ parte. Personalmente dudo que tantos autores decidieran incluir este término tan confuso sólo para conseguir unas fórmulas de gradiente un poco más sencillas. Tenga en cuenta que hay maneras de encontrar la solución a las ecuaciones de regresión lineal que no implica gradientes. Proporcionaré otra explicación.
Cuando intentamos evaluar los modelos de aprendizaje automático, partimos de la base de que nuestras observaciones no son totalmente exactas, sino que contienen algún tipo de error. Por ejemplo, imaginemos que medimos una longitud con una regla de baja calidad. Uno de los supuestos más sencillos sería que introducimos algún error gaussiano:
$$ \epsilon \thicksim \mathcal{N}(0, 1) $$
Estos parámetros suelen ser seguros porque, de todos modos, realizamos algún tipo de normalización de los datos. Ahora podemos calcular la probabilidad de que nuestra predicción $\hat{y}$ es igual a nuestro valor objetivo $y$ hasta este error de medición:
$$ \hat{y} + \epsilon = y $$
Podemos tratar $\hat{y} + \epsilon$ como una nueva variable aleatoria $\widetilde{y} \sim \mathcal{N}(\hat{y}, 1)$ . Acabamos de añadir una constante $\hat{y}$ a nuestra variable aleatoria centrada en cero $\epsilon$ . Esta variable aleatoria $\widetilde{y}$ es nuestra estimación probabilística de la observación. En lugar de afirmar que para una entrada dada $x$ observaremos la salida $\hat{y}$ (lo que no sería cierto debido a los errores) afirmamos que lo más probable es que observemos algo en torno a $\hat{y}$ . Podemos calcular la probabilidad de observar realmente el $\hat{y}$ o $y$ así como cualquier otro número utilizando la PDF gaussiana:
$$ p(x) = \frac{1}{{\sigma \sqrt {2\pi } }}exp\left({{\frac{ - \left( {x - \mu } \right)^2 }{2\sigma^2}}}\right) \\ $$
En nuestro caso $\mu = \hat{y}$ y $\sigma = 1$ :
$$ p(y) = \frac{1}{{\sqrt {2\pi } }}exp\left({{\frac{ - \left( {y - \hat{y} } \right)^2 }{2}}}\right) \\ $$
Obsérvese que ésta es la función que realmente nos gustaría maximizar: la probabilidad de observar el valor verdadero. $y$ dado nuestro modelo. Dado que nuestro objetivo principal es la maximización, podemos aplicar una función monótona como el logaritmo e ignorar las constantes.
$$ log~p(y) = \frac{ - \left( {y - \hat{y} } \right)^2 }{2} + const $$
Una vez eliminados la constante y el signo menos, obtenemos el término de error al cuadrado para un único ejemplo de nuestro conjunto de datos. Podemos calcular la media de todos los ejemplos para obtener la fórmula MSE.
$$ MSE(y, \hat{y}) = \frac{1}{2m}\sum_i^m (y - \hat{y})^2 $$
Obsérvese que podemos derivar de forma similar la fórmula para la pérdida de regresión logística, es decir, la entropía cruzada o log-pérdida.