Usted no tienen a. La función de pérdida tiene el mismo mínimo tanto si se incluye el $\frac{1}{m}$ o suprimirlo. Sin embargo, si se incluye, se obtiene la bonita interpretación de minimizar (una mitad) el media error por punto de datos. Dicho de otro modo, está minimizando el error tasa en lugar del error total.
Considere la posibilidad de comparar el rendimiento en dos conjuntos de datos de diferente tamaño. La suma bruta de errores al cuadrado no es directamente comparable, ya que los conjuntos de datos más grandes tienden a tener más errores totales sólo por su tamaño. En cambio, el error medio por punto de datos es .
¿Puede explicar un poco más?
Claro. Tu conjunto de datos es una colección de puntos de datos $\{ x_i, y_i \}$ . Una vez que tenga un modelo $h$ el error de mínimos cuadrados de $h$ en un solo punto de datos es
$$ (h(x_i) - y_i)^2 $$
esto es, por supuesto, diferente para cada punto de datos. Ahora, si simplemente sumamos los errores (y multiplicamos por la mitad por la razón que describes) obtenemos el error total
$$ \frac{1}{2} \sum_i (h(x_i) - y_i)^2 $$
pero si dividimos por el número de sumandos obtenemos el media error por punto de datos
$$ \frac{1}{2m} \sum_i (h(x_i) - y_i)^2 $$
La ventaja del error medio es que si tenemos dos conjuntos de datos $\{ x_i, y_i \}$ y $\{ x'_i, y'_i \}$ de diferentes tamaños entonces podemos comparar los errores medios pero no los errores totales. Porque si el segundo conjunto de datos es, digamos, diez veces mayor que el primero, cabría esperar que el error total fuera unas diez veces mayor para el mismo modelo. Por otro lado, el error medio divide el efecto del tamaño del conjunto de datos, por lo que cabría esperar que los modelos de rendimiento similar tuvieran errores medios similares en conjuntos de datos diferentes.