16 meses después de hacer la pregunta, me he topado con diferentes y muy physicsy respuesta, que espero sea útil a alguien.
Supongamos que en el fin de determinar m parámetros de un modelo:
Salida=f(Entradas, parámetros)
hemos realizado N>m experimentos. Queremos utilizar la información de estos experimentos para mejor elegir los m parámetros (de modo que la salida del modelo real y el valor experimental están tan cerca como sea posible).
Ahora viene la physicsy parte: permite la construcción de un N-dimensional en el espacio de fase, de modo que el N (determinado experimentalmente) salidas de nuestro N experimentos están representados por un solo punto en este espacio (el sistema de coordenadas de este punto son los resultados de cada experimento). Llamamos a esto el 'puntos de datos'.
En segundo lugar, si elegimos un conjunto arbitrario de parámetros de nuestro modelo, se pueden usar las entradas para cada experimento para la construcción de un 'predijo' salida para cada experimento (por el análisis de las entradas a través de nuestro modelo). Habrá N predijo salidas (una para cada experimento) y estos forman un segundo punto en el espacio de fase, dicen que la predicción de punto'. Como podemos variar los parámetros de este punto se mueve en un m-dimensional subespacio del espacio de fase. Y este es el punto importante:
La suma de los cuadrados de los términos de error (SSE) es el cuadrado de la distancia entre estos dos puntos en el $$N-dimensional en el espacio de fase, sólo por Pitágoras Teorema.
Para minimizar la suma de cuadrados de error es equivalente a la minimización de la distancia entre los puntos de datos y la predicción de punto en el $$N-dimensional del espacio de fases - una manera muy natural de calibrar nuestro modelo.
Finalmente, a partir de este Gauss resultado tiene sentido - si el punto de datos puede variar, normalmente, con una media de 0 y la igualdad de las varianzas, el error será esféricamente simétricas alrededor de los puntos de datos, y por lo que cuanto más nuestra predicción es que los puntos de datos en el espacio, la mejor, y la minimización de esta distancia debe dar la máxima probabilidad del estimador.