Supongamos que hacemos algún experimento con $m$ condiciones experimentales $n$ tiempos. $Y_i$ es el resultado de la $i$ experimento y $X_{i1},\dots,X_{im}$ es la lista de condiciones experimentales del $i$ experimento. Escribamos $X_i = (X_{i1}, \dots, X_{im})$ . Entonces los datos que observamos son $(Y_i, X_i),\,i=1\dots,n$ . Nótese que observamos el verdadero resultado experimental y las verdaderas condiciones experimentales.
Dados nuestros datos, podemos preguntarnos: ¿En qué medida puede describirse nuestro resultado experimental como una función lineal de las condiciones experimentales? Podemos formular esta pregunta como: ¿Cómo de cerca podemos resolver el siguiente sistema de $n$ ¿Ecuaciones? $$Y_i = X_i\tilde \beta, \quad i=1\dots,n.$$ En notación matricial, el sistema es $$Y = X \tilde\beta, \tag{1}$$ donde $Y=(Y_1,\dots,Y_n)^T$ y $X$ es la matriz cuya $i$ a fila es $X_i$ . Tenga en cuenta que $(1)$ es exactamente el sistema de ecuaciones que te estás preguntando.
Si podemos encontrar una solución $\beta$ a $(1)$ entonces todo está bien. Sin embargo, lo normal es que no sea así. En su lugar, podemos intentar encontrar un Aproximadamente solución: un vector de parámetros que no resuelve exactamente $(1)$ pero está "cerca" de resolverlo. Una forma de medir lo cerca que está algún vector de parámetros $\beta$ se trata de resolver $(1)$ es definir los residuos $$\varepsilon_i = Y_i - X_i\beta.\tag{2}$$ Entonces, por construcción $Y_i = X_i\beta + \varepsilon_i$ es válida para todos los $i$ . Tenga en cuenta que $\beta$ es una solución a $(1)$ si, y sólo si $\varepsilon_i =0$ es válida para todos los $i$ . Intuitivamente, $\beta$ está cerca de resolver $(1)$ si el $\varepsilon_i$ son "cercanas a cero". Una forma de medir esta proximidad es mediante la suma de los residuos al cuadrado $$\varepsilon_1^2 + \dots + \varepsilon_n^2,$$ donde $\varepsilon_i$ se define por $(2)$ . Cuanto menor sea la suma de los residuos al cuadrado, más cerca estará $\beta$ llega a ser una solución a $(1)$ . El vector de parámetros que consigue la menor suma de errores al cuadrado es precisamente el estimador de mínimos cuadrados ordinarios $$\hat \beta = (X^TX)^{-1}X^TY.$$
Dado $\hat \beta$ como solución aproximada a $(1)$ podemos definir $\hat Y_i = X_i\hat \beta$ y $$\hat \varepsilon_i = Y_i - X_i\hat \beta = Y_i - \hat Y_i.$$ Aquí, $\hat \varepsilon_i$ mide la proximidad de $\hat \beta$ llega a resolver el $i$ La ecuación en $(1)$ .
Hay otras formas de motivar a los mínimos cuadrados ordinarios, pero si te preguntas qué papel juega el sistema $Y = X \tilde\beta$ juega entonces en mi opinión el enfoque de "solución aproximada a un sistema de ecuaciones" es el que hay que pensar. Un aspecto agradable de este enfoque es que muestra que la regresión lineal puede ser motivada sin ninguna referencia a la aleatoriedad.
Ver ici para otra explicación de este enfoque. Para una motivación ligeramente diferente de la regresión lineal, véanse, por ejemplo, las páginas 44-45 ici .