Soy nuevo en esto de los mínimos cuadrados y entiendo que los mínimos cuadrados se aplican al sistema sobredeterminado para obtener el mejor ajuste, pero qué ocurre si aplicamos el método de los mínimos cuadrados a un sistema de ecuaciones cuadrado que tiene una solución única. Para un ajuste lineal, todos los puntos deberían estar en la misma línea si la solución es única. ¿Existe alguna explicación general de la pregunta anterior? También, ¿por qué ocurrirá en el caso general?
Respuestas
¿Demasiados anuncios?Utilizando la notación del artículo correspondiente de Wikipedia las ecuaciones normales para encontrar $\beta$ minimizar $\Vert y - X\beta \Vert_2$ ( $X$ es un $m\times n$ matriz con $m \geq n$ ) son $X^\intercal X \beta = X^\intercal y$ .
La solución de este sistema es $\beta = X^+ y$ donde $X^+ = (X^\intercal X)^{-1} X^\intercal$ es el pseudoinverso de Moore-Penrose de $X$ (suponiendo que $X$ tiene columnas linealmente independientes de modo que $X^\intercal X$ es no singular).
Según su pregunta, cuando $X$ es una matriz cuadrada invertible, la pseudoinversa de Moore-Penrose es exactamente la inversa ordinaria ya que $$X^+ = (X^\intercal X)^{-1} X^\intercal = X^{-1} X^{-\intercal} X^{\intercal} = X^{-1}.$$ En este caso, $\beta = X^{-1} y$ .
Supongamos que nos dan los vectores $y,w$ y una matriz $X$ no necesariamente invertible. Entonces para encontrar el $w$ que minimiza $\dfrac{1}{2} \Vert y - Xw\Vert_2^2$
En primer lugar, dejemos que $f(w) = \dfrac{1}{2} \Vert y - Xw\Vert_2^2 = \dfrac{1}{2}(y - Xw)^T (y - Xw)$
Entonces, tomando el gradiente se obtiene: $\nabla f(w) = X^T(y - Xw^*) = 0 \implies w^* = X^{\dagger}y$
Por la condición de optimalidad de primer orden (algo bien conocido en la optimización no lineal), $w^*$ es el minimizador de la función objetivo convexa $f(w)$ .
( $X^{\dagger} = (X^TX)^{-1}X^T$ es el pseudoinverso de $X$ )
1 votos
Si el sistema de ecuaciones es cuadrado y tiene una solución única (es decir, invertible) entonces tenemos $A^T A x = A^T b$ y, por tanto, multiplicando por $(A^T)^{-1}$ da $Ax=b$ o $x = A^{-1} b$ .