El problema de optimización en la regresión lineal, $f(\beta) = ||y-X\beta||^2$ es convexa (ya que es una función cuadrática), y cuando $(X^TX)$ es invertible, tenemos una solución única que podemos calcular mediante la forma cerrada dada $\beta = (X^T X)^{-1} X^Ty$ . Sin embargo, cómo es de útil la convexidad en los casos en los que no hay solución de forma cerrada. Cuando tenemos, por ejemplo, infinitas soluciones, el hecho de que las soluciones locales sean también mínimos globales no parece ser de mucha ayuda
Respuesta
¿Demasiados anuncios?Cuando $(X^TX)$ no es invertible no hay una solución sino varias: un subespacio afín. Pero siguen siendo soluciones de forma cerrada en cierto modo. Son soluciones del sistema lineal: $(X^TX)\beta=X^Ty$ . Resolver este sistema no es fundamentalmente más complicado que invertir una matriz, creo.
También es posible resolverlo con un algoritmo de optimización convexa. Pero entonces no hay un único mínimo, ya que la función alcanza un mínimo constante en un subespacio afín: imaginemos una línea recta como el fondo de un valle (un río recto). La función no es estrictamente convexa, sino simplemente convexa. Creo que la mayoría de los algoritmos de optimización convexa convergerán a una de las soluciones: terminar en cualquier lugar del subespacio afín.
Así, el caso en que la matriz no es invertible no es tan especial en términos de método matricial frente al algoritmo de optimización convexa. Es sólo que la regresión lineal permite una solución simple especial con matrices o sistemas lineales, cuando los problemas generales no lo hacen, y hay que encontrar el mínimo con un método iterativo: un algoritmo de optimización.
Tenga en cuenta que hay casos en los que, a pesar de la aparente simplicidad, la inversión de la matriz tiene una complejidad algorítmica mucho mayor que un algoritmo de optimización convexa razonablemente preciso. Esto suele ocurrir cuando hay muchas características (de cientos a millones). Por eso la gente utiliza métodos de optimización convexa incluso para la regresión lineal.
Por último, cuando la matriz no es invertible, suele ser que no hay suficientes datos para estimar realmente $\beta$ con una precisión realista. La solución está extremadamente sobreajustada. Entonces se utilizará la regularización de crestas. La solución es $\beta=(X^TX+\lambda I)^{-1}X^Ty$ . La matriz $(X^TX+\lambda I)$ es siempre invertible ( $\lambda>0$ ).