Existen varios sitios web que describen la descenso de gradiente para encontrar los parámetros de la regresión lineal simple (aquí es uno de ellos). Google también lo describe en su nuevo curso de ML (para el público).
Sin embargo, en Wikipedia, se proporcionan las siguientes fórmulas para calcular los parámetros: $$ {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} $$
Además, la función LinearRegression de scikit-learn no tiene un atributo n_iter_
(número de iteraciones) como lo tiene muchas otras funciones de aprendizaje, ¿lo que sugiere que no se está utilizando el descenso de gradiente?
Preguntas:
- ¿Los sitios web que describen el descenso de gradiente para la regresión lineal simple lo hacen solo para enseñar el concepto en el modelo de ML más básico? ¿Es la fórmula en Wikipedia lo que la mayoría de programas de estadísticas usarían para calcular los parámetros (al menos scikit-learn no parece estar utilizando el descenso de gradiente)?
- ¿Qué se usa típicamente para la regresión lineal múltiple?
- ¿Para qué tipos de modelos de aprendizaje estadístico se utiliza típicamente el descenso de gradiente para encontrar los parámetros sobre otros métodos? Es decir, ¿hay alguna regla general?