Estoy teniendo problemas de forma intuitiva comprensión de la corrección de la fórmula para calcular el coeficiente de la regresión de la línea de regresión lineal.
Sé que la fórmula es
∑Ni=1(xi−ˉx)(yi−ˉy)∑Ni=1(xi−ˉx)2
Tengo en algún punto del pasado a través de la prueba y mecánicamente entendido. Pero, intuitivamente todavía no veo por qué la fórmula anterior se calcula la correcta coeficiente. De hecho, intuitivamente me han dicho, el coeficiente de la recta de regresión debe ser la proporción promedio de yi y xi, (xi,yi) siendo los puntos de datos.
Escribí un pequeño Jupyter-Cuaderno para ilustrar esto. Me encontré con que mi enfoque ingenuo no es completamente equivocado, y de hecho converge hacia el valor correcto con más datos, si los datos se dispersa en un intervalo fijo.
Así que... ¿qué es los puntos críticos que mi enfoque ingenuo se pone mal y lo que es la intuitiva explicación de por qué la fórmula correcta funciona mejor?