Para hallar la suma residual de cuadrados (RSS) tenemos:
\begin{equation} \hat{Y} = X^T\hat{\beta} \end{equation}
donde el parámetro $\hat{\beta}$ se utilizará para estimar el valor de salida del vector de entrada $X^T$ comme $\hat{Y}$
\begin{equation} RSS(\beta) = \sum_{i=1}^n (y_i - x_i^T\beta)^2 \end{equation}
que en forma matricial sería
\begin{equation} RSS(\beta) = (y - X \beta)^T (y - X \beta) \end{equation}
diferenciando en función de $\beta$ obtenemos
\begin{equation} X^T(y - X\beta) = 0 \end{equation}
Mi pregunta es ¿cómo se hace el último paso? ¿Cómo obtuvo la derivada la última ecuación?
0 votos
Debería decir $\hat Y=X\hat\beta$ sin transposición. ${}\qquad{}$
0 votos
Esta ecuación aparece en la sección 3.2 de The Elements of Statistical Learning de Hastie, et al.