Estoy leyendo un libro de estadística . En la página 271, en la sección "una breve derivación", el autor demuestra un teorema sobre el método de los mínimos cuadrados ordinarios. Demuestra que el tamaño del error se minimiza cuando el vector error $\vec{\epsilon}$ es ortogonal a $\bf{X}$ . Sin embargo, no entiendo cómo se deriva.
$$ \vec{\epsilon_{n}}^{T}\vec{\epsilon_{n}} = (\vec{\epsilon} - \bf{X}\vec{\iota})^{T}(\vec{\epsilon} - \bf{X}\vec{\iota}) = \vec{\epsilon}^{T}\vec{\epsilon} - 2\vec{\iota}^{T}\bf{X}^{T}\vec{\epsilon} + \vec{\iota}^{T}\bf{X}^{T}\bf{X}\vec{\iota} $$
¿Es trivial que $\vec{\iota}^{T}\bf{X}^{T}\vec{\epsilon} = \vec{\iota}\bf{X} \vec{\epsilon}^{T} $ ?