En el libro de Christopher Bishop Reconocimiento de patrones y aprendizaje automático La sección sobre el ACP contiene lo siguiente:
Dada una matriz de datos centrada $\mathbf{X}$ con matriz de covarianza $N^{-1}\mathbf{X}^T\mathbf{X}$ la ecuación del vector propio es:
$$N^{-1}\mathbf{X}^T\mathbf{X} \mathbf{u}_i = \lambda_i \mathbf{u}_i.$$
Definición de $\mathbf{v}_i = \mathbf{X} \mathbf{u}_i$ El obispo afirma que si $\mathbf{u}_i$ y $\mathbf{v}_i$ tienen una longitud unitaria, entonces:
$$\mathbf{u}_i = \frac{1}{(N\lambda_i)^{\frac{1}{2}}}\mathbf{X}^T\mathbf{v}_i.$$
¿De dónde viene la raíz cuadrada?
EDITAR:
En particular, ¿por qué no es válido lo siguiente?
$\frac{1}{N}\mathbf{X}^T\mathbf{X}\mathbf{u}_i = \lambda \mathbf{u}_i$
$\Rightarrow \frac{1}{N}\mathbf{X}^T \mathbf{v}_i = \lambda \mathbf{u}_i$ utilizando $\mathbf{v}_i = \mathbf{Xu}_i$
$\Rightarrow \frac{1}{N\lambda_i}\mathbf{X}^T \mathbf{v}_i = \mathbf{u}_i$
El mismo resultado, pero sin la raíz cuadrada.