Si $S \in \mathbb{R}^q$ es normal multivariante, entonces para $\mathbf{A} \in \mathbb{R}^{p \times q}$ tenemos
$$X = \mathbf{A}S$$
es normal multivariante.
Hablando intuitivamente, no hay mucha "libertad" en lo que se permite que sean los momentos cruzados si sus distribuciones son normales multivariadas. La distribución de $S$ están fijados por su matriz de covarianza $\mathbf{I}$ que consiste en momentos de segundo orden (cruzados), que son proporcionales a las correlaciones. Una vez que la descorrelación ha especificado estos momentos, ya hemos conseguido la independencia; entonces todos los momentos cruzados de orden superior se determinan automáticamente en términos de las desviaciones estándar $\sigma = 1$ , a través de ( ver Wikipedia ):
$$\mathbb{E}[S_1^n S_2^m] = \mathbb{E}[S_1^n] \mathbb{E}[S_2^m] = \sigma \cdot (n - 1)!! \cdot \sigma \cdot (m - 1)!! $$
si $n$ y $m$ son impar.
Si $S$ eran independientes pero no normales multivariantes, entonces $S$ sería no se basan únicamente en su matriz de covarianza para determinar su distribución. Podemos especificar la descorrelación (segundos momentos), pero a diferencia del caso gaussiano en el que los segundos momentos contienen toda la información, podemos "seguir adelante" y especificar momentos cruzados superiores de $S$ para acercarse a la independencia. Dado que los momentos superiores no están fijados automáticamente por los segundos momentos, hay alguna información adicional contenida en ellos.
Así que intuitivamente debería haber algunos ambigüedad en la elección de $\mathbf{A}$ en el caso gaussiano, ya que especificar la independencia significa especificar la descorrelación significa que sólo obtenemos información de los segundos momentos. Esto no es riguroso, pero la ambigüedad parece surgir porque podemos sustituir libremente $\mathbf{A}$ con $\mathbf{A}\mathbf{R}^T$ para cualquier ortogonal $\mathbf{R}$ .
Cuando $S$ no es gaussiano, la información adicional contenida en los momentos superiores es la que fija intuitivamente la elección de $\mathbf{A}$ .
\=============
algunos detalles:
En tu libro puedes considerar la ecuación (14.85). Queremos minimizar la entropía con respecto a $\mathbf{A}$ pero si las distribuciones son gaussianas, al tener igual varianza su entropía es fija y no podemos ajustarla. Necesitamos que la no gaussianidad nos dé más información para bajarla.
La explicación dada por Hyvarinen y Oja (2000), que el libro cita como recurso en la página 560, es más sencilla. En su lugar, dice que la gaussiana multivariante estándar no funciona porque es rotacionalmente simétrica. En efecto, al sustituir $S$ con $\mathbf{R}S$ deja toda la distribución de $X$ sin cambios, para cualquier distribución rotacionalmente simétrica para $S$ . Pero aún así resulta $S$ debe ser gaussiano, debido a un teorema que dice que si $S$ es rotacionalmente simétrica con componentes independientes, entonces debe ser gaussiana.