La suma de las varianzas de todos los componentes PLS es normalmente menos de 100%.
Hay muchas variantes de los mínimos cuadrados parciales (PLS). Lo que se usa aquí es el de regresión PLS de un univariado variable de respuesta $\mathbf y$ sobre varias variables $\mathbf X$; este algoritmo es conocido tradicionalmente como PLS1 (a diferencia de otras variantes, véase Rosipal & Kramer, 2006, Introducción y los Últimos Avances en el Parcial
Mínimos Cuadrados para una visión general concisa). PLS1 se muestra más adelante para ser equivalente a un más elegante formulación llamado SIMPLS (véase la referencia a la paywalled Jong 1988 en Rosipal & Kramer). La opinión proporcionada por SIMPLS ayuda a entender lo que está pasando en PLS1.
Resulta que lo que PLS1 hace, es encontrar una secuencia de proyecciones lineales $\mathbf t_i = \mathbf X \mathbf w_i$, tal que:
- La covarianza entre el $\mathbf y$ $\mathbf t_i$ es máxima;
- Todo el peso vectores tienen unidad de longitud, $\|\mathbf w_i\|=1$;
- Cualquiera de los dos componentes PLS (aka puntuación de vectores) $\mathbf t_i$ $\mathbf t_j$ no están correlacionados.
Tenga en cuenta que el peso de los vectores no tienen que ser (y no son) ortogonales.
Esto significa que si $\mathbf X$ se compone de $k=10$ variables y se encuentra $10$ PLS componentes, a continuación se encuentra un no-ortogonal base correlacionadas con la proyección de los vectores de la base. Uno puede demostrar matemáticamente que en tal caso la suma de las varianzas de todas estas proyecciones será menos de la varianza total de la $\mathbf X$. Que sería igual si el peso vectores se ortogonal (como, por ejemplo, en PCA), pero en PLS este no es el caso.
No sé de ningún libro de texto o el papel que explícitamente se describe este problema, pero tengo explicada en el contexto de análisis discriminante lineal (LDA), que también produce una serie de correlacionadas proyecciones sobre la no-ortogonal peso de la unidad de vectores, ver aquí: Proporción de varianza explicada en el PCA y LDA.