La sección 3.5.2 en Los Elementos de Aprendizaje Estadístico es útil porque pone a los PLS de regresión en el contexto adecuado (de otros métodos de regularización), sino que es muy breve, y las hojas de algunas declaraciones importantes como los ejercicios. Además, sólo se considera que un caso de un univariado de la variable dependiente $\mathbf y$.
La literatura sobre el PLS es amplia, pero puede ser bastante confuso porque hay muchos "sabores" diferentes de los PLS: univariante versiones con una sola DV $\mathbf y$ y multivariante de las versiones con varios DVs $\mathbf Y$, simétrica versiones tratamiento de la $\mathbf X$ $\mathbf Y$ igual y asimétrica versiones ("regresión PLS") el tratamiento de la $\mathbf X$ como independiente y $\mathbf Y$ como variables dependientes, las versiones que permiten una solución global a través de la enfermedad vesicular porcina y las versiones que requieren iterativo de las deflaciones para producir cada par de PLS direcciones, etc. etc. PLS regresión (PLSR) con una sola variable dependiente es conocido como PLS1.
Todo esto ha sido desarrollado en el campo de la quimiometría y se queda un poco desconectado de la "corriente principal" de la estadística o de la máquina de aprendizaje de la literatura.
El documento general que me parece más útil (y que contiene muchas más referencias) es:
Para una mayor discusión teórica puedo recomendar:
Una breve explicación sobre los PLS de regresión univariante $y$ (PLS1)
El objetivo de la regresión para la estimación de $\beta$ en un modelo lineal $y=X\beta + \epsilon$. El OLS solución de $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ goza de muchas propiedades de optimalidad pero puede sufrir de sobreajuste. De hecho, OLS busca $\beta$ que se obtiene la más alta posible correlación con el $\mathbf y$. Si hay una gran cantidad de factores, entonces siempre es posible encontrar alguna combinación lineal que pasa a tener una alta correlación con el $\mathbf y$. Esta será una correlación espuria, y tal $\beta$, normalmente, en una dirección que explica muy poca variación en $\mathbf X$. Las direcciones se explica muy poca variación a menudo son muy "ruidoso" de direcciones. Si es así, entonces, aunque en los datos de entrenamiento OLS solución funciona muy bien, en los datos de las pruebas, el rendimiento será mucho peor.
Con el fin de evitar el sobreajuste, uno utiliza métodos de regularización que, en esencia, la fuerza de $\beta$ a un punto en las direcciones de la alta variación en $\mathbf X$ (esto también se llama la "contracción" de $\beta$; ver por Qué la contracción de trabajo?). Uno de estos métodos es el principal componente de la regresión (PCR) que simplemente descarta todos los bajos de la varianza en las direcciones. Otra (mejor) es el método de regresión contraída sin problemas penaliza a los bajos de la varianza en las direcciones. Otro método es PLS1.
PLS1 reemplaza el OLS meta de encontrar a $\beta$ que maximiza la correlación $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ con una alternativa meta de encontrar a $\beta$ con una longitud de $\|\beta\|=1$ la maximización de la covarianza $$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$$, que de nuevo efectivamente penaliza a las direcciones de baja varianza.
Encontrar ese $\beta$ (vamos a llamar a $\beta_1$) de los rendimientos de la primera componente PLS $\mathbf z_1 = \mathbf X \beta_1$. Uno puede seguir para el segundo (y en tercer lugar, etc.) PLS componente que tiene la más alta posible de la covarianza con $\mathbf y$ bajo la restricción de ser correlacionadas con todos los componentes anteriores. Esto tiene que ser resuelto de forma iterativa, ya que no hay forma cerrada de solución para todos los componentes (la dirección de la primera componente $\beta_1$ es simplemente dado por $\mathbf X^\top \mathbf y$ normalizado a la unidad de longitud). Cuando el número de componentes que se extrae, PLS regresión descarta el original predictores y utiliza componentes PLS como nuevos indicadores; esto produce una cierta combinación lineal de ellos $\beta_z$ que puede ser combinado con todos los $\beta_i$ a del formulario del final de la $\beta_\mathrm{PLS}$.
Tenga en cuenta que:
- Si todos los PLS componentes son utilizados, a continuación, PLS será equivalente a OLS. Por lo que el número de componentes sirve como un parámetro de regularización: cuanto menor sea el número, mayor es la regularización.
- Si los predictores $\mathbf X$ están correlacionadas y todos tienen la misma varianza, entonces sólo hay un componente PLS y es equivalente a la OPERACIÓN.
- Peso vectores $\beta_i$ $\beta_j$ $i\ne j$ no va a ser ortogonales, pero el rendimiento de componentes no correlacionados $\mathbf z_i=\mathbf X \beta_i$$\mathbf z_j=\mathbf X \beta_j$.
Todo lo que se dice, yo no soy consciente de ninguna de las ventajas prácticas de PLS1 de regresión sobre la cresta de regresión (mientras que el segundo tiene muchas ventajas: es continua y no discreta, tiene solución analítica, es mucho más estándar, permite que las extensiones del núcleo y fórmulas analíticas para dejar-uno-fuera de la cruz-los errores de validación, etc. etc.).
Citando a Frank & Friedman:
RR, PCR, y el PLS se puede ver en la Sección 3 para operar en una manera similar. Su principal objetivo es reducir la solución coeficiente de vector de distancia de la OLS solución hacia las direcciones en el predictor de la variable de espacio de
muestra de mayor propagación. La PCR y los PLS ven a reducir en mayor medida de distancia
a partir de la baja propagación de las direcciones de RR, que proporciona la óptima contracción (entre los estimadores lineales) para un equidirection antes. Así
PCR y PLS hacer la suposición de que la verdad es probable que tenga particular preferencial alineaciones con la alta propagación de las direcciones de la
predictor de la variable (muestra) de distribución. Un poco sorprendente resultado
es que PLS (además) aumenta la probabilidad de masa en el verdadero
coeficiente de vector de la alineación con el $K$th principal componente de dirección,
donde $K$ es el número de componentes PLS usados, de hecho, la expansión de la
OLS solución en esa dirección.
Ellos también llevan a cabo un extenso estudio de simulación y la conclusión (el énfasis es mío):
Para las situaciones contempladas en este estudio de simulación, se puede concluir
que todos los de la sesgada métodos (RR, PCR, PLS, y VSS) proporcionar
mejora sustancial en la OPERACIÓN. [...] En todas las situaciones, RR dominado
todos los otros métodos estudiados. PLS, en general, casi tan bien como RR
y, generalmente, superó a la de la PCR, pero no por mucho.
En los comentarios de @cbeleites (que trabaja en la quimiometría) sugiere dos posibles ventajas de la PLS sobre RR:
Un analista puede tener un a priori adivinar cuántos latente componentes deben estar presentes en los datos; de esta forma, permiten establecer una regularización de la fuerza, sin hacer la validación cruzada (y puede que no haya suficientes datos para hacer una confiable CV). Un a priori de la elección de $\lambda$ podría ser más problemático en el RR.
RR produce una única combinación lineal $\beta_\mathrm{RR}$ como una solución óptima. En contraste PLS, por ejemplo, con cinco componentes de los rendimientos de los cinco combinaciones lineales $\beta_i$ que luego se combinan para predecir $y$. Original de variables que están fuertemente inter-correlación son propensos a ser combinados en un solo componente PLS (debido a la combinación de ellos juntos incremento de la varianza explicada plazo). Así que podría ser posible para interpretar el individuo PLS componentes como algunos de los verdaderos factores latentes de conducción $y$. La demanda es que es más fácil de interpretar $\beta_1, \beta_2,$ etc., como contraposición a la articulación de $\beta_\mathrm{PLS}$. Comparar esto con la PCR, donde también se puede ver como una ventaja individual de componentes principales, potencialmente, puede ser interpretado y asignado algún significado cualitativo.