40 votos

La teoría detrás de mínimos cuadrados parciales de regresión

¿Alguien puede recomendar una buena exposición de la teoría detrás de mínimos cuadrados parciales de regresión (disponible en línea) para alguien que entiende la enfermedad vesicular porcina y la PCA? He mirado en muchas fuentes en línea, y no he encontrado nada de lo que tenía derecho combinación de rigor y de accesibilidad.

He mirado en Los Elementos de Aprendizaje Estadístico, el cual fue sugerido en un comentario a una pregunta sobre Cruz Validado, Lo que es de mínimos cuadrados parciales (PLS) de regresión y cómo es diferente de OLS?, pero no creo que esta referencia que hace el tema de la justicia (es demasiado breve para hacerlo, y no proporcionan la teoría sobre el tema). Por lo que he leído, PLS explota combinaciones lineales de las variables predictoras, $z_i=X \varphi_i$ que maximizar la covarianza $ y^Tz_i $ sujeto a las restricciones $\|\varphi_i\|=1$ $z_i^Tz_j=0$ si $i \neq j$, donde el $\varphi_i$ son elegidos de forma iterativa, en el orden en que se maximice la covarianza. Pero incluso después de todo lo que he leído, todavía estoy seguro de si eso es cierto, y si es así, ¿cómo se ejecuta el método.

48voto

zowens Puntos 1417

La sección 3.5.2 en Los Elementos de Aprendizaje Estadístico es útil porque pone a los PLS de regresión en el contexto adecuado (de otros métodos de regularización), sino que es muy breve, y las hojas de algunas declaraciones importantes como los ejercicios. Además, sólo se considera que un caso de un univariado de la variable dependiente $\mathbf y$.

La literatura sobre el PLS es amplia, pero puede ser bastante confuso porque hay muchos "sabores" diferentes de los PLS: univariante versiones con una sola DV $\mathbf y$ y multivariante de las versiones con varios DVs $\mathbf Y$, simétrica versiones tratamiento de la $\mathbf X$ $\mathbf Y$ igual y asimétrica versiones ("regresión PLS") el tratamiento de la $\mathbf X$ como independiente y $\mathbf Y$ como variables dependientes, las versiones que permiten una solución global a través de la enfermedad vesicular porcina y las versiones que requieren iterativo de las deflaciones para producir cada par de PLS direcciones, etc. etc. PLS regresión (PLSR) con una sola variable dependiente es conocido como PLS1.

Todo esto ha sido desarrollado en el campo de la quimiometría y se queda un poco desconectado de la "corriente principal" de la estadística o de la máquina de aprendizaje de la literatura.

El documento general que me parece más útil (y que contiene muchas más referencias) es:

Para una mayor discusión teórica puedo recomendar:


Una breve explicación sobre los PLS de regresión univariante $y$ (PLS1)

El objetivo de la regresión para la estimación de $\beta$ en un modelo lineal $y=X\beta + \epsilon$. El OLS solución de $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ goza de muchas propiedades de optimalidad pero puede sufrir de sobreajuste. De hecho, OLS busca $\beta$ que se obtiene la más alta posible correlación con el $\mathbf y$. Si hay una gran cantidad de factores, entonces siempre es posible encontrar alguna combinación lineal que pasa a tener una alta correlación con el $\mathbf y$. Esta será una correlación espuria, y tal $\beta$, normalmente, en una dirección que explica muy poca variación en $\mathbf X$. Las direcciones se explica muy poca variación a menudo son muy "ruidoso" de direcciones. Si es así, entonces, aunque en los datos de entrenamiento OLS solución funciona muy bien, en los datos de las pruebas, el rendimiento será mucho peor.

Con el fin de evitar el sobreajuste, uno utiliza métodos de regularización que, en esencia, la fuerza de $\beta$ a un punto en las direcciones de la alta variación en $\mathbf X$ (esto también se llama la "contracción" de $\beta$; ver por Qué la contracción de trabajo?). Uno de estos métodos es el principal componente de la regresión (PCR) que simplemente descarta todos los bajos de la varianza en las direcciones. Otra (mejor) es el método de regresión contraída sin problemas penaliza a los bajos de la varianza en las direcciones. Otro método es PLS1.

PLS1 reemplaza el OLS meta de encontrar a $\beta$ que maximiza la correlación $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ con una alternativa meta de encontrar a $\beta$ con una longitud de $\|\beta\|=1$ la maximización de la covarianza $$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$$, que de nuevo efectivamente penaliza a las direcciones de baja varianza.

Encontrar ese $\beta$ (vamos a llamar a $\beta_1$) de los rendimientos de la primera componente PLS $\mathbf z_1 = \mathbf X \beta_1$. Uno puede seguir para el segundo (y en tercer lugar, etc.) PLS componente que tiene la más alta posible de la covarianza con $\mathbf y$ bajo la restricción de ser correlacionadas con todos los componentes anteriores. Esto tiene que ser resuelto de forma iterativa, ya que no hay forma cerrada de solución para todos los componentes (la dirección de la primera componente $\beta_1$ es simplemente dado por $\mathbf X^\top \mathbf y$ normalizado a la unidad de longitud). Cuando el número de componentes que se extrae, PLS regresión descarta el original predictores y utiliza componentes PLS como nuevos indicadores; esto produce una cierta combinación lineal de ellos $\beta_z$ que puede ser combinado con todos los $\beta_i$ a del formulario del final de la $\beta_\mathrm{PLS}$.

Tenga en cuenta que:

  1. Si todos los PLS componentes son utilizados, a continuación, PLS será equivalente a OLS. Por lo que el número de componentes sirve como un parámetro de regularización: cuanto menor sea el número, mayor es la regularización.
  2. Si los predictores $\mathbf X$ están correlacionadas y todos tienen la misma varianza, entonces sólo hay un componente PLS y es equivalente a la OPERACIÓN.
  3. Peso vectores $\beta_i$ $\beta_j$ $i\ne j$ no va a ser ortogonales, pero el rendimiento de componentes no correlacionados $\mathbf z_i=\mathbf X \beta_i$$\mathbf z_j=\mathbf X \beta_j$.

Todo lo que se dice, yo no soy consciente de ninguna de las ventajas prácticas de PLS1 de regresión sobre la cresta de regresión (mientras que el segundo tiene muchas ventajas: es continua y no discreta, tiene solución analítica, es mucho más estándar, permite que las extensiones del núcleo y fórmulas analíticas para dejar-uno-fuera de la cruz-los errores de validación, etc. etc.).


Citando a Frank & Friedman:

RR, PCR, y el PLS se puede ver en la Sección 3 para operar en una manera similar. Su principal objetivo es reducir la solución coeficiente de vector de distancia de la OLS solución hacia las direcciones en el predictor de la variable de espacio de muestra de mayor propagación. La PCR y los PLS ven a reducir en mayor medida de distancia a partir de la baja propagación de las direcciones de RR, que proporciona la óptima contracción (entre los estimadores lineales) para un equidirection antes. Así PCR y PLS hacer la suposición de que la verdad es probable que tenga particular preferencial alineaciones con la alta propagación de las direcciones de la predictor de la variable (muestra) de distribución. Un poco sorprendente resultado es que PLS (además) aumenta la probabilidad de masa en el verdadero coeficiente de vector de la alineación con el $K$th principal componente de dirección, donde $K$ es el número de componentes PLS usados, de hecho, la expansión de la OLS solución en esa dirección.

Ellos también llevan a cabo un extenso estudio de simulación y la conclusión (el énfasis es mío):

Para las situaciones contempladas en este estudio de simulación, se puede concluir que todos los de la sesgada métodos (RR, PCR, PLS, y VSS) proporcionar mejora sustancial en la OPERACIÓN. [...] En todas las situaciones, RR dominado todos los otros métodos estudiados. PLS, en general, casi tan bien como RR y, generalmente, superó a la de la PCR, pero no por mucho.


En los comentarios de @cbeleites (que trabaja en la quimiometría) sugiere dos posibles ventajas de la PLS sobre RR:

  1. Un analista puede tener un a priori adivinar cuántos latente componentes deben estar presentes en los datos; de esta forma, permiten establecer una regularización de la fuerza, sin hacer la validación cruzada (y puede que no haya suficientes datos para hacer una confiable CV). Un a priori de la elección de $\lambda$ podría ser más problemático en el RR.

  2. RR produce una única combinación lineal $\beta_\mathrm{RR}$ como una solución óptima. En contraste PLS, por ejemplo, con cinco componentes de los rendimientos de los cinco combinaciones lineales $\beta_i$ que luego se combinan para predecir $y$. Original de variables que están fuertemente inter-correlación son propensos a ser combinados en un solo componente PLS (debido a la combinación de ellos juntos incremento de la varianza explicada plazo). Así que podría ser posible para interpretar el individuo PLS componentes como algunos de los verdaderos factores latentes de conducción $y$. La demanda es que es más fácil de interpretar $\beta_1, \beta_2,$ etc., como contraposición a la articulación de $\beta_\mathrm{PLS}$. Comparar esto con la PCR, donde también se puede ver como una ventaja individual de componentes principales, potencialmente, puede ser interpretado y asignado algún significado cualitativo.

4voto

DJohnson Puntos 1347

Sí. Herman Wold del libro Teórico Empirismo: Un general fundamento científico en la construcción de modelos es la mejor exposición de PLS que soy consciente de que, especialmente dado que el Mundo es un creador de enfoque. Por no hablar de que es simplemente un libro interesante para leer y conocer. Además, basado en una búsqueda en Amazon, el número de referencias a libros en PLS escrito en alemán es sorprendente, pero puede ser que el subtítulo de Wold del libro es parte de la razón por la que.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X