Sabemos que PLSR es una forma muy común de resolver la Multicolinealidad en la Regresión Lineal Múltiple. Pero, ¿sabe cómo funciona en detalle? ¿Y por qué Multicolinealidad de $x$ estará relacionada con la dimensión múltiple de $y$ ? Puedo encontrar fácilmente referencias sobre esta parte.
Respuesta
¿Demasiados anuncios?PLSR o regresión por mínimos cuadrados parciales es una técnica de reducción de dimensiones que comparte similitudes con el análisis de componentes principales.
En la regresión de componentes principales se busca obtener un conjunto de nuevas variables (los componentes principales) que maximicen la varianza de $X$ y que no están correlacionados entre sí.
En PLSR se busca obtener un conjunto de nuevas variables (los componentes PLS) que maximicen la covarianza entre $X$ y $y$ y que no están correlacionados entre sí.
En ambas técnicas, los nuevos componentes no están correlacionados. Esto significa que si en su conjunto de datos original se enfrentaba a un problema de multicolinealidad (es decir, tiene predictores en x que están muy correlacionados entre sí) al utilizar cualquiera de estas técnicas resolverá el problema, ya que sus componentes pasarán a estar no correlacionados.
EDITAR: Comentario de respuesta
Obsérvese que, en estas técnicas es habitual fijar un umbral en el número de componentes, de modo que se selecciona el primero $k$ componentes de un máximo total de $p$ en $p\geq k$
Dado que PCA maximiza la varianza de $X$ la primera $k$ componentes son las variables que mejor explican $X$ , pero puede ocurrir que, al intentar utilizar estas variables en la predicción de $y$ se obtienen malos resultados de predicción porque la información que se relaciona $X$ y $y$ queda en los componentes principales que no seleccionó.
Por otro lado, PLS maximiza la covarianza entre $X$ y $y$ . Esto significa que el primer $k$ Los componentes PLS son los que mejor explican la relación entre $X$ y $y$ . Y por esta razón, se espera que PLS proporcione buenos resultados predictivos.
En cuanto a su segunda pregunta, por qué la multicolinealidad de x estará relacionada con la dimensión múltiple de y
No sé si lo he entendido bien, pero intentaré darle una respuesta. En PLSR, como dices, tu variable de respuesta puede ser multidimensional, pero esto no tiene nada que ver con la multicolinealidad de X. Se dice que hay un problema de multicolinealidad si hay variables en x que están altamente correlacionadas entre ellas, independientemente de tener una y univariante o multivariante.