En los Métodos Estadísticos en las Ciencias de la atmósfera, Daniel Wilks observa que de regresión lineal múltiple puede llevar a problemas si no son muy fuertes las intercorrelaciones entre los predictores (3ª edición, página 559-560):
Una patología que puede ocurrir en la regresión lineal múltiple es que un conjunto de variables predictoras tener un fuerte intercambio de correlaciones puede resultar en el cálculo de un inestable de regresión de la relación.
(...)
Él, a continuación, introduce el componente principal de la regresión:
Un enfoque para remediar este problema es a la primera transformación de los predictores a sus componentes principales, las correlaciones entre los que son cero.
Hasta ahora tan bueno. Pero la próxima, hace algunas declaraciones de que él no explica (o al menos no en suficiente detalle como para que yo lo entienda):
Si todos los componentes principales son retenidos en un componente principal de la regresión, entonces nada es adquirida a través de los convencionales de ajuste de mínimos cuadrados para la plena predictor conjunto.
(..) y:
Es posible reexpresar el principal componente de la regresión en términos de la original predictores, pero el resultado en general de la participación de todos los originales de las variables predictoras, incluso si sólo uno o algunos de los componentes principales predictores han sido utilizados. Este reconstituido de regresión será sesgada, aunque a menudo la variación es mucho menor, lo que resulta en un menor MSE en general.
Yo no entiendo a estos dos puntos.
Por supuesto, si todos los componentes principales se conservan, podemos utilizar la misma información que cuando estábamos usando los predictores en su espacio original. Sin embargo, el problema de la mutua correlaciones es eliminado por los que trabajan en el principal componente de espacio. Aún podemos tener el sobreajuste, pero es que el único problema? ¿Por qué no gana?
En segundo lugar, incluso si hacemos truncar el de componentes principales (tal vez para la reducción de ruido y/o para evitar el sobreajuste), ¿por qué y cómo esto nos lleva a una sesgada reconstituido de regresión? Sesgada ¿de qué manera?
Libro fuente: Daniel S. Wilks, Métodos Estadísticos en las Ciencias de la atmósfera, Tercera edición, 2011. Internacional De Geofísica De La Serie De Volumen 100, Academic Press.