13 votos

¿Por qué Daniel Wilks (2011) dicen que el principal componente de la regresión "estará sesgada"?

En los Métodos Estadísticos en las Ciencias de la atmósfera, Daniel Wilks observa que de regresión lineal múltiple puede llevar a problemas si no son muy fuertes las intercorrelaciones entre los predictores (3ª edición, página 559-560):

Una patología que puede ocurrir en la regresión lineal múltiple es que un conjunto de variables predictoras tener un fuerte intercambio de correlaciones puede resultar en el cálculo de un inestable de regresión de la relación.

(...)

Él, a continuación, introduce el componente principal de la regresión:

Un enfoque para remediar este problema es a la primera transformación de los predictores a sus componentes principales, las correlaciones entre los que son cero.

Hasta ahora tan bueno. Pero la próxima, hace algunas declaraciones de que él no explica (o al menos no en suficiente detalle como para que yo lo entienda):

Si todos los componentes principales son retenidos en un componente principal de la regresión, entonces nada es adquirida a través de los convencionales de ajuste de mínimos cuadrados para la plena predictor conjunto.

(..) y:

Es posible reexpresar el principal componente de la regresión en términos de la original predictores, pero el resultado en general de la participación de todos los originales de las variables predictoras, incluso si sólo uno o algunos de los componentes principales predictores han sido utilizados. Este reconstituido de regresión será sesgada, aunque a menudo la variación es mucho menor, lo que resulta en un menor MSE en general.

Yo no entiendo a estos dos puntos.

Por supuesto, si todos los componentes principales se conservan, podemos utilizar la misma información que cuando estábamos usando los predictores en su espacio original. Sin embargo, el problema de la mutua correlaciones es eliminado por los que trabajan en el principal componente de espacio. Aún podemos tener el sobreajuste, pero es que el único problema? ¿Por qué no gana?

En segundo lugar, incluso si hacemos truncar el de componentes principales (tal vez para la reducción de ruido y/o para evitar el sobreajuste), ¿por qué y cómo esto nos lleva a una sesgada reconstituido de regresión? Sesgada ¿de qué manera?


Libro fuente: Daniel S. Wilks, Métodos Estadísticos en las Ciencias de la atmósfera, Tercera edición, 2011. Internacional De Geofísica De La Serie De Volumen 100, Academic Press.

16voto

zowens Puntos 1417

¿Qué sucede cuando todos los equipos se utilizan?

Si todos los equipos se utilizan, entonces la resultante de los coeficientes de regresión serán idénticos a los obtenidos con la regresión por MCO, y por lo que este procedimiento no debería ser llamado "componente principal de la regresión". Que es el estándar de la regresión, sólo se realiza de una manera indirecta.

Usted está preguntando cómo es posible que no se gana nada, dado que después de la PCA de los predictores convertido ortogonal. El diablo se esconde en la parte de atrás-la transformación de los coeficientes de regresión de la PCA espacio para el espacio original. Lo que usted necesita saber es que la varianza de los coeficientes de regresión estimados inversamente depende de la matriz de covarianza de los predictores. El PCA-predictores transformados, vamos a llamarlos $Z$, han diagonal de la matriz de covarianza (porque son no correlacionados). Así que todos los coeficientes de regresión para $Z$ también están correlacionadas; y las correspondientes a la alta variación de los equipos de baja varianza (es decir, están estimado de forma fiable) y las correspondientes a la baja de la varianza de los equipos de alta varianza (es decir, se estima que un mal funcionamiento). Cuando estos coeficientes se han transformado a la original predictores $X$, cada uno de los predictores $X_i$ obtendrá una parte de las estimaciones poco fiables, y así todos los coeficientes puede ser poco fiable.

Así no se gana nada.

¿Qué sucede cuando sólo unos pocos PCs se utilizan?

Cuando no todos los equipos se encuentran retenidos en la PCR, entonces la solución resultante $\hat \beta_\mathrm{PCR}$ generalmente no será igual a la norma de mínimos cuadrados ordinarios solución de $\hat \beta_\mathrm{OLS}$. Es un resultado estándar que OLS solución es imparcial: ver Gauss-Markov teorema. "Imparcial" significa que $\hat \beta$ es correcta en promedio, aunque puede ser muy ruidoso. Desde PCR solución difiere de él, va a ser sesgada, lo que significa que será incorrecta en promedio. Sin embargo, a menudo sucede que es sustancialmente menos ruidosos, que conduce a la total predicciones más exactas.

Este es un ejemplo del sesgo de la varianza de trade-off. Ver ¿por Qué la contracción de trabajo? para más discusión general.

En los comentarios, @whuber señaló que la solución de PCR no ha de diferir de la OLS uno y por lo tanto no tienen que ser sesgada. En efecto, si la variable dependiente $y$ es correlacionadas (en la población, no de la muestra) con todos los bajos de la varianza en la Pc que no están incluidos en el PCR modelo, y luego dejar caer estos equipos no influyen en la unbiasedness. Esto, sin embargo, es poco probable que sea el caso en la práctica: PCA se lleva a cabo sin tomar $y$ en cuenta por lo que es lógico que $y$ tienden a ser un poco correlacionada con todos los PCs.

¿Por qué el uso de alta varianza en la Pc es en absoluto una buena idea?

Esto no era parte de la pregunta, pero usted puede estar interesado en el siguiente hilo para la lectura adicional: ¿Cómo puede la parte superior de componentes principales a retener el poder predictivo de la variable dependiente?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X