31 votos

¿Cómo pueden conservar mejores componentes principales el poder predictivo de una variable dependiente?

Supongamos que estoy ejecutando una regresión $Y \sim X$. Por qué mediante la selección de la parte superior $k$ componentes de un principio de $X$, ¿el modelo de conservar su poder predictivo en $Y$?

Entiendo que a partir de la dimensionalidad-reducción de la función de selección de punto de vista, si $v_1, v_2, ... v_k$ son los vectores propios de la matriz de covarianza de $X$ superior $k$ autovalores, a continuación, $Xv_1, Xv_2 ... Xv_k$ superior $k$ de componentes principales, con el máximo de desviaciones. Podemos reducir así el número de características a $k$ y retener la mayor parte de la capacidad de predicción, como yo lo entiendo.

Pero, ¿por qué la parte superior $k$ componentes de retener el poder predictivo en $Y$?

Si hablamos de un general OLS $Y \sim Z$, no hay ninguna razón para pensar que si cuentan $Z_i$ tiene la máxima varianza, $Z_i$ tiene el mayor poder predictivo en $Y$.

Actualización después de ver los comentarios: creo que he visto un montón de ejemplos de uso de PCA para la reducción de dimensionalidad. He estado asumiendo que significa que las dimensiones que nos queda tener el mayor poder predictivo. De lo contrario, ¿cuál es el punto de reducción de dimensionalidad?

47voto

zowens Puntos 1417

De hecho, no hay ninguna garantía de que la parte superior de componentes principales (Pc) tienen más poder predictivo de los pequeños.

En el mundo Real se pueden encontrar ejemplos donde este no es el caso, y es fácil construir una artificial ejemplo que, por ejemplo, sólo el más pequeño de PC tiene ninguna relación con la $y$ a todos.

Este tema fue discutido mucho en nuestro foro, y en el (desafortunado) la ausencia de una clara canónica hilo, solo puedo dar varios enlaces que ofrecen diversas de la vida real así como artificial ejemplos:

Y el mismo tema, pero en el contexto de la clasificación:

Sin embargo, sería engañoso a parar aquí, sin añadir el siguiente. En situaciones con un montón de predictores $p$, y relativamente pocos puntos de datos $n$ (por ejemplo, cuando se $p \approx n$$p>n$), la regresión lineal se overfit y debe ser regularizada. Los componentes principales de la regresión (PCR) puede ser visto como una forma de regularizar la regresión y se tiende a dar resultados superiores. Por otra parte, está estrechamente vinculado a la cresta de la regresión, que es una forma estándar de regularización (basado en la contracción). Mientras que el uso de regresión ridge es generalmente una mejor idea, la PCR se suelen comportarse razonablemente bien.

En cierto modo, se puede decir que tanto la regresión ridge y PCR asumir que la mayoría de la información acerca de $y$ está contenida en los grandes equipos de $X$, y esta suposición es a menudo justificada.

Consulte la posterior respuesta por @cbeleites (+1) para una discusión sobre por qué esta suposición es a menudo justificada (y también de este nuevo hilo: Es la reducción de dimensionalidad casi siempre es útil para la clasificación? para algunos comentarios adicionales).

Hastie et al. en Los Elementos de Aprendizaje Estadístico (sección 3.4.1) comentario sobre esto en el contexto de la regresión ridge:

[T]él los pequeños valores singulares [...] corresponden a las direcciones en el espacio columna de a $\mathbf X$ con pequeña variación, y la cresta de regresión se encoge de estas direcciones de la mayoría. [...] Ridge regresión protege contra el riesgo de los altos de varianza de los gradientes estima que en el corto direcciones. La suposición implícita es que la respuesta se tienden a variar más en las direcciones de la varianza alta de las entradas. A menudo, esta es una suposición razonable, ya que los predictores son a menudo elegido para estudiar porque varían con la variable de respuesta, pero no necesita tener en general.

Ver mis respuestas en los siguientes subprocesos para más detalles:

15voto

cbeleites Puntos 12461

Además de las respuestas que ya se centran en las propiedades matemáticas, me gustaría comentar desde un punto de vista experimental.

Resumen: la generación de datos de los procesos se han optimizado de una manera que hace que los datos sean adecuados para los componentes principales (PCR) o mínimos cuadrados parciales (PLS) de regresión.


Soy químico analítico. Cuando me diseñar un experimento/método para medir (regresión o clasificación) de algo, yo uso mis conocimientos sobre la aplicación y los instrumentos disponibles para obtener datos que lleva una buena relación señal a ruido con respecto a la tarea a mano. Eso significa que, de los datos que generan está diseñado para tener grandes covarianza con la propiedad de interés.
Esto conduce a una variación de la estructura donde el interesante la varianza es grande, y más tarde el Pc va a llevar a la (pequeña) solo ruido.

También me gustaría prefieren los métodos que producen redundante la información acerca de la tarea a la mano, con el fin de tener más robusto o resultados más precisos. PCA se concentra redundante canales de medición a un PC, que a su vez lleva parte de la varianza y es por lo tanto uno de los primeros Ordenadores personales.

Si se conocen los factores de confusión que llevará a la gran variación que no se correlaciona con la propiedad de interés, te suelen tratar de corregir estos tanto como sea posible durante el preprocesamiento de los datos: en muchos casos, estos factores de confusión son de una conocida de la física o la química de la naturaleza, y este conocimiento se sugiere maneras apropiadas para corregir los factores de confusión. E. g. Yo medida de espectros Raman bajo el microscopio. Su intensidad depende de la intensidad de la luz del láser, así como en lo bien que me puede enfocar el microscopio. Ambos conducen a cambios que pueden ser corregidos por la normalización por ejemplo, para una señal de que es conocido por ser constante.
Por lo tanto, los grandes contribuyentes de la varianza, que no contribuye a la solución pueden haber sido eliminados antes de que los datos entra en PCA, dejando en su mayoría significativa de la varianza en los primeros PCs.


Por último, pero no menos importante, hay un poco de una profecía autocumplida aquí: Obviamente PCR se realiza con los datos de donde la suposición de que la información de la realización de la varianza es grande, tiene sentido. Si, por ejemplo, creo que no podrían ser importantes factores de confusión que no sé cómo corregir, me gustaría ir inmediatamente para PLS que es mejor ignorar las grandes contribuciones que no ayudan con la tarea de predicción.

6voto

Jack Puntos 18

La PCA es a veces utilizado para corregir problemas causados por colineales variables de modo que la mayoría de la variación en X espacio es capturado por las K componentes principales.

Pero este problema matemático es, por supuesto, no es la misma que la captura de la mayor parte de la variación, tanto en el espacio (X, Y de tal manera que inexplicable variación es tan pequeña como sea posible.

Mínimos cuadrados parciales intenta hacer esto, en el último sentido:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

3voto

Valentin Kantor Puntos 176

Como otro ha señalado, existe un vínculo directo entre superior k autovectores y el poder predictivo. La parte superior y utilizando como base, está reteniendo energía superior (alguna variación a lo largo de las eje).

Puede ser que el eje que explica la varianza de la mayoría son realmente útiles para la predicción pero en general no es el caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X