133 votos

PCA y proporción de varianza explicada

En general, lo que se quiere decir es que la fracción $x$ de la varianza en un análisis como el PCA se explica por el primer componente principal? ¿Puede alguien explicar esto de forma intuitiva pero también dar una definición matemática precisa de lo que significa "varianza explicada" en términos de análisis de componentes principales (ACP)?

En el caso de la regresión lineal simple, el r-cuadrado de la línea de mejor ajuste siempre se describe como la proporción de la varianza explicada, pero tampoco estoy seguro de qué hacer con eso. ¿Es la proporción de la varianza aquí sólo la extensión de la desviación de los puntos de la línea de mejor ajuste?

0 votos

165voto

Uri Puntos 111

En el caso de PCA, "varianza" significa varianza sumativa o variabilidad multivariante o variabilidad global o variabilidad total . A continuación se muestra la matriz de covarianza de unas 3 variables. Sus varianzas están en la diagonal, y la suma de los 3 valores (3,448) es la variabilidad global.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Ahora, el ACP sustituye las variables originales por nuevas variables, llamadas componentes principales, que son ortogonales (es decir, tienen covariación cero) y tienen varianzas (llamadas valores propios) en orden decreciente. Así, la matriz de covarianza entre los componentes principales extraídos de los datos anteriores es esta

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Obsérvese que la suma diagonal sigue siendo 3,448, lo que indica que los 3 componentes explican toda la variabilidad multivariante. El primer componente principal representa o "explica" 1,651/3,448 = 47,9% de la variabilidad global; el segundo explica 1,220/3,448 = 35,4% de la misma; el tercero explica 0,577/3,448 = 16,7% de la misma.

Entonces, ¿qué quieren decir cuando afirman que " El PCA maximiza la varianza " o " El PCA explica la máxima varianza "? Esto no es, por supuesto, que encuentre la mayor varianza entre tres valores 1.343730519 .619205620 1.485549631 , no. PCA encuentra, en el espacio de datos, el dimensión (dirección) con la mayor varianza del conjunto desviación 1.343730519+.619205620+1.485549631 = 3.448 . Esa mayor variación sería 1.651354285 . A continuación, encuentra la dimensión de la segunda mayor varianza, ortogonal a la primera, de entre las restantes 3.448-1.651354285 la varianza global. Esa 2ª dimensión sería 1.220288343 de la varianza. Y así sucesivamente. La última dimensión que queda es .576843142 de la variante. Ver también "Pt3" aquí y el gran responder aquí explicando cómo se hace con más detalle.

Matemáticamente, el PCA se realiza a través de funciones de álgebra lineal llamadas eigen-descomposición o svd-descomposición. Estas funciones le devolverán todos los valores propios 1.651354285 1.220288343 .576843142 (y los correspondientes vectores propios) a la vez ( véase , véase ).

1 votos

¿Qué quiere decir con: "Obsérvese que la suma diagonal sigue siendo 3,448, lo que indica que los 3 componentes explican toda la variabilidad multivariante" y ¿cuál es la diferencia entre su método y la PdV (proporción de variación)?

3 votos

No sugiero ningún "método". Sólo expliqué que todas las PCs explican la misma cantidad total de variabilidad que las variables originales.

0 votos

¿Puede comprobar mi pregunta? stats.stackexchange.com/questions/44464/

12voto

Sean Hanley Puntos 2428

@ttnphns ha dado una buena respuesta, tal vez pueda añadir algunos puntos. En primer lugar, quiero señalar que había una pregunta en el currículum, con un responder -seguro que quieres comprobarlo. En lo que sigue, me referiré a los gráficos mostrados en esa respuesta.

Los tres gráficos muestran los mismos datos. Obsérvese que hay variabilidad en los datos tanto vertical como horizontalmente, pero podemos pensar que la mayor parte de la variabilidad es en realidad diagonal . En el tercer gráfico, esa larga línea diagonal negra es la primera vector propio (o el primer componente principal), y la longitud de ese componente principal (la dispersión de los datos a lo largo de esa línea, no la longitud de la línea en sí, que sólo se dibuja en el gráfico) es el primer valor propio --es la cantidad de varianza explicada por el primer componente principal. Si sumáramos esa longitud con la longitud del segundo componente principal (que es la anchura de la dispersión de los datos ortogonalmente desde esa línea diagonal), y luego dividiéramos cualquiera de los valores propios por ese total, obtendríamos el por ciento de la varianza explicada por el componente principal correspondiente.

Por otro lado, para entender el porcentaje de la varianza que se explica en la regresión, se puede observar el gráfico superior. En ese caso, la línea roja es la línea de regresión, o el conjunto de los valores predichos del modelo. La varianza explicada puede entenderse como la relación entre la dispersión vertical de la línea de regresión (es decir, desde el punto más bajo de la línea hasta el punto más alto de la línea) y la dispersión vertical de los datos (es decir, desde el punto de datos más bajo hasta el punto de datos más alto). Por supuesto, eso es sólo una idea suelta, porque literalmente esos son rangos, no varianzas, pero eso debería ayudarte a entender el punto.

Asegúrese de leer la pregunta. Y, aunque me he referido a la respuesta principal, varias de las respuestas dadas son excelentes. Merece la pena leerlas todas.

6voto

Peter Westfall Puntos 11

Hay una respuesta matemática muy sencilla, directa y precisa a la pregunta original.

El primer PC es una combinación lineal de las variables originales $Y_1$ , $Y_2$ , $\dots$ , $Y_p$ que maximiza el total de los $R_i^2$ estadísticas al predecir las variables originales como función de regresión de la combinación lineal.

Precisamente, los coeficientes $a_1$ , $a_2$ , $\dots$ , $a_p$ en el primer PC, $PC_1 = a_1Y_1 + a_2Y_2 + \cdots + a_pY_p$ , le dan el valor máximo de $\sum_{i=1}^p R_i^2(Y_i | PC_1)$ donde el máximo se toma sobre todas las combinaciones lineales posibles.

En este sentido, se puede interpretar el primer PC como un maximizador de la "varianza explicada", o más exactamente, un maximizador de la "varianza total explicada".

Es "un" maximizador y no "el" maximizador, porque cualquier coeficiente proporcional $b_i = c\times a_i$ , para $c \neq 0$ , dará el mismo máximo. Un buen subproducto de este resultado es que la restricción de longitud unitaria es innecesaria, salvo como dispositivo para llegar a "un" maximizador.

Para las referencias a la literatura original y las extensiones, véase

Westfall,P.H., Arias, A.L., y Fulton, L.V. (2017). Teaching Principal Components Using Correlations, Multivariate Behavioral Research, 52, 648-660.

2voto

user13453 Puntos 16

Piensa en $Y=A+B$ como variable aleatoria $Y$ siendo explicado por dos nuevas variables aleatorias $A$ y $B$ . ¿por qué hacemos esto? Quizás $Y$ es complejo pero $A$ y $B$ son menos complejos. En cualquier caso, la parte de la varianza de $Y$ se explica por los de $A$ y $B$ . $var(Y) = var(A) + var (B) + 2cov(A,B)$ . La aplicación de esto a la regresión lineal es sencilla. Piense en $A$ ser $b_0+b_1X$ y $B$ es $e$ entonces $Y=b_0+b_1X+e$ . Porción de la varianza en $Y$ se explica por la línea de regresión, $b_0+b_1X$ .

Utilizamos "proporción de variación" término porque queremos cuantificar la utilidad de la línea de regresión para predecir (o modelar) $Y$ .

0 votos

Debería comprobar su fórmula para la varianza de Y: no es correcta. Sin embargo, lo más importante es que el intento de explicación de la regresión no caracteriza correctamente el ACP ni las formas en que la gente piensa en él y lo utiliza.

1 votos

Ty, corregido el error en la fórmula. Mi respuesta es para la segunda parte de la pregunta sobre la proporción de la varianza explicada por la línea de regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X