133 votos

PCA y proporción de varianza explicada

En general, ¿qué se entiende al decir que la fracción $x$ de la varianza en un análisis como PCA está explicada por el primer componente principal? ¿Alguien puede explicar esto de manera intuitiva pero también dar una definición matemática precisa de lo que significa "varianza explicada" en términos de análisis de componentes principales (PCA)?

Para la regresión lineal simple, el coeficiente de determinación de la línea de mejor ajuste siempre se describe como la proporción de la varianza explicada, pero tampoco estoy seguro de qué significa eso. ¿Es la proporción de varianza aquí simplemente la extensión de la desviación de los puntos de la línea de mejor ajuste?

0 votos

165voto

Uri Puntos 111

En caso de PCA, "varianza" significa varianza sumativa o variabilidad multivariada o variabilidad global o variabilidad total. A continuación se muestra la matriz de covarianza de algunas 3 variables. Sus varianzas están en la diagonal, y la suma de los 3 valores (3.448) es la variabilidad total.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Ahora, PCA reemplaza las variables originales con nuevas variables, llamadas componentes principales, que son ortogonales (es decir, no tienen covariaciones) y tienen varianzas (llamadas autovalores) en orden decreciente. Entonces, la matriz de covarianza entre los componentes principales extraídos de los datos anteriores es esta:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Se observa que la suma diagonal sigue siendo 3.448, lo que indica que los 3 componentes explican toda la variabilidad multivariada. El 1er componente principal explica o "explica" el 47.9% de la variabilidad total; el segundo explica el 35.4% de ella; el tercero explica el 16.7% de ella.

Entonces, ¿qué significa cuando dicen que "PCA maximiza la varianza" o "PCA explica la máxima varianza"? Eso no significa, por supuesto, que encuentre la mayor varianza entre tres valores 1.343730519 .619205620 1.485549631, no. PCA encuentra, en el espacio de datos, la dimensión (dirección) con la mayor varianza fuera de la varianza total 1.343730519+.619205620+1.485549631 = 3.448. Esa mayor varianza sería 1.651354285. Luego encuentra la dimensión de la segunda mayor varianza, ortogonal a la primera, fuera de la varianza total restante 3.448-1.651354285. Esa segunda dimensión sería la varianza 1.220288343. Y así sucesivamente. La última dimensión restante es la varianza .576843142. Vea también "Pt3" aquí y la excelente respuesta aquí explicando cómo se hace en más detalle.

Matemáticamente, PCA se realiza a través de funciones de álgebra lineal llamadas eigen-decomposition o svd-decomposition. Estas funciones te devolverán todos los autovalores 1.651354285 1.220288343 .576843142 (y los correspondientes eigenvectores) de una vez (ver, ver).

1 votos

¿Qué quieres decir con: "Ten en cuenta que la suma diagonal sigue siendo 3.448, lo que indica que los 3 componentes representan toda la variabilidad multivariable" y cuál es la diferencia entre tu método y PoV (Proporción de variación)?

3 votos

No sugiero ningún "método". Simplemente expliqué que todos los PCs representan la misma cantidad total de variabilidad que hacen las variables originales.

0 votos

¿Puedes revisar mi pregunta: stats.stackexchange.com/questions/44464/…

12voto

Sean Hanley Puntos 2428

@ttnphns ha proporcionado una buena respuesta, quizás pueda agregar algunos puntos. Primero, quiero señalar que hubo una pregunta relevante en CV, con una respuesta muy sólida; definitivamente debes revisarla. En lo que sigue, me referiré a los gráficos mostrados en esa respuesta.

Los tres gráficos muestran los mismos datos. Observa que hay variabilidad en los datos tanto vertical como horizontalmente, pero podemos pensar que la mayor parte de la variabilidad es en realidad diagonal. En el tercer gráfico, esa larga línea negra diagonal es el primer vector propio (o el primer componente principal), y la longitud de ese componente principal (la dispersión de los datos a lo largo de esa línea, no la longitud de la línea en sí misma, que solo está dibujada en el gráfico) es el primer valor propio: es la cantidad de varianza explicada por el primer componente principal. Si sumaras esa longitud con la longitud del segundo componente principal (que es el ancho de la dispersión de los datos ortogonalmente desde esa línea diagonal) y luego dividieras cualquiera de los valores propios por ese total, obtendrías el porcentaje de la varianza explicada por el correspondiente componente principal.

Por otro lado, para entender el porcentaje de la varianza explicada en regresión, puedes mirar el gráfico superior. En ese caso, la línea roja es la línea de regresión, o el conjunto de los valores predichos por el modelo. La varianza explicada puede entenderse como la relación entre la dispersión vertical de la línea de regresión (es decir, desde el punto más bajo de la línea hasta el punto más alto de la línea) y la dispersión vertical de los datos (es decir, desde el punto de datos más bajo hasta el punto de datos más alto). Por supuesto, esa es solo una idea aproximada, porque literalmente son rangos, no varianzas, pero eso debería ayudarte a entender el punto.

Asegúrate de leer la pregunta. Y, aunque me referí a la respuesta principal, varias de las respuestas dadas son excelentes. Vale la pena tu tiempo leerlas todas.

6voto

Peter Westfall Puntos 11

Hay una respuesta matemática muy simple, directa y precisa a la pregunta original.

La primera componente principal es una combinación lineal de las variables originales $Y_1$, $Y_2$, $\dots$, $Y_p$ que maximiza el total de las estadísticas $R_i^2$ al predecir las variables originales como una función de regresión de la combinación lineal.

Concretamente, los coeficientes $a_1$, $a_2$, $\dots$, $a_p$ en la primera componente principal, $PC_1 = a_1Y_1 + a_2Y_2 + \cdots + a_pY_p$, te dan el valor máximo de $\sum_{i=1}^p R_i^2(Y_i | PC_1)$, donde el máximo se toma sobre todas las posibles combinaciones lineales.

En este sentido, puedes interpretar la primera componente principal como un maximizador de "varianza explicada", o más precisamente, un maximizador de "varianza total explicada".

Es "un" maximizador en lugar de "el" maximizador, porque cualquier coeficiente proporcional $b_i = c\times a_i$, para $c \neq 0$, darán el mismo máximo. Un buen producto secundario de este resultado es que la restricción de longitud unitaria es innecesaria, aparte de ser un dispositivo para obtener "un" maximizador.

Para referencias a la literatura original y extensiones, ver

Westfall,P.H., Arias, A.L., y Fulton, L.V. (2017). Enseñanza de Componentes Principales Utilizando Correlaciones, Investigación Conductual Multivariada, 52, 648-660.

2voto

user13453 Puntos 16

Piensa en $Y=A+B$ como la variable aleatoria $Y$ siendo explicada por dos nuevas variables aleatorias $A$ y $B$. ¿Por qué hacemos esto? Tal vez $Y$ sea complejo pero $A$ y $B$ son menos complejos. De todas formas, la porción de varianza de $Y$ se explica por la de $A$ y $B$. $var(Y) = var(A) + var(B) + 2cov(A,B)$. La aplicación de esto a la regresión lineal es simple. Piensa en $A$ como $b_0+b_1X$ y $B$ como $e$, entonces $Y=b_0+b_1X+e$. La porción de varianza en $Y$ se explica por la línea de regresión, $b_0+b_1X$.

Usamos el término "proporción de varianza" porque queremos cuantificar cuánto útil es la línea de regresión para predecir (o modelar) $Y$.

0 votos

Deberías revisar tu fórmula para la varianza de Y: no es correcta. Aún más importante, el intento de explicar la regresión no caracteriza correctamente el ACP ni las formas en que las personas lo entienden y lo utilizan.

1 votos

Gracias, corregí el error en la fórmula. Mi respuesta es para la segunda parte de la pregunta sobre la proporción de la varianza explicada por la línea de regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X