9 votos

¿Por qué la cantidad de varianza explicada por mi 1er PC tan cerca de los pares promedio de correlación?

¿Cuál es la relación entre el primer componente principal(s) y el promedio de la correlación de la matriz de correlación?

Por ejemplo, en una aplicación empírica puedo observar que el promedio de la correlación es casi la misma que la proporción de la varianza de la primera componente principal (primer autovalor) a la varianza total (suma de todos los autovalores).

Hay una relación matemática?

A continuación se presenta el cuadro de los resultados empíricos. Donde la correlación es el promedio de la correlación entre el índice bursátil DAX componente de rendimientos calculada de más de 15 días continuos de la ventana y la varianza explicada es la proporción de la varianza explicada por el primer componente principal, también se calculan más de los 15 días continuos de la ventana.

Este podría ser explicada por un factor de riesgo común modelo como el CAPM?

enter image description here

7voto

zowens Puntos 1417

Lo que creo que sucedió aquí es que todas las variables se correlacionaron positivamente con cada uno de los otros. En este caso, el 1º de PC muy a menudo resulta ser muy cercana a la media de todas las variables. Si todas las variables tienen una correlación positiva con exactamente el mismo coeficiente de correlación $c$, luego el 1 de PC es exactamente proporcional a la media de todas las variables, tal y como explico aquí: Puede un promedio de todas las variables que ser visto como una forma rudimentaria de PCA?

En este caso sencillo en el que realmente se puede derivar matemáticamente la relación que usted está preguntando acerca de. Considere la matriz de correlación de $n\times n$ tamaño de la que parece que: $$\left(\begin{array}{}1&c&c&c\\c&1&c&c\\c&c&1&c\\c&c&c&1\end{array} \right).$$ Its first eigenvector is equal to $(1,1,1,1)^\superior/\sqrt{n}$, which corresponds to the [scaled] average of all the variables. Its eigenvalue is $\lambda_1=1+(n-1)c$. The sum of all eigenvalues if of course given by the sum of all diagonal elements, i.e. $\sum \lambda_i=n$. So the proportion of explained variance by the first PC is equal to $$R^2=\frac{1}{n}+\frac{n-1}{n}c \approx c.$$

Así que, en este caso más simple, la proporción de varianza explicada por el primer PC es 100% de correlación con el promedio de la correlación, y para un gran $n$ es aproximadamente igual a él. Que es precisamente lo que vemos en su parcela.

Espero que para matrices grandes, este resultado será aproximadamente mantenga incluso si las correlaciones no son exactamente idénticos.


La actualización. El uso de la figura publicado en la pregunta, uno puede incluso tratar de estimar el $n$ al darse cuenta de que $n=(1-c)/(R^2-c)$. Si tomamos $c=0.5$$R^2-c=0.02$, entonces obtenemos $n=25$. El OP dijo que los datos fue un "DAX índice de la bolsa"; buscando en google, vemos que al parecer se compone de $30$ variables. No es un mal partido.

6voto

Uri Puntos 111

Creo que la relación entre la media de correlación y el valor propio de la 1ª PC existen, pero no es única. Yo no soy un matemático para ser capaz de deducir, pero por lo menos puedo mostrar el punto de partida donde la intuición o pensamiento puede crecer a partir de.

Si usted dibuja estandarizada de las variables como vectores en el espacio euclidiano que los asientos (y este es el reducido espacio donde los ejes son las observaciones), la correlación es el coseno entre dos vectores.

enter image description here

Y debido a que los vectores son todos los de la unidad de longitud (debido a la estandarización) los cosenos son las proyecciones de los vectores en cada uno de los otros (como se muestra en la imagen de la izquierda con tres variables). El 1 de PC es una línea en este espacio que maximiza la suma de los cuadrados de las proyecciones sobre la misma, de una's, llamado cargas; y esta suma es el 1 autovalor.

Así, al establecer la relación entre la media de las tres proyecciones de la izquierda con la suma (o media) de los tres cuadrados de proyecciones sobre la derecha, se puede responder a su pregunta acerca de la relación entre la media de correlación y el valor propio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X