9 votos

Distribución estimada de los valores propios para i.i.d. datos (uniforme o normal)

Suponiendo que tengo un conjunto de datos con $d$ dimensiones (por ejemplo,$d=20$), de modo que cada dimensión se yo.yo.d. $X_i \sim U[0;1]$ (alternativamente, cada dimensión $X_i \sim \mathcal N[0;1]$) y los independientes el uno del otro.

Ahora puedo dibujar un objeto random de este conjunto de datos y tomar la $k=3\cdot d$ más cercana a los vecinos y calcular la PCA de este conjunto. En contraste a lo que uno podría esperar, los valores propios no son las mismas. En 20 dimensiones uniformes, un resultado típico se parece a esto:

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Para el normal de distribución de datos, los resultados parecen ser muy similares, al menos cuando reescalado a una suma total de $1$ ($\mathcal N[0;1]^d$distribución claramente tiene una mayor varianza en el primer lugar).

Me pregunto si hay algún resultado que predice este comportamiento? Estoy buscando una prueba de si la serie de valores propios es algo regular, y cómo muchos de los autovalores son como se esperaba y que difieren significativamente de los valores esperados.

Para un dado (pequeño) tamaño de la muestra $k$, hay un resultado si un coeficiente de correlación de dos variables es significativa? Incluso yo.yo.d. las variables tienen un no-0 resultado ocasionalmente para baja $k$.

7voto

BeauGeste Puntos 145

Hay una literatura grande en la distribución de los valores propios de matrices al azar (puedes googlear teoría de matriz al azar). En particular, la distribución de Marcenko-Pastur predice la distribución de los valores propios de la matriz de covarianza de $i.i.d.$ datos con media cero y varianza según el número de observaciones y variables hasta el infinito. Estrechamente relacionadas, es distribución de semicírculo de Wigner.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X