Suponiendo que tengo un conjunto de datos con $d$ dimensiones (por ejemplo,$d=20$), de modo que cada dimensión se yo.yo.d. $X_i \sim U[0;1]$ (alternativamente, cada dimensión $X_i \sim \mathcal N[0;1]$) y los independientes el uno del otro.
Ahora puedo dibujar un objeto random de este conjunto de datos y tomar la $k=3\cdot d$ más cercana a los vecinos y calcular la PCA de este conjunto. En contraste a lo que uno podría esperar, los valores propios no son las mismas. En 20 dimensiones uniformes, un resultado típico se parece a esto:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Para el normal de distribución de datos, los resultados parecen ser muy similares, al menos cuando reescalado a una suma total de $1$ ($\mathcal N[0;1]^d$distribución claramente tiene una mayor varianza en el primer lugar).
Me pregunto si hay algún resultado que predice este comportamiento? Estoy buscando una prueba de si la serie de valores propios es algo regular, y cómo muchos de los autovalores son como se esperaba y que difieren significativamente de los valores esperados.
Para un dado (pequeño) tamaño de la muestra $k$, hay un resultado si un coeficiente de correlación de dos variables es significativa? Incluso yo.yo.d. las variables tienen un no-0 resultado ocasionalmente para baja $k$.