4 votos

¿Cuáles son las unidades en este biplot de PCA?

Este es un gráfico de mis datos

enter image description here

Estos son los valores:

   xvalues  yvalues
1   1.091186
2   2.653722
3   3.309146
4   5.206479
5   5.115582
6   8.537005
7   10.013147
8   9.802291
9   10.667769
10  5.809750
11  9.624475
12  11.806013
13  13.587066
14  14.146781
15  13.707472
16  12.891355
17  19.435301
18  16.122108
19  17.768536
20  23.813027
21  21.819081
22  23.556074
23  21.170983
24  27.621148
25  22.932580
26  20.704689
27  25.530339
28  26.227371
29  26.051016
30  31.047145

Ahora hago un PCA y un biplot de él:

enter image description here

Según Jeromy Anglim in: Interpretación de biplots en el análisis de componentes principales en R

Los ejes izquierdo e inferior muestran las cargas; los ejes superior y derecho muestran las puntuaciones de los componentes principales.

Los ejes izquierdo e inferior muestran las puntuaciones de los componentes principales [normalizados]; los ejes superior y derecho muestran las cargas.

Quiero estar seguro de que realmente entiendo esto.

Empecemos con las cargas: éstas pueden ser visualizadas en R por escrito:

results <- prcomp(your_data)
results$rotation 

          PC1        PC2
xvalues   0.7235616  -0.6902599
yvalues   0.6902599   0.7235616

summary(results)

Importance of components:
                       PC1     PC2
Standard deviation     12.0747 1.56606
Proportion of Variance  0.9835 0.01654
Cumulative Proportion   0.9835 1.00000

Ahora veamos la flecha roja de los valores X. Su punta está alrededor de 0,25 en el eje x de las cargas. Pero de acuerdo con las cargas que acabo de escribir, debería estar alrededor de 0,72. ¿Qué me estoy perdiendo?

Finalmente, veamos el punto 1. Según los ejes, eso me dice la puntuación del componente principal. ¿Es esa la coordenada en el nuevo marco de referencia? No tiene sentido para mí porque creo que el nuevo origen de los ejes está alrededor del punto (15,15) en la Parcela 3. Si miro eso (y supongo que estoy completamente equivocado aquí), el punto uno debería tener una coordenada alrededor de -20 o así, y no 40. ¿Dónde está mi error?

Actualización

Traté de planear esto:

plot(pca_results$x)

enter image description here

Aquí se puede ver que el primer punto tiene la coordenada que pensé que debía tener. Pero, aún así, ¿cuáles son las unidades en el biplot entonces?

0 votos

Tu último párrafo es un poco místico porque parece que no se corresponde con tus imágenes. El biplot PCA se puede interpretar como el superponer gráfico de dispersión una superposición de dos gráficos de dispersión en los mismos ejes (los PC): gráfico de las puntuaciones de los datos y gráfico de las cargas de las variables. También puede echar un vistazo a aquí .

2 votos

En su primer biplot, la nube de datos es redonda a pesar de que, según sus datos, la PC1 debe ser mucho más fuerte que la PC2. Esto me hace pensar que las puntuaciones de PC en el biplot están estandarizadas (a st. dev. 1). Compruebe si esto es cierto. Los puntos de carga (flechas rojas) son probablemente cargas, como deberían. El results$rotation las cifras que presenta son claramente las valores del vector propio , no el cargas . Tenga en cuenta que el R El paquete PCA que utilizas utiliza mal la palabra "cargas", llamando incorrectamente "cargas" a los vectores propios.

0 votos

¿Cómo compruebo entonces las cargas?

5voto

Uri Puntos 111

He rehecho tu PCA en SPSS (no soy usuario de R). Era un PCA basado en covarianzas. Confirmo tu análisis.

Eigenvalues (component variances) and the proportion of overall variance explained
I    145.7983424      .9834567
II     2.4525573      .0165433

Eigenvectors (cosines of rotation of variables into components)
         I             II
X   .7235615578  -.6902598583
Y   .6902598583   .7235615578

Loadings (eigenvectors normalized to respective eigenvalues; loadings are the covariances between variables and components)
         I             II
X   8.736787614  -1.080991303
Y   8.334679634   1.133143904

Raw componenet scores (Centered XY data multiplied by eigenvectors)
         I             II
  -20.36311916    -.33895962
  -18.56100172     .10137150
  -17.38502729    -.11464875
  -15.35181292     .56792862
  -14.69099392    -.18810082
  -11.60576140    1.59724948
   -9.86327828    1.97506923
   -9.28526215    1.13224207
   -7.96429587    1.06820882
  -10.59402982   -3.13712683
   -7.23731673   -1.06719832
   -5.00792706    -.17898115
   -3.05497611     .41946048
   -1.94506575     .13418887
   -1.52474156    -.87393809
   -1.36451281   -2.15470883
    3.87607199    1.88997907
    2.31266941   -1.19757988
    4.17269413    -.69654773
    9.06852519    2.98675374
    8.41574586     .85375121
   10.33828396    1.42031271
    9.41551294    -.99570731
   14.59136448    2.98112427
   12.07859576   -1.10160316
   11.26433359   -3.40387930
   15.31884763    -.60248432
   16.52354240    -.78839862
   17.12537318   -1.60626218
   21.29756203    1.31848485

Las puntuaciones de los componentes que ha trazado como plot(pca_results$x) son estas puntuaciones brutas de los componentes impresas anteriormente.

Las puntuaciones de los componentes en su biplot son estas puntuaciones escaladas a suma de cuadrados=1 (la suma de cuadrados en cada una de las 2 columnas fue llevada a 1).

En cuanto a las cargas mostradas como flechas rojas en el biplot, son, sin duda, cargas reescaladas que imprimí anteriormente. Sin embargo, como no soy usuario de R, no puedo decir cómo se reescalaron exactamente. Pero supongo que están relacionados linealmente con las cargas reales que imprimí. Los biplots se pueden dibujar de múltiples maneras, con varias normalizaciones. No puedo saber cómo lo hace exactamente su función de R, y probablemente no es demasiado importante saberlo.

Otro ejemplo mío, aún más completo, es aquí . Son los resultados de los análisis PCA y LDA (discriminante lineal) de datos del iris .

1 votos

Según ¿Cuáles son los cuatro ejes del biplot PCA? En el biplot por defecto en R, los vectores propios se escalan por la desviación estándar respectiva (raíz cuadrada del valor propio respectivo) - esto resulta en cargas - y luego se escalan adicionalmente por la raíz cuadrada del número de observaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X