93 votos

¿Cuáles son los componentes principales de los exámenes?

¿Cuáles son los componentes principales de los exámenes?

(Esta pregunta se origina a partir de mi intento de entender la pregunta aquí.)

78voto

MattH Puntos 746

En primer lugar, vamos a definir una puntuación.

John, Mike y Kate obtener los siguientes porcentajes para los exámenes en Matemáticas, Ciencias, inglés y Música de la siguiente manera:

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

En este caso hay 12 puntuaciones en total. Cada puntuación representa el examen de los resultados para cada persona en un tema en particular. Por lo que una puntuación en este caso es simplemente una representación de donde una fila y una columna se cruzan.

Ahora vamos a definir de manera informal un Componente Principal.

En la tabla anterior, se puede graficar los datos en un gráfico 2D? No, porque hay cuatro temas (que significa " cuatro variables: Matemáticas, Ciencias, inglés y Música), es decir:

  • Usted podría parcela a dos sujetos en el exacto la misma manera que lo haría con $x$ y $y$ coordenadas en un gráfico 2D.
  • Usted podría incluso parcela de tres materias en la misma forma que se haría con parcela de $x$, $y$ y $z$ en una gráfica 3D (aunque esto es generalmente una mala práctica, porque algo de distorsión, es inevitable en la representación 2D de los datos en 3D).

Pero, ¿cómo se hace una gráfica de 4 asignaturas?

En este momento tenemos cuatro variables que representan cada uno de un solo tema. Por lo que un método de alrededor de esto podría ser que de alguna manera se combinan las materias en que tal vez sólo dos nuevas variables a la que nos podemos parcela. Esto se conoce como el escalamiento Multidimensional.

Análisis de Componentes principales es una forma de escalamiento multidimensional. Es una transformación lineal de las variables en un menor espacio tridimensional que conservan la máxima cantidad de información acerca de las variables. Por ejemplo, esto significaría que podríamos mirar los tipos de sujetos de cada estudiante es tal vez más adecuado.

Un componente principal es una combinación de las variables originales después de una transformación lineal. En R, esto es:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

Que le dará algo como esto (las dos primeras Componentes Principales sólo en aras de la simplicidad):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

La primera columna muestra los coeficientes de la combinación lineal que define el componente principal #1, y la segunda columna muestra los coeficientes para el principal componente #2.

Entonces, ¿qué es un Componente Principal de Puntuación?

Es una puntuación de la tabla al final de este post (ver más abajo).

El resultado anterior de R significa que ahora podemos trazar cada puntaje de la persona en todas las materias en un gráfico 2D como sigue. Primero, necesitamos centro de las variables originales de mi restando la columna es:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

Y, a continuación, para formar combinaciones lineales para obtener la PC1 y la PC2 puntuaciones:

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

Que se simplifica a:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

Hay seis puntuaciones de los componentes principales en la tabla de arriba. Ahora se puede graficar los resultados en un gráfico 2D para tener una idea de el tipo de asignaturas que cada estudiante es quizás más adecuado.

El mismo resultado puede ser obtenido en R escribiendo prcomp(DF, scale = FALSE)$x.

EDIT 1: Hmm, yo probablemente podría haber pensado en un mejor ejemplo, y no es más que lo que he puesto aquí, pero espero que usted consigue la idea.

EDIT 2: crédito a @drpaulbrewer por su comentario en la mejora de esta respuesta.

24voto

Justin Walgran Puntos 552

Análisis de componentes principales (PCA) es un enfoque popular de análisis de la varianza cuando se trata de datos multivariantes. Usted tiene variables aleatorias X1, X2,...Xn, que son todos de correlación (positiva o negativamente) en diversos grados, y usted desea conseguir un mejor entendimiento de lo que está pasando. PCA puede ayudar.

Lo de la PCA, que te da es un cambio de variable en Y1, Y2,..., Yn (es decir, el mismo número de variables), que son combinaciones lineales de las Xs. Por ejemplo, usted podría tener Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3...

El Ys la propiedad de que cada uno de estos tienen una correlación cero uno con el otro. Mejor aún, que sea en orden decreciente de la varianza. Así, Y1 "explica" una gran parte de la varianza de las variables originales, Y2 un poco menos, y así sucesivamente. Generalmente después de los primeros Ys, las variables convertido en algo sin sentido. El PCA de puntuación para cualquiera de los Xi es simplemente coeficiente en cada uno de los Ys. En mi ejemplo anterior, la puntuación X2 en el primer componente principal (Y1) es de 1,76.

El camino de la PCA hace esta magia es mediante el cálculo de los vectores propios de la matriz de covarianza.

Para dar un ejemplo concreto, imaginar X1,...X10 son los cambios en 1 año, 2 años, ..., 10 años del Tesoro de los rendimientos de los bonos durante algún período de tiempo. Al calcular la PCA, que generalmente se encuentra que el primer componente ha puntuaciones de cada uno de los bonos de un mismo signo y sobre el mismo signo. Esto indica que la mayoría de la varianza de los rendimientos de los bonos viene de todo lo que se mueve de la misma manera: "en paralelo se desplaza hacia arriba o hacia abajo. El segundo componente general, muestra "ajuste" y "aplanamiento" de la curva y tiene signos opuestos para X1 y X10.

11voto

patfla Puntos 1

Me gusta pensar puntuaciones de los componentes principales como "básicamente carece de sentido" hasta que realmente dar algún significado. Interpretting PC puntuaciones en términos de la "realidad" es un asunto delicado y no puede ser realmente no hay una única manera de hacerlo. Depende de lo que usted sabe sobre el particular, las variables que se van en la PCA, y cómo se relacionan entre sí en términos de interpretaciones.

Tan lejos como el de las matemáticas va, me gusta interpretar PC puntajes de las coordenadas de cada punto, con respecto a los principales ejes del componente. Así que en el raw de las variables que usted tiene $\bf{}x_i$ $=(x_{1},x_{2},\dots,x_{pi})$, que es un "punto" en p dimensiones del espacio. En estas coordenadas, esto significa que a lo largo de la $x_{1}$ eje el punto está a una distancia de $x_{1i}$ de distancia desde el origen. Ahora un PCA es básicamente una forma diferente para describir este "punto" - con respecto a su principal componente del eje, en lugar de la "prima variable" eje. Así tenemos $\bf{}z_i$ $=(z_{1i},z_{2},\dots,z_{pi})=\bf {} (x_i-\overline{x})$, donde $\bf {}$ es el $p\times p$ matriz de pesos de los componentes principales (es decir, los vectores propios en cada fila), y $\bf{}\overline{x}$ es el "centro de gravedad" de los datos (o la media del vector de los puntos de datos).

Así que usted puede pensar de los vectores propios como describe la ubicación de las "líneas rectas" que describen los PCs. A continuación, las puntuaciones de los componentes principales de describir, donde cada punto de datos se encuentra en cada línea recta, relativa a la "centriod" de los datos. También se puede pensar en el PC puntuaciones en combinación con los pesos/autovectores como una serie de rango 1 predicciones para cada uno de los puntos de datos originales, que tienen la forma:

$$\hat{x}_{ji}^{(k)}=\overline{x}_j+z_{ki}A_{kj}$$

Donde $\hat{x}_{ji}^{(k)}$ es la predicción para el $i$th observación, por los $j$th variable utilizando el $k$th PC.

8voto

dlinsin Puntos 5863

Supongamos que tenemos una nube de N puntos en, digamos, 3D (que pueden ser listados en un 100x3 de la matriz). A continuación, el análisis de componentes principales (PCA) se adapta de una manera arbitraria orientada elipsoide en los datos. El principal componente de la puntuación es la longitud de los diámetros de la elipsoide.

En la dirección en la que el diámetro es grande, los datos varía mucho, mientras que en la dirección en la que el diámetro es pequeño, los datos varía poco. Si usted quería proyecto N-d datos en 2-d diagrama de dispersión, la trama a lo largo de los dos más grandes de componentes principales, debido a que con el enfoque de mostrar la mayor parte de la varianza de los datos.

5voto

Issac Kelly Puntos 3014

Deje que $i=1,\dots,N$ índice de las filas y $j=1,\dots,M$ índice de las columnas. Supongamos que alinear la combinación de variables (columnas):

$$Z_{i,1} = c_{i,1}\cdot Y_{i,1} + c_{i,2}\cdot Y_{i,2} + ... + c_{i,M}\cdot Y_{i,M}$$

La fórmula anterior, básicamente dice que multiplique la fila de los elementos con un cierto valor de $c$ (cargas) y la suma por columnas. Valores resultantes ($Y$ los valores de los tiempos de la carga) son las puntuaciones.

Un componente principal (cp) es una combinación lineal de $Z_1 = (Z_{1,1}, ..., Z_{N,1}$) (valores de las columnas que se denominan puntuaciones). En esencia, el PC debe presentar las características más importantes de las variables (columnas). Ergo, se puede extraer como muchos PC, ya que hay variables (o menos).

Una salida de R en PCA (un falso ejemplo) se parece a esto. PC1, PC2... son los componentes principales 1, 2... El ejemplo de abajo se muestran sólo los 8 primeros componentes principales (de 17). También puede extraer de otros elementos de la PCA, como cargas y puntuaciones.

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X