22 votos

¿Cuál es la medida de asociación adecuada de una variable con un componente del PCA (en un biplot / gráfico de carga)?

Estoy usando FactoMineR para reducir mi conjunto de datos de medidas a las variables latentes.

! variable map (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

El mapa de variables anterior me resulta claro de interpretar, pero estoy confundido cuando se trata de las asociaciones entre las variables y el componente 1. Mirando el mapa de variables, ddp et cov está muy cerca del componente en el mapa, y ddpAbs está un poco más lejos. Pero, esto no es lo que muestran las correlaciones:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Luego está el sin2 cantidad, que es la altura para rpvi (por ejemplo), pero esa medida no es la variable más cercana al primer componente en absoluto.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Entonces, ¿qué debo mirar cuando se trata de la asociación entre una variable y el primer componente?

1 votos

Aunque los puntos de su mapa (que parece el gráfico de carga) están desordenados, yo diría que el gráfico corresponde a la salida de las "correlaciones" muy bien. Esas "correlaciones" son las coordenadas en Dim1. Ellas, las cargas, son correlaciones entre un factor y las variables (cuando se basa el análisis en datos estandarizados = en correlaciones entre las variables).

0 votos

Además de la(s) respuesta(s) a continuación, marque este con más enlaces allí.

40voto

Uri Puntos 111

Explicación de un gráfico de carga del PCA o del análisis factorial.

El gráfico de carga muestra las variables como puntos en el espacio de los componentes principales (o factores). Las coordenadas de las variables son, normalmente, las cargas. (Si se combina adecuadamente el gráfico de carga con el correspondiente gráfico de dispersión de los casos de datos en el mismo espacio de componentes, sería el biplot).

Tengamos 3 variables de alguna manera correlacionadas, $V$ , $W$ , $U$ . Nosotros centro y realizar PCA extrayendo 2 primeros componentes principales de tres: $F_1$ et $F_2$ . Utilizamos las cargas como coordenadas para hacer el parcela de carga abajo. Las cargas son los elementos de los vectores propios no normalizados, es decir, los vectores propios dotados de las correspondientes varianzas de los componentes, o valores propios.

enter image description here

La parcela de carga es el plano de la imagen. Consideremos sólo la variable $V$ . La flecha que se dibuja habitualmente en un gráfico de carga es la que se denomina $h'$ aquí; las coordenadas $a_1$ , $a_2$ son las cargas de $V$ con $F_1$ et $F_2$ respectivamente (por favor, sepa que terminológicamente es más correcto decir "el componente carga una variable", y no al revés).

Flecha $h'$ es la proyección, sobre el plano de las componentes, del vector $h$ que es la verdadera posición de la variable $V$ en el espacio de las variables abarcadas por $V$ , $W$ , $U$ . La longitud al cuadrado del vector, $h^2$ es el desviación $\bf^a$ de $V$ . Mientras que $h'^2$ es el parte de esa varianza explicada por los dos componentes.

Carga, correlación, correlación proyectada . Ya que las variables fueron centradas antes de la extracción de los componentes, $\cos \phi$ es el Correlación de Pearson entre $V$ y el componente $F_1$ . Esto no debe confundirse con $\cos \alpha$ en el gráfico de carga, que es otra cantidad: es la correlación de Pearson entre el componente $F_1$ y la variable vectorizada aquí como $h'$ . Como variable, $h'$ es la predicción de $V$ por los componentes (estandarizados) en la regresión lineal (comparar con el dibujo de la geometría de la regresión lineal aquí ) donde las cargas $a$ son los coeficientes de regresión (cuando los componentes se mantienen ortogonales, como se ha extraído).

Más. Podemos recordar (trigonometría) que $a_1 = h \cdot \cos \phi$ . Puede entenderse como la producto escalar entre el vector $V$ y el vector de longitud unitaria $F_1$ : $h \cdot 1 \cdot \cos \phi$ . $F_1$ se establece que el vector de varianza unitaria porque no tiene su propio varianza aparte de esa varianza de $V$ que explica (por cantidad $h'$ ): es decir $F_1$ es una entidad extraída de V,W,U y no una entidad invitada de fuera. Entonces, claramente, $a_1 = \sqrt{var_{V} \cdot var_{F_1}} \cdot r = h \cdot 1 \cdot \cos \phi$ es el covarianza entre $V$ et estandarizado , de escala unitaria $\bf^b$ (para fijar $s_1=\sqrt{var_{F_1}}=1$ ) componente $F_1$ . Esta covarianza es directamente comparable con las covarianzas entre las variables de entrada; por ejemplo, la covarianza entre $V$ et $W$ será el producto de las longitudes de sus vectores multiplicado por el coseno entre ellos.

Resumiendo: la carga $a_1$ puede verse como la covarianza entre el componente estandarizado y la variable observada, $h \cdot 1 \cdot \cos \phi$ o, de forma equivalente, entre el componente estandarizado y la imagen explicada (por todos los componentes que definen el gráfico) de la variable, $h' \cdot 1 \cdot \cos \alpha$ . Que $\cos \alpha$ podría llamarse correlación V-F1 proyectado en el subespacio de componentes F1-F2.

La mencionada correlación entre una variable y un componente, $\cos \phi = a_1/h$ , también se denomina estandarizado o carga reescalada . Es conveniente en la interpretación de los componentes porque está en el rango [-1,1].

Relación con los vectores propios . Carga reescalada $\cos \phi$ debe no confundirse con el eigenvector que -como sabemos- es el coseno del ángulo entre una variable y un componente principal. Recordemos que la carga es elemento del vector propio escalado por el valor singular del componente (raíz cuadrada del valor propio). Es decir, para la variable $V$ de nuestra parcela: $a_1= e_1s_1$ , donde $s_1$ es la desviación estándar (no $1$ pero original, es decir, el valor singular) de $F_1$ variable latente. Luego viene que el elemento del vector propio $e_1= \frac{a_1}{s_1}=\frac{h}{s_1}\cos \phi$ , no el $\cos \phi$ mismo. La confusión en torno a dos palabras "coseno" se disuelve cuando recordamos en qué tipo de representación espacial nos encontramos. Valor del vector propio es coseno del ángulo de rotación de una variable como eje en el componente pr. como eje dentro del espacio de la variable (también conocido como vista de gráfico de dispersión), como aquí . Mientras que $\cos \phi$ en nuestra parcela de carga es la medida de similitud del coseno entre una variable como vector y un componente pr. como ... bueno.. como vector también, si se quiere (aunque se dibuje como eje en el gráfico), - pues actualmente estamos en el espacio temático (que es el gráfico de carga) donde las variables correlacionadas son abanicos de vectores - no son ejes ortogonales, - y los ángulos de los vectores son la medida de la asociación - y no de la rotación de la base espacial.

Mientras que la carga es la medida de asociación angular (es decir, de tipo producto escalar) entre una variable y un componente de escala unitaria, y la carga reescalada es la carga estandarizada en la que la escala de la variable se reduce a la unidad, pero el coeficiente del vector propio es la carga en la que el componente está "sobreestandarizado", es decir, fue llevado a escala $1/s$ (en lugar de 1); alternativamente, puede considerarse como una carga reescalada en la que la escala de la variable se llevó a $h/s$ (en lugar de 1).

Así que, qué son las asociaciones entre una variable y un componente? Puede elegir lo que quiera. Puede ser el cargando (covarianza con componente de escala unitaria) $a$ La carga reescalada $\cos \phi$ (= correlación variable-componente); correlación entre la imagen (predicción) y el componente (= correlación proyectada $\cos \alpha$ ). Incluso puede elegir eigenvector coeficiente $e= a/s$ si lo necesita (aunque me pregunto cuál podría ser la razón). O inventar su propia medida.

Valor del vector propio al cuadrado tiene el significado de la contribución de una variable en un componente pr. Carga reescalada al cuadrado tiene el significado de la contribución de un componente pr. en una variable.

Relación con el PCA basada en correlaciones. Si analizamos mediante PCA no sólo las variables centradas, sino también las estandarizadas (centradas y luego con escala de varianza unitaria), entonces los tres vectores de las variables (no sus proyecciones en el plano) tendrían la misma longitud unitaria. Entonces se deduce automáticamente que una carga es correlación , no la covarianza, entre una variable y un componente. Pero esa correlación no será igual a "carga estandarizada" $\cos \phi$ de la imagen anterior (basada en el análisis de las variables sólo centradas), porque el ACP de las variables estandarizadas (ACP basado en correlaciones) produce diferentes componentes que el PCA de variables centradas (PCA basado en covarianzas). En el PCA basado en la correlación $a_1= \cos \phi$ porque $h=1$ pero los componentes principales son no esos mismos componentes principales como los que se obtienen con el ACP basado en las covarianzas ( leer , leer ).

En análisis de factores El gráfico de carga tiene básicamente el mismo concepto e interpretación que en el PCA. El único (pero importante ) la diferencia es la sustancia de $h'$ . En el análisis factorial, $h'$ - llamada entonces "comunalidad" de la variable - es la parte de su varianza que se explica por factores comunes que son responsables específicamente de correlaciones entre las variables. Mientras que en el PCA la parte explicada $h'$ es una "mezcla" bruta: representa en parte la correlación y en parte la falta de relación entre las variables. Con el análisis factorial, el plano de cargas de nuestro cuadro estaría orientado de forma diferente (en realidad, incluso se extendería fuera de nuestro espacio de variables 3d hasta la 4ª dimensión, que no podemos dibujar; el plano de cargas no será un subespacio de nuestro espacio 3d abarcado por $V$ y las otras dos variables), y la proyección $h'$ será de otra longitud y con otro ángulo $\alpha$ . (La diferencia teórica entre el ACP y el análisis factorial se explica geométricamente aquí mediante la representación del espacio temático y aquí a través de una representación espacial variable).


$\bf^{a,b}$ Una respuesta a la petición de @Antoni Parellada en los comentarios. Es equivalente si se prefiere hablar en términos de desviación o en términos de dispersión (SS de desviación): varianza = dispersión $/(n-1)$ , donde $n$ es el tamaño de la muestra. Como se trata de un conjunto de datos con el mismo $n$ La constante no cambia nada en las fórmulas. Si $\bf X$ son los datos (con las variables V,W,U centradas), entonces la eigendecomposición de su matriz de covarianza (A) arroja los mismos valores propios (varianzas de los componentes) y vectores propios que la eigendecomposición de la matriz de dispersión (B) $\bf X'X$ obtenida tras la división inicial de $\bf X$ por $\sqrt{n-1}$ factor. Después, en la fórmula de una carga (véase la parte central de la respuesta), $a_1 = h \cdot s_1 \cdot \cos \phi$ , término $h$ es desviación $\sqrt{var_{V}}$ en (A) pero la dispersión de la raíz (es decir, la norma) $\Vert V \Vert$ en (B). Término $s_1$ que es igual a $1$ , es la estandarización $F_1$ desviación del componente st. $\sqrt{var_{F_1}}$ en (A) pero la dispersión de las raíces $\Vert F_1 \Vert$ en (B). Finalmente, $\cos \phi = r$ es la correlación que es insensible al uso de $n-1$ en sus cálculos. Así, simplemente hablar conceptualmente de las varianzas (A) o de las dispersiones (B), mientras que los propios valores siguen siendo los mismos en la fórmula en ambos casos.

0 votos

Esta respuesta está muy bien y tiene mucha información, pero creo que la respuesta real a la pregunta estaría en "qué hace $\alpha$ significa?"

0 votos

@ssdecontrol, he añadido una línea al respecto.

0 votos

He estado leyendo tus posts sobre el tema, y me he quedado en la parte aparentemente más obvia, cuando dices... "claramente, $a_1 = \sqrt{var_{V} \cdot var_{F1}} \cdot r = h \cdot 1 \cdot \cos \phi$ . Desde $r=cos\phi$ et $\sqrt{var{F1}}=1$ se deduce que $\sqrt{var_V}=h$ . Sin embargo, $h=\Vert V\Vert= \sqrt{\sum x^2}$ mientras que $\sqrt{var_V}=\sqrt{\frac{\sum x^2}{n-1}}$ . ¿Qué me falta?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X