Estoy tratando de intuir cómo funciona el PCA. Hasta ahora lo he entendido:
-
Parto de la matriz de entrada $X = [X_{1},...,X_{p}]$ donde cada $X_{i}$ se compone de $n$ elementos que son el $n$ observaciones para esas características ( $X_{i}$ de hecho) y por lo tanto $X$ es un ( $n$ x $p$ ).
-
Para transformar mi problema de partida en uno de menor dimensión debo definir una transformación y, por tanto, vectores de transformación como:
$w_{(k)} = (w_{1},...,w_{p})_{(k)}$ que son $p$ -vectores dimensionales.
-
Debo calcular el primer vector PCA mediante:
$w_{1} = argmax _{||w||=1} {1 \over m} \sum_{i=1}^m [(x_{i}w^2)]$ .
-
Los otros vectores del PCA, en general, se calcularán como:
$w_{k} = argmax _{||w||=1} {1 \over m} \sum_{i=1}^m [(x_{i}-\sum_{j=1}^{k-1}x_{i}w_{j}w_{j}^T)w]^2$
(en resumen: para el k-ésimo vector del PCA tengo que restar todos los demás componentes a la matriz de entrada de datos para elegir la característica con la mayor varianza).
Mis preguntas ahora son:
- son aquellos $w_{(k)}$ ¿vectores compuestos sólo por todos los ceros excepto el elemento que corresponde a la característica que quiero considerar? Es decir: como sé que $w_{(k)}$ son vectores unitarios (longitud uno) entonces tienen que estar compuestos por todos los ceros excepto un componente que será 1. ¿Este 1 se utiliza para elegir entre los vectores asociados $x_{i}$ ¿la característica que quiero considerar?
- Son $w_{(k)}$ vector de dimensión $(1$ x $p)$ ?