Tengo un par de preguntas rápidas sobre PCA:
- ¿El PCA asumir que el conjunto de datos es de Gauss?
- ¿Qué sucede cuando se aplica un PCA inherentemente no lineal de los datos?
Dado un conjunto de datos, el proceso es a la primera significa la normalización, establece la varianza 1, tomar un SVD, reducir el rango, y por último mapa el conjunto de datos en la nueva reducido rango de espacio. En el nuevo espacio, cada dimensión corresponde a una "dirección" de la máxima varianza.
- Pero es la correlación de ese conjunto de datos en el nuevo espacio siempre cero, o es que sólo se aplica a los datos que por su naturaleza Gaussiana?
Supongamos que tengo dos conjuntos de datos, "a" y "B", donde "a" corresponde a una muestra aleatoria de puntos tomados de una Gaussiana, mientras que "B" corresponde a los puntos en una muestra aleatoria de otra distribución (digamos de Poisson).
- ¿Cómo funciona el PCA(a) compare a la PCA(B)?
- Mirando los puntos en el nuevo espacio, ¿cómo puedo determinar que la PCA(A) corresponde a los puntos muestreados de una Gaussiana, mientras que la PCA(B), que corresponde a los puntos de muestreo de una distribución de Poisson?
- Es la correlación de los puntos "A" 0?
- Es la correlación de puntos en la "B" también 0?
- Lo que es más importante, estoy pidiendo a la cuestión de "derecho"?
- Debo mirar a la correlación, o hay otra métrica que debo considerar?