Tengo un conjunto de datos con diferentes escalas y algunas variables son dispersas, por ejemplo,
n V1 V2 V3 V4
0 0 1 34123 51523453
1 16 0 63124 34351234
2 0 0 63431 2343423
3 100 2 64351 34243
4 0 2 75283 35253523
5 0 1 2234 23423523
6 0 0 134523 315345
… … … … …
Debido a la sparsity
Creo que tengo que reducir la dimensión de los datos. Debido a la different range
tendría que normalizar los datos.
Para lograr estos dos objetivos, mi plan original es realizar PCA whitening
.
En el nuevo espacio descorrelacionado, elegiría algunos vectores propios asociados a los 2-3 primeros valores propios más grandes como mis vectores principales y reduciría la dimensión proyectando sobre estos vectores.
Creo que el blanqueamiento PCA ya normaliza los datos de manera de media cero y varianza unitaria.
Tengo dos preguntas:
-
¿Es necesario realizar la normalización (por ejemplo, restar la media y dividir por la desviación estándar de forma independiente) antes de realizar el blanqueo?
-
¿Qué otras técnicas de normalización vale la pena probar?
¡Gracias por adelantado!