4 votos

¿Se estandarizan los datos antes del blanqueo PCA?

Tengo un conjunto de datos con diferentes escalas y algunas variables son dispersas, por ejemplo,

n   V1  V2  V3      V4
0   0   1   34123   51523453
1   16  0   63124   34351234
2   0   0   63431   2343423
3   100 2   64351   34243
4   0   2   75283   35253523
5   0   1   2234    23423523
6   0   0   134523  315345
…   …   …   …       …   

Debido a la sparsity Creo que tengo que reducir la dimensión de los datos. Debido a la different range tendría que normalizar los datos.

Para lograr estos dos objetivos, mi plan original es realizar PCA whitening .

En el nuevo espacio descorrelacionado, elegiría algunos vectores propios asociados a los 2-3 primeros valores propios más grandes como mis vectores principales y reduciría la dimensión proyectando sobre estos vectores.

Creo que el blanqueamiento PCA ya normaliza los datos de manera de media cero y varianza unitaria.

Tengo dos preguntas:

  1. ¿Es necesario realizar la normalización (por ejemplo, restar la media y dividir por la desviación estándar de forma independiente) antes de realizar el blanqueo?

  2. ¿Qué otras técnicas de normalización vale la pena probar?

¡Gracias por adelantado!

4voto

trish Puntos 31

Probablemente debería estandarizar sus datos antes del PCA.

El PCA implica proyectando los datos sobre los vectores propios de la matriz de covarianza . Si no estandariza sus datos primero, estos vectores propios tendrán todas las longitudes diferentes. Entonces, el espacio propio de la matriz de covarianza se "estirará", dando lugar a proyecciones igualmente "estiradas". Véase aquí para ver un ejemplo de este efecto. Esto no es lo que usted quiere. Vea también aquí para varias respuestas buenas que describen la geometría del PCA.

Sin embargo, hay situaciones en las que sí se desea conservar las desviaciones originales. Véase aquí para debatir sobre ese tema.

En cuanto a su pregunta de seguimiento, de si se perderán las dependencias entre las variables si se aplican estandarizadas de forma independiente: la respuesta es no. De hecho, la correlación entre variables aleatorias no estandarizadas es equivalente a la covarianza de las variables aleatorias estandarizadas.

Tenga en cuenta que la covarianza es intrínsecamente una medida de lineal asociación. La covarianza entre una variable aleatoria uniforme en $[-1, 1]$ y su cuadrado, por ejemplo, deberían ser exactamente 0. Así que las relaciones de orden superior entre las variables podrían, de hecho, ser descartadas por el ACP. Esta es una de las motivaciones para núcleo PCA .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X