117 votos

¿Por qué hay que normalizar los datos antes del análisis de componentes principales (ACP)?

Estoy haciendo un análisis de componentes principales en mi conjunto de datos y mi profesor me ha dicho que debería normalizar los datos antes de hacer el análisis. ¿Por qué?

  • ¿Qué pasaría si hiciera el PCA sin normalización?
  • ¿Por qué normalizamos los datos en general?
  • ¿Podría alguien dar un ejemplo claro e intuitivo que demuestre las consecuencias de no normalizar los datos antes del análisis?

33 votos

Si algunas variables tienen una varianza grande y otras pequeña, el PCA (maximizando la varianza) se cargará en las varianzas grandes. Por ejemplo, si cambia una variable de km a cm (aumentando su varianza), puede pasar de tener poco impacto a dominar el primer componente principal. Si quiere que su PCA sea independiente de ese cambio de escala, la estandarización de las variables lo logrará. Por otro lado, si la escala específica de sus variables importa (en el sentido de que quiere que su ACP esté en esa escala), tal vez no quiera estandarizar.

5 votos

Cuidado: normalizar en estadística a veces tiene el significado de transformar para acercarse a una distribución normal o gaussiana. Como ejemplifica @Glen_b, es mejor hablar de normalizar cuando lo que se quiere es escalar por (valor - media)/SD (o algún otro especificado normalización).

9 votos

Ouch, ese 'principio' en lugar de 'principal' en mi comentario de ahí arriba me va a volver loco cada vez que lo mire.

101voto

Ian G Puntos 3498

La normalización es importante en el PCA ya que es un ejercicio de maximización de la varianza. Proyecta los datos originales en direcciones que maximizan la varianza. El primer gráfico de abajo muestra la cantidad de varianza total explicada en los diferentes componentes principales cuando no hemos normalizado los datos. Como puede ver, es parece como el componente uno explica la mayor parte de la varianza de los datos.

Without normalization

Si se observa la segunda imagen, primero hemos normalizado los datos. Aquí está claro que los otros componentes también contribuyen. Esto se debe a que el ACP busca maximizar la varianza de cada componente. Y como la matriz de covarianza de este conjunto de datos en particular es

             Murder   Assault   UrbanPop      Rape
Murder    18.970465  291.0624   4.386204  22.99141
Assault  291.062367 6945.1657 312.275102 519.26906
UrbanPop   4.386204  312.2751 209.518776  55.76808
Rape      22.991412  519.2691  55.768082  87.72916

A partir de esta estructura, el PCA seleccionará para proyectar lo más posible en la dirección de Asalto ya que esa varianza es mucho mayor. Por lo tanto, para encontrar características utilizables para cualquier tipo de modelo, un PCA sin normalización se desempeñaría peor que uno con normalización.

With normalization

16 votos

Usted explica normalizar no normali

0 votos

@

3 votos

G v

23voto

Rahul Gupta Puntos 145

El término normalización se utiliza en muchos contextos, con significados distintos pero relacionados. Básicamente, normalizar significa transformar para que sea normal. Cuando los datos se ven como vectores, normalizar significa transformar el vector para que tenga norma unitaria. Cuando los datos se consideran variables aleatorias, normalizar significa transformar a una distribución normal. Cuando se supone que los datos son normales, normalizar significa transformar a una varianza unitaria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X