La normalización es importante en el PCA ya que es un ejercicio de maximización de la varianza. Proyecta los datos originales en direcciones que maximizan la varianza. El primer gráfico de abajo muestra la cantidad de varianza total explicada en los diferentes componentes principales cuando no hemos normalizado los datos. Como puede ver, es parece como el componente uno explica la mayor parte de la varianza de los datos.
Si se observa la segunda imagen, primero hemos normalizado los datos. Aquí está claro que los otros componentes también contribuyen. Esto se debe a que el ACP busca maximizar la varianza de cada componente. Y como la matriz de covarianza de este conjunto de datos en particular es
Murder Assault UrbanPop Rape
Murder 18.970465 291.0624 4.386204 22.99141
Assault 291.062367 6945.1657 312.275102 519.26906
UrbanPop 4.386204 312.2751 209.518776 55.76808
Rape 22.991412 519.2691 55.768082 87.72916
A partir de esta estructura, el PCA seleccionará para proyectar lo más posible en la dirección de Asalto ya que esa varianza es mucho mayor. Por lo tanto, para encontrar características utilizables para cualquier tipo de modelo, un PCA sin normalización se desempeñaría peor que uno con normalización.
33 votos
Si algunas variables tienen una varianza grande y otras pequeña, el PCA (maximizando la varianza) se cargará en las varianzas grandes. Por ejemplo, si cambia una variable de km a cm (aumentando su varianza), puede pasar de tener poco impacto a dominar el primer componente principal. Si quiere que su PCA sea independiente de ese cambio de escala, la estandarización de las variables lo logrará. Por otro lado, si la escala específica de sus variables importa (en el sentido de que quiere que su ACP esté en esa escala), tal vez no quiera estandarizar.
5 votos
Cuidado: normalizar en estadística a veces tiene el significado de transformar para acercarse a una distribución normal o gaussiana. Como ejemplifica @Glen_b, es mejor hablar de normalizar cuando lo que se quiere es escalar por (valor - media)/SD (o algún otro especificado normalización).
9 votos
Ouch, ese 'principio' en lugar de 'principal' en mi comentario de ahí arriba me va a volver loco cada vez que lo mire.
15 votos
@Glen_b En principio, sí sabes cómo se escribe. Acertar siempre es la principal dificultad.
1 votos
Se trata de múltiples preguntas, por lo que no hay un duplicado exacto, pero cada una de ellas está ampliamente y bien discutida en otras partes de este sitio. Una buena búsqueda para empezar es en pca correl* covarianza .
0 votos
@NickCox La definición generalmente aceptada de normalizar es transformar una variable aleatoria en una con media cero y desviación estándar unitaria. Esto es también lo que da Google cuando se busca "definir normalizar". Por tanto, no es mejor utilizar una palabra diferente para lo mismo.
0 votos
@Robino Estoy de acuerdo con tu conclusión pero no estoy de acuerdo con tu afirmación. El problema es que no hay un significado generalmente aceptado en toda la estadística y el aprendizaje automático. Normalizar se utiliza con el sentido que menciono y con otros sentidos también, por ejemplo, escalar dentro de [0, 1].
0 votos
@NickCox ¿Debo utilizar la normalización de la media mediante el uso de x-mean/std. o simplemente utilizar el escalado de características antes de aplicar pca.Estoy aplicando pca a las imágenes cuyos valores de píxeles varía de 0-255 .
0 votos
@Boris no puedo aconsejar ni remotamente lo que es mejor para ti más allá de señalar que (x $-$ media) / SD es un método posible y ciertamente no x $-$ media/distancia. Si todas sus variables están en [0, 255] es concebible que no escalar en absoluto tiene tanto sentido como cualquier otro enfoque.
0 votos
@NickCox significa que no importa
0 votos
No es lo que quería decir. El hecho de no saber qué método es el mejor para tus datos y tu proyecto no significa que esté insinuando que la elección del método no importa.
0 votos
@whuber: Tienes 0 aciertos con tu búsqueda.
1 votos
@MSIS Gracias. Por alguna razón el sistema eliminó el comodín "*" después de "correl". Lo he vuelto a insertar y espero que esta vez se quede ahí. Ahora devuelve 316 resultados.