En primer lugar, tenga en cuenta que el término "normalizar" es ambiguo dentro de la ciencia estadística. Se aplica al escalado por (valor $-$ media) / desviación estándar, que comúnmente también se describe como estandarización. Pero también se aplica a menudo a las transformaciones que producen versiones de una variable que son más casi normales (gaussianas) en la distribución. También se utiliza para ajustar la escala dentro de un rango prescrito, por ejemplo $[0, 1]$ .
La estandarización en sí misma no afecta a la normalidad de una distribución, ya que se trata de una mera transformación lineal, y la asimetría y la curtosis (por ejemplo), y en general todas las medidas de la forma de la distribución, siguen siendo las mismas.
Como en el caso del análisis de componentes principales (ACP), la normalización previa es habitual, e incluso podría decirse que esencial, siempre que las variables individuales se midan utilizando diferentes unidades de medida. Por el contrario, el ACP sin estandarización puede tener sentido siempre que todas las variables se midan en las mismas unidades. La diferencia corresponde a basar el ACP en la matriz de correlación (estandarización previa) y en la matriz de covarianza (sin estandarización previa). Sin estandarización, los resultados del ACP están inevitablemente dominados por las variables con mayor varianza; si eso es lo deseado (o, en el peor de los casos, no es problemático), entonces no tendrá problemas.
Al revés, el hecho de que todas las variables estén estandarizadas les da a todas, a grandes rasgos, la misma importancia; e incluso eso podría ser erróneo, o no lo que más se desea. Por ejemplo, la variable con menos varianza y la que tiene más acabarán en la misma escala y con el mismo peso. Sólo en raras ocasiones eso coincide con lo que más necesita un investigador, aunque puede ser difícil incorporar lo que se necesita sin subjetividad o circularidad. En la práctica, el ACP parece tener más éxito cuando las variables de entrada tienen un gran parecido familiar y menos éxito cuando el investigador introduce un batiburrillo de variables bastante diferentes, como por ejemplo diferentes características sociales, económicas o demográficas de países u otras unidades políticas. El ACP no es una lavadora; la suciedad no se elimina, sino que se redistribuye.
Si la asimetría es muy alta, tiene una opción. A menudo, los resultados serán más claros si se aplica el ACP a las variables transformadas. Por ejemplo, los efectos de los valores atípicos o los puntos de datos extremos a menudo se silencian cuando las variables se transforman. A la inversa, el ACP, como técnica de transformación, no depende de, ni supone, que ninguna (y mucho menos todas) las variables con las que se trabaja estén distribuidas normalmente.
En abstracto, es difícil aconsejar en detalle, pero a menudo será sensato aplicar el ACP tanto a los datos originales cuando están muy sesgados como a los datos transformados, y luego informar de uno o de ambos resultados, dependiendo de lo que sea útil desde el punto de vista científico o sustantivo.
El propio ACP es indiferente a si las variables se transforman de la misma manera, o incluso a si algunas variables se transforman y otras no. Siempre que tenga sentido, resulta atractivo transformar las variables de la misma manera, pero esto es quizá más una cuestión de gusto que de técnica.
Como ejemplo sencillo, si varias variables son todas medidas de tamaño en algún sentido, entonces es muy probable que haya asimetría. Transformar todas las variables tomando logaritmos (siempre que todos los valores sean positivos) será entonces a menudo valioso como precursor del ACP, pero ninguno de los dos análisis debe considerarse "correcto", sino que ofrecen visiones complementarias de los datos.
Nota 1: Dudo bastante que "tengas que" hacer PCA a menos que estés comprometido con algún ejercicio como parte de un curso de estudio. Parece muy probable que algún tipo de modelización de Poisson se acerque más a los objetivos científicos y sea igual de fructífero que el ACP, pero sin detalles sobre esos objetivos eso es cuestión de especulación.
Nota 2: En el caso de los enteros positivos, tanto las raíces como los logaritmos tienen mérito como transformaciones. Observo que afirmas que tus datos tienen una distribución de Poisson sin mostrar ninguna prueba.
0 votos
Como la A de PCA significa "análisis", la expresión "análisis PCA" se lee de forma incómoda. La he eliminado.
3 votos
@NickCox Aunque se lee de forma incómoda si se amplía PCA, algunas fuentes afirman que es aceptable "duplicar" la última palabra así, como con el número de PIN, el cajero automático, el virus del VIH, el número de ISBN, la pantalla LCD, la prueba SAT. Otros dicen que es un error, pero yo creo que sí es un error -- pero incluso si no lo es, ese caballo navegó hace mucho tiempo.
0 votos
No creo que los estadísticos que me rodean digan nunca "análisis PCA" y, desde luego, les recomiendo que no lo utilicen por escrito. La referencia cruzada debería interesar a otros interesados en estos detalles, así que ¡gracias!