La respuesta corta: sí, debe preocuparse de que la distribución de sus datos no sea normal, porque la normalización no transforma la estructura de distribución subyacente de los datos. Si $X\sim\mathcal{N}(\mu, \sigma^2)$ entonces se puede transformar en una normal estándar mediante la estandarización: $Y:=(X-\mu)/\sigma \sim\mathcal{N}(0,1)$ . Sin embargo, esto es posible porque $X$ ya sigue una distribución normal en primer lugar. Si $X$ tiene una distribución distinta a la normal, la estandarización de la misma manera que la anterior generalmente no hará que los datos se distribuyan normalmente.
Un ejemplo sencillo de datos distribuidos exponencialmente y su versión normalizada:
x <- rexp(5000, rate = 0.5)
y <- (x-mean(x))/sd(x)
par(mfrow = c(2,1))
hist(x, freq = FALSE, col = "blue", breaks = 100, xlim = c(min(x), quantile(x, 0.995)),
main = "Histogram of exponentially distributed data X with rate = 0.5")
hist(y, freq = FALSE, col = "yellow", breaks = 100, xlim = c(min(y), quantile(y, 0.995)),
main = "Histogram of standardized data Y = ( X-E(X) ) / StDev(X)")
Ahora, si comprobamos la media y la desviación estándar de los datos originales $x$ obtenemos
c(mean(x), sd(x))
[1] 2.044074 2.051816
mientras que para los datos normalizados $y$ los resultados correspondientes son
c(mean(y), sd(y))
[1] 7.136221e-17 1.000000
Como se puede ver, la distribución de los datos tras la normalización es decididamente no normal, aunque la media sea (prácticamente) 0 y la varianza 1. En otras palabras, si las características no siguen una distribución normal antes de la estandarización, tampoco la seguirán después de la misma.
7 votos
Su última afirmación es incorrecta: la normalización no transforma la distribución de un conjunto de datos de no normal a normal.
0 votos
@Emil Después de la normalización, la media y la varianza se convierten en 0 y 1 respectivamente y también sé que una variable aleatoria con media 0 y var 1 sigue una distribución normal estándar. Corrígeme si me equivoco.
5 votos
Akash, piensa en lo que ocurre con la distribución: Al restar la media se establece la ubicación de la media en $0$ . La división por la desviación típica comprime o estira la distribución de manera que se hace tan estrecha o ancha como sea necesario para que tenga una desviación típica de $1$ . ¿En qué punto de este proceso cambiamos la forma? ¿Por qué una distribución no normal se convierte de repente en normal? Vea aquí un ejemplo de distribuciones no normales que cumplen los criterios: stats.stackexchange.com/a/314003/176202
0 votos
De acuerdo, sí. Lo entiendo. Pero si es cierto, una variante normal estándar no debe seguir siempre una distribución normal, que yo creía que sí? ¿Es así?
2 votos
La normal estándar es un distribución normal con $\mu=0$ y $\sigma=1$ Por lo tanto, decir que no es normal no tiene sentido. Obsérvese que una distribución arbitraria con media $0$ y la desviación estándar $1$ no se llama una distribución normal estándar.
3 votos
No es necesario que agradezcas a la gente en CV, pero puedes mostrar tu agradecimiento subiendo el voto y aceptando la respuesta de @Emil. En otro orden de cosas, si comentas en un hilo, sólo se le notifica al OP. Puedes avisar a los demás utilizando @ seguido de su nombre de usuario.
0 votos
El que tenga que preocuparse de que las características tengan una distribución no gaussiana depende de lo que esté haciendo con ellas: ¿qué clasificador está utilizando? Si su clasificador requiere que las variables dependientes sean gaussianas, entonces busque, por ejemplo Transformación de Box-Cox . Además, traza la distribución (un histograma aproximado está bien). La estandarización no cambia la forma de la distribución, sólo la desliza y la comprime/expande.