12 votos

Normalización de los rasgos no normales

Supongamos que tenemos varias características (por ejemplo $\geq20$ ) que no siguen un Distribución gaussiana . ¿Tenemos que preocuparnos de que las características no sigan una distribución gaussiana si aplicamos la normalización a los datos?

Es decir, aunque las características no sigan una distribución normal inicialmente, ¿no se hace que sigan una distribución gaussiana después de la normalización con media $0$ y la varianza $1$ ?

7 votos

Su última afirmación es incorrecta: la normalización no transforma la distribución de un conjunto de datos de no normal a normal.

0 votos

@Emil Después de la normalización, la media y la varianza se convierten en 0 y 1 respectivamente y también sé que una variable aleatoria con media 0 y var 1 sigue una distribución normal estándar. Corrígeme si me equivoco.

5 votos

Akash, piensa en lo que ocurre con la distribución: Al restar la media se establece la ubicación de la media en $0$ . La división por la desviación típica comprime o estira la distribución de manera que se hace tan estrecha o ancha como sea necesario para que tenga una desviación típica de $1$ . ¿En qué punto de este proceso cambiamos la forma? ¿Por qué una distribución no normal se convierte de repente en normal? Vea aquí un ejemplo de distribuciones no normales que cumplen los criterios: stats.stackexchange.com/a/314003/176202

23voto

Brian H Puntos 25

La respuesta corta: sí, debe preocuparse de que la distribución de sus datos no sea normal, porque la normalización no transforma la estructura de distribución subyacente de los datos. Si $X\sim\mathcal{N}(\mu, \sigma^2)$ entonces se puede transformar en una normal estándar mediante la estandarización: $Y:=(X-\mu)/\sigma \sim\mathcal{N}(0,1)$ . Sin embargo, esto es posible porque $X$ ya sigue una distribución normal en primer lugar. Si $X$ tiene una distribución distinta a la normal, la estandarización de la misma manera que la anterior generalmente no hará que los datos se distribuyan normalmente.

Un ejemplo sencillo de datos distribuidos exponencialmente y su versión normalizada:

x <- rexp(5000, rate = 0.5)
y <- (x-mean(x))/sd(x)
par(mfrow = c(2,1))
hist(x, freq = FALSE, col = "blue", breaks = 100, xlim = c(min(x), quantile(x, 0.995)),
     main = "Histogram of exponentially distributed data X with rate = 0.5")
hist(y, freq = FALSE, col = "yellow", breaks = 100, xlim = c(min(y), quantile(y, 0.995)),
     main = "Histogram of standardized data Y = ( X-E(X) ) / StDev(X)")

Ahora, si comprobamos la media y la desviación estándar de los datos originales $x$ obtenemos

c(mean(x), sd(x))
[1] 2.044074 2.051816

mientras que para los datos normalizados $y$ los resultados correspondientes son

c(mean(y), sd(y))
[1] 7.136221e-17 1.000000

Como se puede ver, la distribución de los datos tras la normalización es decididamente no normal, aunque la media sea (prácticamente) 0 y la varianza 1. En otras palabras, si las características no siguen una distribución normal antes de la estandarización, tampoco la seguirán después de la misma.

0 votos

Estoy un poco confundido aquí, dejemos que nuestros datos sigan cualquier distribución inicialmente, con cualquier media y varianza pero después de la estandarización, la media y la varianza de los datos se convierten en 0 y 1 respectivamente y también sé que una variable aleatoria con media 0 y var 1 sigue una distribución normal estándar. ¿Una distribución normal estándar no sigue una distribución normal?

12 votos

"También sé que una variable aleatoria con media 0 y var 1 sigue una distribución normal estándar". Esta frase es errónea. Hay muchos ejemplos diferentes de una variable aleatoria que tiene media 0 y var 1 pero con una distribución no normal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X