12 votos

¿Cuál es el razonamiento de la estandarización (dividir por la desviación estándar)?

¿Por qué dividir un conjunto de datos por sigma hace que la varianza de la muestra sea igual a 1? Suponiendo una media cero para simplificar.

¿Cuál es la intuición que hay detrás de esto?

Dividir por el rango (max-min) tiene un sentido intuitivo. Pero la desviación estándar no lo tiene.

1 votos

La hipótesis de la media cero no es necesaria. Se puede tomar como tres afirmaciones separadas: al dividir por la SD se obtiene una SD de 1; la varianza es el cuadrado de la SD; y el cuadrado de 1 es 1.

1 votos

Cuando la gente dice intuitivo, lo traduzco como "familiar para mí", y la mayoría de las veces encaja. Las razones para no dividir por el rango son más prácticas que teóricas. El rango puede ser muy lábil. Además, a menudo el rango de todos los valores es enormemente mayor que el del grueso de los valores, por lo que los resultados no serían muy útiles. Los ingresos ilustran ambos puntos: el máximo observado puede variar caprichosamente y los valores divididos por el rango se concentrarían a menudo cerca de 0.

20voto

Guest333 Puntos 21

Esto se debe a la propiedad de la varianza. Para una variable aleatoria $X$ y una constante $a$ , $\mathrm{var}(aX)=a^2\mathrm{var}(x)$ . Por lo tanto, si se dividen los datos por su desviación estándar ( $\sigma$ ), $\mathrm{var}(X/\sigma)=\mathrm{var}(X)/\sigma^2=\sigma^2/\sigma^2=1$ .

1 votos

Eso ayuda, gracias. ¿Tienes un enfoque intuitivo?

9voto

Noah Puntos 85

Estandarizar es simplemente cambiar las unidades para que estén en unidades de "desviación estándar". Tras la normalización, un valor de 1,5 significa "1,5 desviaciones estándar por encima de 0". Si la desviación estándar fuera 8, equivaldría a decir "12 puntos por encima de 0".

Un ejemplo: al convertir pulgadas a pies (en Estados Unidos), se multiplican los datos en pulgadas por un factor de conversión, $\frac{1 foot}{12 inches}$ que viene del hecho de que 1 pie es igual a 12 pulgadas, por lo que esencialmente estás multiplicando tus puntos de datos por una versión elegante de 1 (es decir, una fracción con igual numerador y denominador). Por ejemplo, para pasar de 72 pulgadas a pies, se hace $72 inches \times \frac{1 foot}{12 inches}=6feet$ .

Al convertir las puntuaciones de unidades brutas a unidades de desviación estándar, se multiplican los datos en unidades brutas por el factor de conversión $\frac{1sd}{\sigma points}$ . Por lo tanto, si tienes una puntuación de 100 y la desviación estándar ( $\sigma$ ) fuera 20, su puntuación estandarizada sería $100 points \times \frac{1 sd}{20 points}=5sd$ . La estandarización es sólo cambiar las unidades.

Cambiar las unidades de un conjunto de datos no afecta a su dispersión; sólo se cambian las unidades de la medida de dispersión que se utiliza para que coincidan. Por lo tanto, si los datos originales tenían una desviación estándar de 20 puntos y se cambian las unidades para que 20 puntos originales equivalgan a una nueva unidad estandarizada, la nueva desviación estándar será de 1 unidad (porque 20 unidades originales equivalen a 1 nueva unidad).

2 votos

Parte de tu respuesta necesita una suposición extra de que has restado la media, pero no lo mencionas. La pregunta del hilo también es equívoca en este caso, ya que en estadística restar la media es lo que se hace por defecto, pero sólo se pregunta por la división entre la DE.

0 votos

No creo que mi respuesta requiera esa suposición si estamos definiendo la estandarización como una simple división por la DS (que es lo que hace el OP). Sólo estoy hablando de un cambio de unidades, no con referencia al centro de los datos. Por ejemplo, para una escala con una media de 50 y una DE de 10, estoy diciendo que una puntuación de 20 tendría una puntuación estandarizada de 2, no de -3. Restar la media (centrar) es una cuestión distinta.

0 votos

Es un punto justo. No creo que definir la estandarización como la mera división por la DS sea en absoluto estándar, por así decirlo, pero concediendo tu definición de que el valor / la DS $=: z$ digamos, entonces todos los puntos de datos que son positivos están por encima de 0 en el $z$ escala y sólo los puntos que resultan negativos están por debajo de 0 en la $z$ escala. Si eso es una estandarización tan útil como (valor $-$ media) / DE es cuestionable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X