34 votos

¿Por qué tomamos la raíz cuadrada de la varianza para crear la desviación estándar?

Disculpas si esto ha sido respondido en otro lugar, no he podido encontrarlo.

Me pregunto por qué tomamos la raíz cuadrada, en particular, de la varianza para crear la desviación estándar. ¿Qué tiene de especial tomar la raíz cuadrada que produce un valor útil?

0 votos

Estrechamente relacionado: stats.stackexchange.com/questions/35123/…

2 votos

Piense en la desviación estándar como una norma de vector euclidiana y luego la varianza como el cuadrado. Esta definición de varianza y desviación estándar resulta tener propiedades analíticas útiles.

56voto

Martin Robins Puntos 1893

En algún sentido, esta es una pregunta trivial, ¡Pero en otro sentido, en realidad es bastante profunda!

  • Como otros han mencionado, tomar la raíz cuadrada implica que $\operatorname{Stdev}(X)$ tiene las mismas unidades que $X$.

  • Tomar la raíz cuadrada te da homogeneidad absoluta también conocida como escalabilidad absoluta. Para cualquier escalar $\alpha$ y variable aleatoria $X$, tenemos: $$ \operatorname{Stdev}[\alpha X] = |\alpha| \operatorname{Stdev}[X]$$ Homogeneidad absoluta es una propiedad requerida de una norma. La desviación estándar se puede interpretar como una norma (en el espacio vectorial de variables aleatorias con media cero) de manera similar a como $\sqrt{x^2 + y^2+z^2}$ es la norma euclidiana estándar en un espacio tridimensional. La desviación estándar es una medida de distancia entre una variable aleatoria y su media.

Desviación estándar y la norma $L_2$

Caso de dimensión finita:

En un espacio vectorial dimensional $n$, la norma euclidiana estándar también conocida como la $L_2$ norma se define como:

$$\|\mathbf{x}\|_2 = \sqrt{\sum_i x_i^2}$$

De manera más amplia, la $p$-norma $\|\mathbf{x}\|_p = \left(\sum_i |x_i|^p \right)^{\frac{1}{p}}$ toma la raíz $p$ para obtener homogeneidad absoluta: $\|\alpha \mathbf{x}\|_p = \left( \sum_i |\alpha x_i|^p \right)^\frac{1}{p} = | \alpha | \left( \sum_i |x_i|^p \right)^\frac{1}{p} = |\alpha | \|\mathbf{x}\|_p $.

Si tienes pesos $q_i$ entonces la suma ponderada $\sqrt{\sum_i x_i^2 q_i}$ también es una norma válida. Además, es la desviación estándar si $q_i$ representan probabilidades y $\operatorname{E}[\mathbf{x}] \equiv \sum_i x_i q_i = 0$

Caso de dimensión infinita:

En un Espacio de Hilbert infinito dimensional también podemos definir la $L_2$ norma:

$$ \|X\|_2 = \sqrt{\int_\omega X(\omega)^2 dP(\omega) }$$

Si $X$ es una variable aleatoria con media cero y $P$ es la medida de probabilidad, ¿cuál es la desviación estándar? Es la misma: $\sqrt{\int_\omega X(\omega)^2 dP(\omega) }$.

Resumen:

Tomar la raíz cuadrada significa que la desviación estándar cumple con la homogeneidad absoluta, una propiedad requerida de una norma.

En un espacio de variables aleatorias, $\langle X, Y \rangle = \operatorname{E}[XY]$ es un producto interno y $\|X\|_2 = \sqrt{\operatorname{E}[X^2]}$ la norma inducida por ese producto interno. Así que la desviación estándar es la norma de una variable aleatoria sin media: $$\operatorname{Stdev}[X] = \|X - \operatorname{E}[X]\|_2$$ Es una medida de la distancia desde la media $\operatorname{E}[X]$ hasta $X$.

(Punto técnico: mientras que $\sqrt{\operatorname{E}[X^2]}$ es una norma, la desviación estándar $\sqrt{\operatorname{E}[(X - \operatorname{E}[X])^2]}$ no es una norma sobre variables aleatorias en general porque un requisito para un espacio vectorial normado es $\|x\| = \mathbf{0}$ si y solo si $x = \mathbf{0}$. Una desviación estándar de 0 no implica que la variable aleatoria sea el elemento cero.)

2 votos

Esta respuesta realmente va al corazón del problema, haciéndola más informativa que la actualmente aceptada.

28voto

Sosaa Puntos 1

La varianza de $X$ se define como $V(X) = E(X-E(X))^2$, por lo que es una expectativa de la diferencia al cuadrado entre X y su valor esperado.

Si $X$ es el tiempo en segundos, $X-E(X)$ está en segundos, pero $V(X)$ está en $\mbox{segundos}^2$ y $\sqrt{V(X)}$ está de nuevo en segundos.

0 votos

Ah ya veo, ¿es solo deshacer el cambio en la escala que resultó de elevar al cuadrado las diferencias, en el cálculo de la varianza?

12 votos

Correcto, pero con cambio en dimensiones, no en escala.

0 votos

Pero no es como si hubiera un solo término ahí: hay muchos y cada uno al elevarlo al cuadrado, aporta más o menos que otros términos. Pero cuando tomamos la raíz cuadrada, de alguna manera ignoramos esa diferencia, ¿verdad? No obtendríamos el numerador inicial, la suma de todas las diferencias de esa manera. ¿No sería mejor tomar la raíz cuadrada de cada término individual?

6voto

hassan789 Puntos 108

La respuesta simple es que las unidades están en la misma escala que la media. Por ejemplo: Estimo que la media para los estudiantes de secundaria es de 160 cm con una desviación estándar (DE) de 20 cm. Es intuitivamente más fácil tener una idea de la variación con la DE que con la varianza de 400 cm^2.

0voto

Cassandra Puntos 6

En términos más simples, la desviación estándar está diseñada para darnos un número positivo que indique algo sobre la dispersión de nuestros datos alrededor de su media.

Si simplemente sumáramos las distancias de todos los puntos respecto a la media, entonces los puntos en direcciones positivas y negativas se combinarían de manera que tienden a gravitar de regreso hacia la media y perderíamos información sobre la dispersión. Por eso medimos la varianza primero, para que todas las distancias se conserven como cantidades positivas a través del cuadrado y no se cancelen entre sí. Al final, queremos obtener un valor positivo que represente las unidades con las que comenzamos, como se mencionó anteriormente, por lo que tomamos la raíz cuadrada positiva.

-5voto

Melanie Stacey Puntos 11

Es una estupidez histórica que continuamos debido a la pereza intelectual. Optaron por elevar al cuadrado las diferencias respecto a la media para deshacerse del signo negativo. Luego tomaron la raíz cuadrada para llevarlo a una escala similar a la media.

Alguien debería generar nuevas estadísticas, calculando la varianza y la desviación estándar utilizando el módulo o los valores absolutos de la desviación respecto a la media. Esto eliminaría toda esta cuestión de elevar al cuadrado y luego tomar la raíz cuadrada.

2 votos

Ya contamos con eso, en forma de la desviación absoluta promedio (o mediana), normas L1, y similares. Sin embargo, la principal ventaja del enfoque tradicional es que, a diferencia de los valores absolutos, es diferenciable, lo que te permite minimizar y maximizar cosas analíticamente.

2 votos

No has proporcionado una justificación sustantiva para tu postura, por favor proporciona un argumento matemático claramente establecido. La suma de los valores absolutos escala de manera muy diferente a la raíz cuadrada de la suma de los cuadrados. Esto último enfatiza la contribución de los valores extremos, lo cual es una propiedad útil. Además, SSQ es central para los métodos analíticos de mínimos cuadrados. Por favor, toma el tiempo para expandir sobre los problemas de SD y cómo se comparan las alternativas para que los lectores puedan entender tu punto de vista.

0 votos

(-1) Es demasiado fácil interpretar frases como "estupidez histórica" y "pereza intelectual" como autorreferenciales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X