47 votos

¿Por qué es tan genial elevar los números al cuadrado (en términos de encontrar la desviación estándar)?

Cuando queremos encontrar la desviación estándar de $\{1,2,2,3,5\}$ lo hacemos

$$\sigma = \sqrt{ {1 \over 5-1} \left( (1-2.6)^2 + (2-2.6)^2 + (2-2.6)^2 + (3-2.6)^2 + (5 - 2.6)^2 \right) } \approx 1.52$$ .

¿Por qué hay que elevar los números al cuadrado y luego a la raíz cuadrada?

54voto

MortenSickel Puntos 123

Introducción de Reid Barton

Creo que la respuesta debe implicar la aditividad de la varianza para las variables independientes y el teorema del límite central. Tal vez alguien pueda aclarar esto.

Respuesta

De hecho, la varianza tiene el propiedad aditiva : si $r_1$ y $r_2$ son variables aleatorias con medias $\mu_1, \mu_2$ y desviaciones $d_1, d_2$ y estas dos variables son independientes entonces la nueva variable aleatoria $r = r_1+r_2$ tiene la media $\mu_1+\mu_2$ y la varianza $d_1+d_2$ .

Además, supongamos que sumamos un gran número $N$ de copias independientes de nuestra variable aleatoria $r$ con la media $\mu$ y la varianza $d$ . Bajo suposiciones leves, el límite central dice que la distribución se aproximará a una distribución normal, que por lo anterior tiene media $N\mu$ y la varianza $Nd$ . Obsérvese que una distribución normal está completamente determinada por su media y su varianza. Concluimos que la sólo Los parámetros de una distribución que podemos observar a partir de la suma de muchas copias independientes de la distribución son la media y la varianza.

Ahora que hemos establecido lo bueno que es cuadrado números, para obtener la varianza, la desviación estándar tiene una explicación muy fácil: es la La única manera de volver de la varianza a algo con la dimensión de nuestro conjunto original . Es decir, supongamos que los números son algunas longitudes escritas en metros . Dado que la varianza es metros al cuadrado , tú tienen para tomar el raíz cuadrada para obtener algo que se pueda comparar con el conjunto original.

Ahora, honestamente, esto no la única manera ya que también se podría, por ejemplo, multiplicar por 2. Por eso se llama estándar desviación - para mostrar que entre diferentes constantes numéricas hemos elegido una específica.

23voto

geocoin Puntos 121

Respuesta corta: Se podría argumentar que lo más natural a la hora de definir una cantidad del tipo "desviación estándar" es utilizar un valor absoluto: $E(|X|)$ pero es realmente molesto tratar con valores absolutos bajo la expectativa, así que usamos la siguiente mejor opción: $\sqrt{E( X^2 )}$ . Todavía se obtiene algo positivo y es más fácil lidiar con el cuadrado interior. Tomamos una raíz cuadrada al final para obtener algo con las mismas "unidades" que $X$ .

Respuesta larga: A menudo es útil pensar en las variables aleatorias como si vivieran en el espacio de funciones $L^2(\Omega)$ y en este escenario, este cálculo da el $L^2$ norma de la variable aleatoria centrada $X - EX$ . Además, con esta perspectiva, la covarianza define es un producto interno.

19voto

Michael Hardy Puntos 4554

Si se aplica la corrección de Bessel -dividiendo por $5-1$ en lugar de por $5$ cuando se tiene $5$ números --- entonces algunas de las cosas, por lo demás correctas, expuestas en algunas de las respuestas son erróneas. La corrección de Bessel está pensada para ser utilizada sólo cuando la varianza que se calcula se basa en una muestra que se utilizará para estimación la varianza de toda la población.

No me extraña que nadie utilizara la varianza y la desviación típica antes de que lo hiciera Abraham de Moivre en el siglo XVIII. De Moivre consideró esta cuestión: Si se lanza una moneda justa $1800$ veces, ¿cuál es la probabilidad de que el número de cabezas esté en un rango determinado? Se tiene una distribución binomial, y calcular sus valores exactos no era factible. De Moivre aproximó la distribución del número de cabezas con una distribución normal con la misma media y la misma desviación estándar. Al hacerlo, fue el primero en introducir la distribución normal, y el primero en demostrar un caso especial del teorema del límite central. La distribución normal con media $0$ y la varianza $1$ es $$ \varphi(x)\,dx=\frac 1 {\sqrt{2\pi}} e^{-x^2/2}\,dx $$ y con la media $\mu$ y la varianza $\sigma^2$ es $$ \varphi\left(\frac{x-\mu}\sigma\right)\, \frac{dx}\sigma. $$ Es fácil encontrar la media y la desviación estándar para el número de caras cuando se lanza una moneda justa: ambas son $1/2$ . ¿Cómo se hace para la suma de $1800$ copias independientes de esa variable aleatoria? De Moivre encontró que la desviación media cuadrática es aditivo para variables aleatorias independientes $X_1,\ldots,X_{1800}$ uno tiene $\operatorname{var}(X_1+\cdots+X_{1800})=\operatorname{var}(X_1)+\cdots+\operatorname{var}(X_{1800})$ . No se puede hacer eso con la desviación media absoluta. Si no recuerdo mal algunos detalles, publicó estos resultados en un artículo en latín mientras vivía en Francia, y en ese momento dio la distribución normal como $$ C e^{-x^2/2}\,dx $$ donde podría encontrar $C$ sólo numéricamente. Más tarde fue a Inglaterra para escapar de la persecución de los protestantes y conoció a James Stirling, quien demostró que $C=1/\sqrt{2\pi}$ . De Moivre escribió un libro en inglés titulado La doctrina del azar que creo que era el inglés del siglo XVIII para la teoría de la probabilidad. Algunos han especulado que el reverendo Thomas Bayes pudo haber estudiado con él, pero no sé si eso ha pasado de ser una especulación.

(Si quieres saber la probabilidad de que el número de cabezas sea $\ge894$ , tenga en cuenta que eso es lo mismo que $\text{“}{>893}\text{''}$ y hallar la probabilidad de que la variable aleatoria normalmente distribuida con la misma media y varianza sea $>893.5$ . Se trata de una "corrección de continuidad" y funciona sorprendentemente bien incluso para muestras bastante pequeñas).

Sobre la corrección de Bessel: ¿Cuándo se utiliza $$ \frac{(x_1-\bar x)^2+\cdots+(x_n-\bar x)^2}{n-1}, $$ donde $\bar x=(x_1+\cdots+x_n)/n$ con $n-1$ en lugar de $n$ en el denominador? Como se puede ver en ejemplos sencillos, eso no sirven al propósito de De Moivre descrito anteriormente: no son aditivos.

Si $X_1,\ldots,X_n$ son una muestra independiente de una población con media $\mu$ y la varianza $\sigma^2$ entonces el valor esperado de $$ \frac{(X_1-\mu)^2+\cdots+(X_n-\mu)^2} n \tag 1 $$ es $\sigma^2$ . Pero si sólo se tiene la muestra y no toda la población, no se sabe $\mu$ y se puede utilizar la media muestral $\bar X$ como una estimación de $\mu$ . Pero el valor esperado de $$ \frac{(X_1-\bar X)^2+\cdots+(X_n-\bar X)^2} n $$ es menor que el valor esperado de $(1)$ . En concreto, un poco de álgebra muestra que $$ \sum_{i=1}^n (X_i-\mu)^2 = \left( \sum_{i=1}^n (X_i-\bar X)^2 \right) + n(\bar X-\mu)^2, \tag 2 $$ y como la expectativa del último término es $\sigma^2$ la del primer término de la derecha en $(2)$ debe ser $(n-1)\sigma^2$ . Así, la corrección de Bessel proporciona una estimación insesgada de la varianza de la población $\sigma^2$ . (Pero su raíz cuadrada no proporciona una estimación insesgada de la desviación estándar de la población. Y la insesgadez está, en el mejor de los casos, algo sobrevalorada, y en algunos casos es algo muy, muy malo (yo tenía un papel en el Boletín Mensual de Matemáticas de Estados Unidos hace unos años demostrando lo malo que puede ser a veces).

12voto

Jake McGraw Puntos 16515

Las respuestas aquí que hacen hincapié en que las respuestas aquí que hacen hincapié en la conveniencia están perdiendo el punto crucial están perdiendo un punto crucial. Hay por lo menos dos maneras de enfocar la varianza (que son más o menos duales entre sí):

(1) Necesito medir la dispersión de una distribución de valores. ¿Qué medida debo utilizar? [Posible respuesta: variante].

-o-

(2) Si defino V[X] = E[(X-E[X])^2], entonces V[X] tiene muchas propiedades agradables y parece relacionarse bien con otras partes de la teoría e incluso con otras partes de las matemáticas. Obviamente, es algo bastante importante desde el punto de vista teórico. ¿Cuáles son sus usos prácticos? [Posible respuesta: como medida de propagación].

Si lo único que le importa es medir la dispersión, entonces la comodidad puede ser la sólo razón para que uses la varianza, si es que la usas. No creo que nadie pueda afirmar seriamente que, entre todas las medidas de dispersión, la varianza es absolutamente la medida de mejor calidad en todas las situaciones. Sí, la varianza es aditiva y permite formular el teorema del límite central, y propiedades como esa son ciertamente muy agradables de tener, tanto en la teoría como en la práctica, pero no la convierten en la mejor medida de dispersión. Así que, desde esta perspectiva, la "conveniencia" suele ser la respuesta correcta.

Por otro lado, como teórico, probablemente querrás desarrollar la teoría por la vía más fructífera, por lo que serías estúpido si ignoraras la varianza en cualquier caso. Su utilidad como medida de la dispersión es entonces menos importante, y sus propiedades generales son bastante más importantes. Desde esta perspectiva, la "conveniencia" no es realmente la respuesta correcta, ya que no transmite el valor intrínseco que tiene en virtud de la excelente teoría que la rodea.

12voto

Vetle Puntos 413

Una de las respuestas que he oído es que quieres que la noción de desviación estándar 1) se aplique a los puntos del espacio euclidiano y 2) sea invariable bajo la rotación. No se consigue la segunda propiedad a menos que se eleven las distancias al cuadrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X