La ecuación de la desviación estándar de un conjunto de datos viene dada por $\sqrt{\frac{\sum{(x_{i} - \bar{x}})^2}{N}}$ . ¿Por qué es así y por qué no podemos utilizar $\frac{\sqrt{\sum{(x_{i} - \bar{x}})^2}}{N}$ ¿en su lugar? Las unidades se alinean y no tenemos que preocuparnos por los negativos en este caso también. Muchas gracias de antemano.
Respuestas
¿Demasiados anuncios?La fórmula de la desviación estándar (de la muestra) que das se deriva de la fórmula de la varianza. Veamos primero la definición de la varianza. La varianza de una variable aleatoria $X$ se define como la desviación cuadrada esperada de la media: $$Var(X) = \mathbb{E}\left[(X-\mathbb{E}[X])^2\right].$$ Dado que se trata de una expectativa (es decir, una media), tiene sentido estimarla mediante su versión muestral: $$\hat{v} = \frac{1}{N}\sum_{i=1}^N (x_i -\bar{x})^2,$$ es decir, la media muestral de las desviaciones al cuadrado de la media muestral.
Ahora, mira la definición de la desviación estándar. La desviación típica se define como $$std(X) = \sqrt{Var(X)}.$$ Por lo tanto, tiene sentido estimarlo mediante la raíz cuadrada de nuestro estimador de la varianza: $$s = \sqrt{\hat{v}}.$$
Eso es, $$s = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i -\bar{x})^2}.$$
Sospecho que te sientes como el $1/N$ debería sacarse porque entonces la ecuación "parecería una media" (es decir, dividimos por $N$ ). Pero hay que tener en cuenta que tomamos una media cuando consideramos el desviación La varianza es sólo la media de las desviaciones al cuadrado (de la media) . Se toma la desviación de cada valor con respecto a la media, se eleva al cuadrado esta desviación y se toma la media de todas estas desviaciones al cuadrado. Así se obtiene la varianza. Pero ten en cuenta que cuando elevamos al cuadrado cada desviación, también "elevamos al cuadrado las unidades". Para volver a las unidades originales, tomamos la raíz cuadrada. Esto nos da la desviación estándar.