Lo que quieres encontrar es la desviación típica de la distribución muestral de la media. Es decir, en lenguaje llano, la distribución muestral es cuando eliges $n$ elementos de su población, súmelos y divida la suma por $n$ . A continuación, hallamos la varianza de esta cantidad y obtenemos la desviación típica sacando la raíz cuadrada de su varianza.
Así pues, dejemos que los elementos que elijas estén representados por las variables aleatorias $X_i, 1\le i \le n$ cada una de ellas idénticamente distribuida con varianza $\sigma^2$ . Son muestras independientes, por lo que la varianza de la suma es simplemente la suma de las varianzas. $$ \text{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n\text{Var}\left(X_i\right) = \sum_{i=1}^n\sigma^2 = n\sigma^2 $$
A continuación dividimos por $n$ . En general, sabemos que $\text{Var}(kY)=k^2 \text{Var}(Y)$ por lo que poner $k=1/n$ tenemos
$$ \text{Var}\left(\frac{\sum_{i=1}^n X_i}{n}\right) = \frac{1}{n^2} \text{Var}\left(\sum_{i=1}^n X_i\right) = \frac{1}{n^2} n\sigma^2 = \frac{\sigma^2}{n} $$
Por último, saque la raíz cuadrada para obtener la desviación típica $\dfrac{\sigma}{\sqrt{n}}$ . Cuando no se dispone de la desviación típica de la población, se utiliza la desviación típica de la muestra. $s$ se utiliza como estimación, dando $\dfrac{s}{\sqrt{n}}$ .
Todo lo anterior es cierto independientemente de la distribución del $X_i$ s, pero se plantea la pregunta de qué es lo que realmente quiere do ¿con el error típico? Normalmente, es posible que desee construir intervalos de confianza, y entonces es importante asignar una probabilidad a la construcción de un intervalo de confianza que contenga la media.
Si su $X_i$ s se distribuyen normalmente, esto es fácil, porque entonces la distribución muestral también se distribuye normalmente. Se puede decir que el 68% de las muestras de la media estarán dentro de 1 error estándar de la media real, el 95% estarán dentro de 2 errores estándar, etc.
Si se dispone de una muestra suficientemente grande (o de una muestra más pequeña y la $X_i$ s no son demasiado anormales) entonces se puede invocar el teorema del límite central y decir que la distribución muestral es aproximadamente normalmente distribuidas, y sus declaraciones de probabilidad también son aproximadas.
Un ejemplo es la estimación de una proporción $p$ donde se dibuja $n$ elementos cada uno de una distribución de Bernouilli. La varianza de cada $X_i$ distribución es $p(1-p)$ y, por tanto, el error típico es $\sqrt{p(1-p)/n}$ (la proporción $p$ se estima a partir de los datos). Para pasar a decir que aproximadamente un % de las muestras están dentro de tantas desviaciones típicas de la media, hay que entender cuándo la distribución muestral es aproximadamente normal. El muestreo repetido de una distribución Bernouilli es lo mismo que el muestreo de una distribución Binomial, y una regla empírica común es aproximar sólo cuando $np$ et $n(1-p)$ son $\ge5$ . (Véase wikipedia para una discusión más profunda sobre la aproximación de la binomial con la normal. Véase aquí para ver un ejemplo trabajado de errores estándar con una proporción).
Si, por el contrario, la distribución del muestreo no puede aproximarse mediante una distribución normal, el error típico es mucho menos útil. Por ejemplo, con una distribución muy sesgada y asimétrica no se puede decir que el mismo % de muestras sería $\pm1$ desviación estándar a cada lado de la media, y es posible que desee encontrar una manera diferente de asociar probabilidades con muestras.