18 votos

Método general para obtener el error estándar

No encuentro en ningún sitio un método general para derivar los errores estándar. He buscado en google, en este sitio web e incluso en libros de texto, pero lo único que encuentro es la fórmula de los errores estándar para la media, la varianza, la proporción, la razón de riesgo, etc... y no cómo se llegó a estas fórmulas.

Si alguien pudiera explicarlo de forma sencilla o incluso enlazarme a un buen recurso que lo explique se lo agradecería.

34voto

tylerharms Puntos 79

Lo que quieres encontrar es la desviación típica de la distribución muestral de la media. Es decir, en lenguaje llano, la distribución muestral es cuando eliges $n$ elementos de su población, súmelos y divida la suma por $n$ . A continuación, hallamos la varianza de esta cantidad y obtenemos la desviación típica sacando la raíz cuadrada de su varianza.

Así pues, dejemos que los elementos que elijas estén representados por las variables aleatorias $X_i, 1\le i \le n$ cada una de ellas idénticamente distribuida con varianza $\sigma^2$ . Son muestras independientes, por lo que la varianza de la suma es simplemente la suma de las varianzas. $$ \text{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n\text{Var}\left(X_i\right) = \sum_{i=1}^n\sigma^2 = n\sigma^2 $$

A continuación dividimos por $n$ . En general, sabemos que $\text{Var}(kY)=k^2 \text{Var}(Y)$ por lo que poner $k=1/n$ tenemos

$$ \text{Var}\left(\frac{\sum_{i=1}^n X_i}{n}\right) = \frac{1}{n^2} \text{Var}\left(\sum_{i=1}^n X_i\right) = \frac{1}{n^2} n\sigma^2 = \frac{\sigma^2}{n} $$

Por último, saque la raíz cuadrada para obtener la desviación típica $\dfrac{\sigma}{\sqrt{n}}$ . Cuando no se dispone de la desviación típica de la población, se utiliza la desviación típica de la muestra. $s$ se utiliza como estimación, dando $\dfrac{s}{\sqrt{n}}$ .

Todo lo anterior es cierto independientemente de la distribución del $X_i$ s, pero se plantea la pregunta de qué es lo que realmente quiere do ¿con el error típico? Normalmente, es posible que desee construir intervalos de confianza, y entonces es importante asignar una probabilidad a la construcción de un intervalo de confianza que contenga la media.

Si su $X_i$ s se distribuyen normalmente, esto es fácil, porque entonces la distribución muestral también se distribuye normalmente. Se puede decir que el 68% de las muestras de la media estarán dentro de 1 error estándar de la media real, el 95% estarán dentro de 2 errores estándar, etc.

Si se dispone de una muestra suficientemente grande (o de una muestra más pequeña y la $X_i$ s no son demasiado anormales) entonces se puede invocar el teorema del límite central y decir que la distribución muestral es aproximadamente normalmente distribuidas, y sus declaraciones de probabilidad también son aproximadas.

Un ejemplo es la estimación de una proporción $p$ donde se dibuja $n$ elementos cada uno de una distribución de Bernouilli. La varianza de cada $X_i$ distribución es $p(1-p)$ y, por tanto, el error típico es $\sqrt{p(1-p)/n}$ (la proporción $p$ se estima a partir de los datos). Para pasar a decir que aproximadamente un % de las muestras están dentro de tantas desviaciones típicas de la media, hay que entender cuándo la distribución muestral es aproximadamente normal. El muestreo repetido de una distribución Bernouilli es lo mismo que el muestreo de una distribución Binomial, y una regla empírica común es aproximar sólo cuando $np$ et $n(1-p)$ son $\ge5$ . (Véase wikipedia para una discusión más profunda sobre la aproximación de la binomial con la normal. Véase aquí para ver un ejemplo trabajado de errores estándar con una proporción).

Si, por el contrario, la distribución del muestreo no puede aproximarse mediante una distribución normal, el error típico es mucho menos útil. Por ejemplo, con una distribución muy sesgada y asimétrica no se puede decir que el mismo % de muestras sería $\pm1$ desviación estándar a cada lado de la media, y es posible que desee encontrar una manera diferente de asociar probabilidades con muestras.

6voto

P Schnell Puntos 1308

El error típico es la desviación típica de la estadística (bajo la hipótesis nula, si se está probando). Un método general para hallar el error estándar sería hallar primero la distribución o la función generadora de momentos de la estadística, hallar el segundo momento central y sacar la raíz cuadrada.

Por ejemplo, si está tomando muestras de una distribución normal con media $\mu$ y varianza $\sigma^2$ la media muestral $\bar{X}=\frac{1}{n}\sum_{i=1}^{n} X_i$ se distribuye normalmente con media $\mu$ y varianza $\sigma^2/n$ . Esto puede deducirse de tres propiedades:

  1. La suma de variables aleatorias independientes es normal,
  2. $\mathrm{E}\left[\sum_{i=1}^{n} a_i X_i\right] = \sum_{i=1}^{n} a_i \mathrm{E}\left[ X_i \right]$ ,
  3. Si $X_1$ et $X_2$ son independientes, $\mathrm{Var}\left(a_1 X_1 + a_2 X_2 \right) = a_1^2 \mathrm{Var}\left(X_1\right) + a_2^2 \mathrm{Var}\left( X_2 \right)$ .

Así, el error típico de la media muestral, que es la raíz cuadrada de su varianza, es $\sigma/\sqrt{n}$ .

Hay atajos, como que no necesitas necesariamente encontrar la distribución de la estadística, pero creo que conceptualmente es útil tener las distribuciones en el fondo de tu mente si las conoces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X