75 votos

Error estándar para la media de una muestra de variables aleatorias binomiales

Supongamos que estoy llevando a cabo un experimento que puede tener 2 resultados, y asumo que la "verdadera" distribución subyacente de los 2 resultados es una distribución binomial con parámetros $n$ y $p$: ${\rm Binomial}(n, p)$.

Puedo calcular el error estándar, $SE_X = \frac{\sigma_X}{\sqrt{n}}$, a partir de la forma de la varianza de ${\rm Binomial}(n, p)$: $$ \sigma^{2}_{X} = npq$$ donde $q = 1-p$. Así que, $\sigma_X=\sqrt{npq}$. Para el error estándar obtengo: $SE_X=\sqrt{pq}$, pero en algún lugar vi que $SE_X = \sqrt{\frac{pq}{n}}$. ¿Qué hice mal?

1 votos

Este artículo es muy útil para entender el error estándar de la media influentialpoints.com/Training/…

1 votos

De acuerdo a mi investigación en Google, parece que el tema relacionado de obtener intervalos de confianza para una distribución binomial es bastante matizado y complicado. En particular, parece que los intervalos de confianza obtenidos de esta fórmula, conocidos como "Intervalos de Wald" (ver es.wikipedia.org/wiki/Intervalo_de_confianza_para_la_proporci%C3%B3n), no se comportan de manera adecuada y deben evitarse. Consulta jstor.org/stable/2676784?seq=1#metadata_info_tab_contents para más información.

107voto

Niall Puntos 51

Parece que estás usando $n$ dos veces de dos maneras diferentes, tanto como el tamaño de la muestra y como el número de ensayos de Bernoulli que componen la variable aleatoria binomial; para eliminar cualquier ambigüedad, voy a usar $k$ para referirme a este último.

Si tienes $n$ muestras independientes de una ${\rm Binomial}(k,p)$ distribución, la varianza de su media muestral es

$$ {\rm var} \left( \frac{1}{n} \sum_{i=1}^{n} X_{i} \right) = \frac{1}{n^2} \sum_{i=1}^{n} {\rm var}( X_{i} ) = \frac{ n {\rm var}(X_{i}) }{ n^2 } = \frac{ {\rm var}(X_{i})}{n} = \frac{ k pq }{n} $$

donde $q=1-p$ y $\overline{X}$ es la misma media. Esto sigue ya que

(1) ${\rm var}(cX) = c^2 {\rm var}(X)$, para cualquier variable aleatoria, $X$, y cualquier constante $c$.

(2) la varianza de la suma de variables aleatorias independientes es igual a la suma de las varianzas.

El error estándar de $\overline{X}$ es la raíz cuadrada de la varianza: $\sqrt{\frac{ k pq }{n}}$. Por lo tanto,

  • Cuando $k = n$, obtienes la fórmula que mencionaste: $\sqrt{pq}$

  • Cuando $k = 1$, y las variables binomiales son simplemente ensayos de Bernoulli, obtienes la fórmula que has visto en otros lugares: $\sqrt{\frac{pq }{n}}$

0 votos

Está bien, muy bien. Ahora, no entiendo por qué decimos que la varianza de la Binomial es $npq$. ¡Me falta algo entre la varianza de la Binomial y la varianza de la muestra, aparentemente? - En realidad: $Var(X) = pq$ cuando $X$ es Binomial(n,p) (al parecer eso es lo que indica tu derivación)??

3 votos

Cuando $X$ es una variable aleatoria Bernoulli, entonces ${\rm var}(X) = pq$. Cuando $X$ tiene una variable aleatoria binomial basada en $n$ ensayos con probabilidad de éxito $p$, entonces ${\rm var}(X) = npq$.

0 votos

@Frank, También he editado mi respuesta desde que comentaste - Creo que esta respuesta se ajusta más a lo que estabas preguntado.

21voto

Steve Puntos 5033

Es fácil confundir dos distribuciones binomiales:

  • distribución del número de éxitos
  • distribución de la proporción de éxitos

npq es el número de éxitos, mientras que npq/n = pq es la proporción de éxitos. Esto resulta en fórmulas de error estándar diferentes.

0 votos

Esta es, sin duda, la explicación más concisa.

12voto

AJFaraday Puntos 127

Podemos ver esto de la siguiente manera:

Supongamos que estamos realizando un experimento en el que necesitamos lanzar una moneda imparcial $n$ veces. El resultado general del experimento es $Y$, que es la suma de los lanzamientos individuales (digamos, cara como 1 y cruz como 0). Entonces, para este experimento, $Y = \sum_{i=1}^n X_i$, donde $X_i$ son los resultados de los lanzamientos individuales.

Aquí, el resultado de cada lanzamiento, $X_i$, sigue una distribución de Bernoulli y el resultado general $Y$ sigue una distribución binomial.

El experimento completo se puede pensar como una sola muestra. Por lo tanto, si repetimos el experimento, podemos obtener otro valor de $Y$, que formará otra muestra. Todos los posibles valores de $Y$ constituirán la población completa.

Volviendo al lanzamiento de una sola moneda, que sigue una distribución de Bernoulli, la varianza se da por $pq$, donde $p$ es la probabilidad de cara (éxito) y $q = 1 - p.

Ahora, si miramos la varianza de $Y$, $V(Y) = V(\sum X_i) = \sum V(X_i)$. Pero, para todos los experimentos de Bernoulli individuales, $V(X_i) = pq$. Dado que hay $n$ lanzamientos o ensayos de Bernoulli en el experimento, $V(Y) = \sum V(X_i) = npq$. Esto implica que $Y$ tiene una varianza de $npq.

Ahora, la proporción de la muestra se da por $\hat p = \frac Y n$, lo que da la 'proporción de éxito o caras'. Aquí, $n$ es una constante, ya que planeamos tomar el mismo número de lanzamientos de moneda para todos los experimentos en la población.

Entonces, $V(\frac Y n) = (\frac {1}{n^2})V(Y) = (\frac {1}{n^2})(npq) = pq/n$.

Por lo tanto, el error estándar para $\hat p$ (una estadística de muestra) es $\sqrt{pq/n}$.

0 votos

Puedes usar Latex typesetting poniendo dólares alrededor de tu matemática, por ejemplo, $x$ da $x$.

0 votos

Tenga en cuenta que el paso $V(\sum X_i)=\sum V(X_i)$ realmente merece alguna justificación!

0 votos

Hay un error tipográfico en la última deducción, V(Y/n) = (1/n^2)*V(Y) = (1/n^2)*npq = pq/n debería ser la deducción correcta.

4voto

Jalal El-Shaer Puntos 6027

Creo que también hay cierta confusión en la publicación inicial entre el error estándar y la desviación estándar. La desviación estándar es la raíz cuadrada de la varianza de una distribución; el error estándar es la desviación estándar de la media estimada de una muestra de esa distribución, es decir, la dispersión de las medias que observarías si hicieras esa muestra un número infinito de veces. La primera es una propiedad intrínseca de la distribución; la segunda es una medida de la calidad de tu estimación de una propiedad (la media) de la distribución. Cuando haces un experimento de N ensayos de Bernouilli para estimar la probabilidad desconocida de éxito, la incertidumbre de tu estimación p=k/N después de ver k éxitos es un error estándar de la proporción estimada, sqrt(pq/N) donde q=1-p. La verdadera distribución está caracterizada por un parámetro P, la verdadera probabilidad de éxito. Si hicieras un número infinito de experimentos con N ensayos cada uno y observaras la distribución de éxitos, tendría una media K=P*N, varianza NPQ y desviación estándar sqrt(NPQ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X