Si se tiene una variable aleatoria binomial $X$ de tamaño $N$ y con probabilidad de éxito $p$ es decir $X \sim Bin(N;p)$ entonces la media de X es $Np$ y su varianza es $Np(1-p)$ Así que, como dices, la varianza es un polinomio de segundo grado en $p$ . Sin embargo, hay que tener en cuenta que la varianza también depende de $N$ ¡! Esto último es importante para estimar $p$ :
Si se observan 30 aciertos en 100 entonces la fracción de aciertos es 30/100 que es el número de aciertos dividido por el tamaño de la Binomial, es decir. $\frac{X}{N}$ .
Pero si $X$ tiene media $Np$ entonces $\frac{X}{N}$ tiene una media igual a la media de $X$ dividido por $N$ porque $N$ es una constante. En otras palabras $\frac{X}{N}$ tiene media $\frac{Np}{N}=p$ . Esto implica que la fracción de éxitos observados es un estimador insesgado de la probabilidad $p$ .
Para calcular la varianza del estimador $\frac{X}{N}$ tenemos que dividir la varianza de $X$ por $N^2$ (La varianza de una (variable dividida por una constante) es la (varianza de la variable) dividida por la cuadrado de la constante), por lo que la varianza del estimador es $\frac{Np(1-p)}{N^2}=\frac{p(1-p)}{N}$ . La desviación estándar del estimador es la raíz cuadrada de la varianza, por lo que es $\sqrt{\frac{p(1-p)}{N}}$ .
Por lo tanto, si se lanza una moneda 100 veces y se observan 49 caras, entonces $\frac{49}{100}$ es un estimador de la probabilidad de sacar cara con esa moneda y la desviación estándar de esta estimación es $\sqrt{\frac{0.49\times(1-0.49)}{100}}$ .
Si se lanza la moneda 1.000 veces y se observan 490 caras, se estima que la probabilidad de volver a lanzar cara es de $0.49$ y el desarrollo estándar en $\sqrt{\frac{0.49\times(1-0.49)}{1000}}$ .
Evidentemente, en el segundo caso la desviación estándar es menor y, por tanto, el estimador es más preciso cuando se aumenta el número de lanzamientos.
Se puede concluir que, para una variable aleatoria binomial, la varianza es un polinomio cuadrático en p, pero depende también de N y creo que la desviación estándar sí contiene información adicional a la probabilidad de éxito.
De hecho, la distribución Binomial tiene dos parámetros y siempre se necesitarán al menos dos momentos (en este caso la media (=primer momento) y la desviación estándar (raíz cuadrada del segundo momento) ) para identificarla completamente.
P.D. Un desarrollo algo más general, también para poisson-binomial, puede encontrarse en mi respuesta a Estimar la precisión de una estimación sobre la distribución binomial de Poisson .
3 votos
Deberías ser capaz de modelar la DS incluso mejor como la raíz cuadrada de una función cuadrática, porque para una proporción $p$ en un conjunto de datos de tamaño $n$ la DE del total es $\sqrt{np(1-p)}$ .
1 votos
@whuber: Creo que para la variable Binomial (así que para la cuenta de éxitos), la desviación estándar es $\sqrt{np(1-p)}$ pero para el proporción de éxitos la desviación estándar es $\sqrt{\frac{p(1-p)}{n}}$ Ver mi respuesta a esta pregunta.
0 votos
@fcoppens Así es, por eso me preocupé de describirlo como la DS del total.
0 votos
@whuber: ok entonces :-), ¿has mirado mi respuesta?
0 votos
Sí, lo hice. No vi cómo respondía a la pregunta que se hace aquí, aunque contiene toda la información necesaria para una respuesta. ¿Está confirmando o negando la sospecha del OP expresada en el último párrafo?
1 votos
Si el revisor de un manuscrito pidió esto, entonces tal vez el revisor quiso decir alguna medida de precisión para la proporción estimada como un error estándar. ¿No tenemos una ley que dice "Siempre deberás proporcionar una medida de precisión para cada estimación"? Si el revisor realmente quería decir una desviación estándar, entonces una respuesta diplomática sobre por qué los errores estándar son mejores podría funcionar.
0 votos
Si se mide la "proporción de sitios donde está presente X", ¿cómo puede haber una "media"? La proporción es un número único. ¿Hay diferentes conjuntos de sitios $S_i$ y cada conjunto tiene su propia proporción $p_i$ y la "media" de la que hablas es la media de todas $p_i$ ?
0 votos
@Superbest. Sospecho que el número de lugares observados es una muestra de una población mayor de lugares, por lo que la proporción observada es una estimación de la proporción poblacional. Esta es una situación común cuando se hace un muestreo de fauna (o más bien de zonas que potencialmente tienen una determinada especie de fauna). También suele tenerse en cuenta la falta de detección perfecta, ya que puede haber falsos negativos. Pero no hay ninguna indicación al respecto en la descripción.