7 votos

¿Es informativa la desviación estándar de un conjunto de datos binomiales?

Estoy trabajando con un conjunto de datos de presencia/ausencia, siendo mi variable de respuesta la "proporción de sitios donde X está presente". Me han pedido que proporcione las desviaciones estándar junto con las proporciones medias. Sin embargo, me parece que la desviación estándar de un conjunto de datos binomial es una función polinómica de la propia proporción y no proporciona información adicional sobre la variabilidad de los datos subyacentes. Por ejemplo, si una proporción de datos es 0,3, no debería importar si esa proporción se derivó de datos de presencia/ausencia de 10, 100 o 100.000 sitios, la desviación estándar debería ser la misma.

Cuando hago un conjunto de datos de muestra y grafico la proporción media frente a la desviación estándar, puedo modelarlo con una función polinómica de 6º orden con una R al cuadrado de 1,00.

Entonces, ¿alguien puede confirmar mi sospecha: que las desviaciones estándar son una propiedad inherente a la proporción en un conjunto de datos binomial y, por lo tanto, no aportan ninguna información adicional sobre el conjunto de datos del que procede esa proporción?

3 votos

Deberías ser capaz de modelar la DS incluso mejor como la raíz cuadrada de una función cuadrática, porque para una proporción $p$ en un conjunto de datos de tamaño $n$ la DE del total es $\sqrt{np(1-p)}$ .

1 votos

@whuber: Creo que para la variable Binomial (así que para la cuenta de éxitos), la desviación estándar es $\sqrt{np(1-p)}$ pero para el proporción de éxitos la desviación estándar es $\sqrt{\frac{p(1-p)}{n}}$ Ver mi respuesta a esta pregunta.

0 votos

@fcoppens Así es, por eso me preocupé de describirlo como la DS del total.

9voto

fcop Puntos 2891

Si se tiene una variable aleatoria binomial $X$ de tamaño $N$ y con probabilidad de éxito $p$ es decir $X \sim Bin(N;p)$ entonces la media de X es $Np$ y su varianza es $Np(1-p)$ Así que, como dices, la varianza es un polinomio de segundo grado en $p$ . Sin embargo, hay que tener en cuenta que la varianza también depende de $N$ ¡! Esto último es importante para estimar $p$ :

Si se observan 30 aciertos en 100 entonces la fracción de aciertos es 30/100 que es el número de aciertos dividido por el tamaño de la Binomial, es decir. $\frac{X}{N}$ .

Pero si $X$ tiene media $Np$ entonces $\frac{X}{N}$ tiene una media igual a la media de $X$ dividido por $N$ porque $N$ es una constante. En otras palabras $\frac{X}{N}$ tiene media $\frac{Np}{N}=p$ . Esto implica que la fracción de éxitos observados es un estimador insesgado de la probabilidad $p$ .

Para calcular la varianza del estimador $\frac{X}{N}$ tenemos que dividir la varianza de $X$ por $N^2$ (La varianza de una (variable dividida por una constante) es la (varianza de la variable) dividida por la cuadrado de la constante), por lo que la varianza del estimador es $\frac{Np(1-p)}{N^2}=\frac{p(1-p)}{N}$ . La desviación estándar del estimador es la raíz cuadrada de la varianza, por lo que es $\sqrt{\frac{p(1-p)}{N}}$ .

Por lo tanto, si se lanza una moneda 100 veces y se observan 49 caras, entonces $\frac{49}{100}$ es un estimador de la probabilidad de sacar cara con esa moneda y la desviación estándar de esta estimación es $\sqrt{\frac{0.49\times(1-0.49)}{100}}$ .

Si se lanza la moneda 1.000 veces y se observan 490 caras, se estima que la probabilidad de volver a lanzar cara es de $0.49$ y el desarrollo estándar en $\sqrt{\frac{0.49\times(1-0.49)}{1000}}$ .

Evidentemente, en el segundo caso la desviación estándar es menor y, por tanto, el estimador es más preciso cuando se aumenta el número de lanzamientos.

Se puede concluir que, para una variable aleatoria binomial, la varianza es un polinomio cuadrático en p, pero depende también de N y creo que la desviación estándar sí contiene información adicional a la probabilidad de éxito.

De hecho, la distribución Binomial tiene dos parámetros y siempre se necesitarán al menos dos momentos (en este caso la media (=primer momento) y la desviación estándar (raíz cuadrada del segundo momento) ) para identificarla completamente.

P.D. Un desarrollo algo más general, también para poisson-binomial, puede encontrarse en mi respuesta a Estimar la precisión de una estimación sobre la distribución binomial de Poisson .

8voto

eldering Puntos 3814

La familia de las distribuciones de Bernouli está completamente parametrizada por un número, normalmente llamado $p$ . Así que cualquier estadística poblacional de una distribución Bernouli debe sea alguna función del parámetro $p$ . Esto no significa que esas estadísticas sean descriptivamente inútiles.

Por ejemplo, puedo describir completamente una caja dando su longitud, anchura y altura, pero el volumen sigue siendo una estadística útil.

0 votos

Espera, ¿es esto correcto? ¿No me refiero a la distribución de Bernoulli? Siento que debería cambiarlo, pero tiene unos cuantos votos a favor...

1 votos

Sí, es un error bastante comprensible, ya que Bernouli y el binomio están muy relacionados. Lo he editado para ti.

2voto

EdM Puntos 5716

Puedes pensar que tienes un punto si ya sabías el verdadero valor del parámetro binomial $p$ y que realmente se trataba de un experimento binomial (ensayos independientes de Bernoulli a constante $p$ ). Con $N$ casos, la varianza del número de aciertos en un experimento binomial es $N p (1-p)$ y (ingenuamente) dividiendo por $N$ para obtener la varianza en la proporción de éxitos daría un valor independiente de $N$ . Pero hay dos problemas con esto. En primer lugar, si se conoce el valor de $p$ no sería necesario hacer este análisis. En segundo lugar, como señala @f-coppens, este enfoque ingenuo para determinar la varianza de la proporción de éxito observada es incorrecto.

Lo que tiene es una estimación de $p$ basado en una muestra de $N$ casos. Los intervalos de confianza alrededor de su estimación de $p$ dependen del valor de $N$ mejorando aproximadamente con la raíz cuadrada de $N$ . Sospecho que ese es el punto que su inquisidor está tratando de hacer. Véase la página de Wikipedia sobre el distribución binomial para las fórmulas de los intervalos de confianza. Y esto ni siquiera entra en si todas sus muestras son modeladas por un solo parámetro $p$ .

0 votos

Si se divide una variable por una constante N, entonces hay que dividir la varianza por $N^2$ ¡! Vea mi respuesta a esta pregunta.

0 votos

@f-coppens Estoy corregido, y he editado mi respuesta en consecuencia. Gracias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X