2 votos

8 de 10 Gatos - Muestra óptima

Hace un rato estaba viendo una conferencia de Marcus du Sautoy titulada "Pensar mejor con las matemáticas".

Marcus habla del tamaño de las muestras estadísticas para verificar las afirmaciones sobre la población. En su propio ejemplo, aborda una afirmación sobre la comida para gatos.

En concreto, una marca de comida para gatos de los años 70/80 afirmaba que "8 de cada 10 gatos preferían esta comida para gatos".

En aquella época, la población del Reino Unido era de 7 millones de habitantes. Pero para verificar esta afirmación sólo se necesitaría una muestra relativamente pequeña de 246 personas.

La declaración de ese vídeo es: Para una población de 7 millones de gatos, si tomamos una muestra de 246 gatos, 19 de cada 20 veces la muestra está dentro del 5% del valor verdadero.

Me preguntaba si alguien podría deducirlo, dada la escasa información disponible. O si no, proporcionar un enlace / dirección en este tipo de información.

La conferencia en vídeo con la información está aquí de 13:30 a 15:20 minutos. https://www.youtube.com/watch?v=4PlmsnyWXMw

0voto

manku Puntos 111

Dado que la varianza de una distribución binomial depende de la probabilidad de éxito $p,$ hay que ser específico sobre el valores nulos y alternativos de $p$ para encontrar la potencia de una prueba binomial exacta de $H_0: p = p_0$ contra $H_a: p = p_a.$

Un experimento. Suponga que tiene $p_0 = 0.4, p_a = 0.5, n = 246.$ Para una realización del experimento, rechazamos $H_0$ al nivel de significación del 0,2%. Prueba binomial exacta en R:

set.seed(2021)
x = rbinom(1, 246, .5); x
x/246
[1] 0.5

binom.test(x, 246, p=.4)

    Exact binomial test

data:  x and 246
number of successes = 123, number of trials = 246, p-value = 0.001731
alternative hypothesis: 
  true probability of success is not equal to 0.4
95 percent confidence interval:
 0.4358163 0.5641837
sample estimates:
probability of success 
                   0.5 

Potencia simulada. Para aproximar la potencia de la prueba, nos fijamos en el proporción de rechazos entre 100.000 ejecuciones de experimento. La potencia es aproximadamente del 89%.

n = 246; p.0 = .4; p.a = .5
set.seed(405)
pv = replicate(10^5, binom.test(rbinom(1,n,p.a), n, p=p.0)$p.val)
mean(pv <+ .05)
[1] 0.8863

Sin embargo, $n = 246$ daría una potencia de alrededor del 96% distinguiendo entre $p_0 = 0.8$ y $p_a = 0.7,$ porque las distribuciones binomiales tienen menos variabilidad para estas probabilidades de éxito relativamente grandes (o para las relativamente pequeñas).

n = 246; p.0 = .8; p.a = .7
set.seed(406)
pv = replicate(10^5, binom.test(rbinom(1,n,p.a), n, p=p.0)$p.val)
mean(pv <+ .05)
[1] 0.95787

Nota: Varios programas de software estadístico disponen de procedimientos de "potencia y tamaño de la muestra". Aquí está la salida de una versión reciente de Minitab, para encontrar los tamaños de muestra necesarios para obtener una potencia del 95% para $p_0 = 0.8, p_a = 0.75$ y para $p_0 = 0.8, p_a = 0.75,$ para pruebas que utilizan aproximaciones normales a distribuciones binomiales. (Por supuesto, se requieren muestras algo mayores para una potencia del 96%, como en mi simulación).

Power and Sample Size 

Test for One Proportion

Testing p = 0.8 (versus < 0.8)
 = 0.05

              Sample  Target
Comparison p    Size   Power  Actual Power
        0.75     751    0.95      0.950008
        0.70     200    0.95      0.950561

enter image description here

0voto

user164061 Puntos 281

No he podido verificar la declaración

Para una población de 7 millones de gatos, si tomamos una muestra de 246 gatos, 19 de cada 20 veces la muestra está dentro del 5% del valor verdadero.

Intentando hacer ingeniería inversa de lo que podrían haber hecho, podríamos haber

$$\frac{0.8}{\sqrt{246}} \approx 0.05$$

Pero esa expresión no tiene sentido.


Supongamos que la probabilidad real es 0,8 y que muestreas 246, entonces el resultado de tu experimento tendrá una distribución binomial (siempre que hayas realizado bien el experimento, como el muestreo independiente y sin sesgos, como se menciona en el vídeo).

A continuación se muestra un gráfico de cómo es esta distribución y cuál es la probabilidad de que sea el 5% del valor verdadero.

computation of 5% boundaries and probabilities

Por lo tanto, si el valor verdadero es del 80%, existe una probabilidad del 11,09% de que el porcentaje observado en la muestra se aleje más del 5% del valor verdadero.


Tenga en cuenta que esto es sólo un manera de hacer el cálculo. El cálculo del intervalo que contiene el valor verdadero el 95% de las veces (19 de cada 20 casos), también conocido como intervalo de confianza puede hacerse de diferentes maneras (utilizando distintos enfoques o puntos de vista). Para la estimación de un porcentaje/proporción, las diferentes formas se resumen en esta página de Wikipedia: https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

Pero en cualquier caso, el número de 246 parece demasiado bajo (aunque no es una gran diferencia, con el método que creó la imagen el tamaño correcto sería $n=367$ ).


R-code para hacer la figura:

### settings
n = 246
#n = 367
p = 0.8
q = 1-p
x = 0:n

### plot binomial distribution
plot(x,dbinom(x,n,p), xlim = c(n*0.6,n), 
     pch = 21, col = 1, bg = 1, cex = 0.7, ylim = c(0,0.1),
     ylab = "P(X = x)", xlab = "x", main = "distribution for number of cats that like Whiskas \n among sample of size 246 \n If true percentage would be 80%")

### add upper and lower 5% boundaries
upper = n*p*1.05
lower = n*p*0.95
lines(upper * c(1,1), c(0,1), lty = 2)
lines(lower * c(1,1), c(0,1), lty = 2)
text(upper, 0.03, "5% above true vale", pos = 4, srt = 90, cex = 0.8)
text(lower, 0.03, "5% below true vale", pos = 2, srt = -90, cex = 0.8)

### compute percentages and add to plot
x3 = round((1-pbinom(upper, n, p))*100,2)
x1 = round((pbinom(lower, n, p))*100,2)
x2 = round(100 - (1-pbinom(upper, n, p))*100 - (pbinom(lower, n, p))*100,2)

text(n*p, 0.1, paste0(x2, " %"))
text(n*p*1.1, 0.1, paste0(x3, " %"))
text(n*p*0.9, 0.1, paste0(x1, " %"))

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X