6 votos

Utilizando regla de tres para obtener el intervalo de confianza para una población binomial

Tengo una gran población de instancias de datos (es decir, 1000 casos) que son de class1 o de class2. Me gustaría obtener un intervalo de confianza para cuántas instancias se de class1 sin una exhaustiva comprobación de todas las instancias. Tengo una muestra aleatoria de 50 casos, y todos los 50 fueron de class1. He utilizado la regla de tres para determinar que un 95% intervalo de confianza para el porcentaje de que una instancia es de class1 [0.94, 1].

Desde mi muestreo, sé que al menos el 50 instancias de class1. Para el resto de 1000 – 50 = 950 instancias cuyas clases son desconocidos, supongo que puedo aplicar el [0.94, 1] intervalo de confianza se encuentra por encima de. Por lo tanto, puedo concluir que, con un 95% de confianza, hay al menos 50 + (1000 – 50)(0.94) = 943 las instancias de la población de 1000 que son de class1?

Si esta conclusión no es estadísticamente sonido, ¿cómo puedo obtener un intervalo de confianza para class1?

3voto

jldugger Puntos 7490

El procedimiento descrito en la pregunta es intuitiva, clara y precisa.

Formulación Del Problema

Formalmente, este es un hipergeométrica problema de muestreo: en una población de $N=1000$ de los sujetos, de los cuales, $K$ son de Clase 1 y $N-K$ están en la Clase 2, una muestra de tamaño $n=50$ es tomado sin sustitución, y se observa que todas las $n$ de ellos son de la Clase 1. Un $95\%$ límite de confianza inferior $K_{0.95}$ $K$ es el valor más pequeño que está de acuerdo con estos datos, en el sentido de que si $K$ fueron menos de $K_{0.95}$, entonces la probabilidad de que cada miembro de la muestra es de la Clase 1 (como resultó ser) sería de menos de $1 - 0.95 = 0.05 = \alpha$, que sería inverosímil.

Solución

En esta oportunidad, como una función de la incógnita $K$, es fácil de calcular. Debido a que la muestra de $n$ pueden ser tomadas de una en una, y cada vez que los valores de ambos $K$ $N$ disminución $1$, es igual al producto de las posibilidades individuales de la observación de un objeto de la Clase 1:

$$P(K,n,N) = \frac{K}{N} \times \frac{K-1}{N-1} \times \cdots \times \frac{K-n+1}{N-n+1}.$$

Este es un producto de una secuencia de la disminución de las fracciones. Desde $n\ll N$, los evidentes límites (basado en la sustitución de cada término de la primera fracción, $K/N$ por un lado y la primera fracción que ha sido omitido, $(K-n)/(N-n)$, por otro lado) dan una excelente aproximación:

$$\left(\frac{K-n}{N-n}\right)^n \lt P(K,n,N) \lt \left(\frac{K}{N}\right)^n.$$

El valor de $K_{0.95}$ por lo tanto se encuentran entre las soluciones de $K$ a

$$n\log\left(\frac{K-n}{N-n}\right) \lt \log(\alpha) \lt n\log\left(\frac{K}{N}\right),$$

dada por

$$n + (N-n)(1 - 3/n) \approx n + (N-n)(1 + \log(\alpha)/n) \gt K;\\K \gt N \exp(\log(\alpha)/n) \approx N \exp(-3/n).$$

(La aparición de $3$ como la aproximación a $-\log(0.05)= 2.9957\ldots$ es la base de esta "Regla de Tres".) Con $N=1000$ $n=50$ hemos

$$941.764 \lt K_{0.95} \lt 943.082$$

(y estos límites no son apreciablemente cambiado por el uso de $3$ en lugar de $-\log(0.05)$).

La mano derecha de valor (límite superior) es el valor propuesto en la pregunta. De hecho, la solución precisa es $K_{0.95} = 943$ porque

$$P(943, 50, 1000) = 0.04924 \lt 0.05 \le 0.051099 = P(944, 50, 1000).$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X