5 votos

Calcular un tamaño de muestra basado en un nivel de confianza

Ha sido un tiempo desde mi última estadística de la clase...

He 404 archivos que pasó por algunos automatizado el proceso de generación. Me gustaría comprobar manualmente algunos de ellos para asegurarse de que sus datos es de hecho correcta. Quiero usar la probabilidad para que me ayude, así que no tengo necesidad de revisar cada archivo.

¿Cómo puedo calcular lo que el tamaño de la muestra que debo utilizar para alcanzar un cierto nivel de confianza?

Por ejemplo, si yo quisiera decir que con un 95% de confianza de que los archivos son correctos, ¿cuántos de ellos tengo que hacer check?

He encontrado una calculadora en línea, pero no estoy totalmente seguro de lo que debo poner para el intervalo de confianza. Decir que me ponga un 20% y dejar el factor de confianza al 95%. Puedo obtener un tamaño de muestra de 23. Supongamos ahora que he probado el 23 de archivos aleatorios y todos ellos estaban bien. Significa eso de que "yo puedo estar 95% seguro de que el 80% al 100% de los archivos son correctos"?

Significa esto, entonces, que para mi pregunta original, yo tendría que usar un 99% de nivel de confianza con un 4% de intervalo de confianza, entonces yo tendría que verificar que la 291 archivos (el tamaño de la muestra que me dio) todas son correctas. Y sólo entonces puedo decir con 95% de confianza que los archivos son correctos? (99% +- 4% = 95% a 100%)

También menciona algo acerca de los porcentajes que no estoy muy claro... ¿el hecho de que la mayoría (es decir, 100%) de los archivos de prueba son válidos (ya que si he encontrado una inválida, me gustaría parar todo el proceso y examinar mi proceso de generación de errores) significa que puedo usar con una muestra más pequeña para obtener el mismo factor de confianza? Si es así, ¿cómo puedo calcular?

4voto

Martin OConnor Puntos 116

No es de extrañar que estás un poco confundido; la comprensión de lo que realmente está pasando con los intervalos de confianza puede ser complicado.

La versión corta: Si usted no desea comprobar todos los archivos que usted tiene que elegir dos porcentajes diferentes: el nivel de confianza (95% en el ejemplo), y qué tan lejos estás dispuesto a estar a ese nivel (20% en el ejemplo). Estos porcentajes se refieren a dos cantidades diferentes, y por tanto, no tiene sentido sumar o restar uno del otro. Una vez que hayas hecho estas opciones, a continuación, creo que está muy bien para el uso de la calculadora en línea para obtener un tamaño de la muestra.

Si desea obtener más información sobre lo que está pasando, aquí está la explicación: Usted está tratando de estimar el verdadero porcentaje de archivos que tienen los datos correctos. Vamos a llamar a ese porcentaje $p$. Puesto que usted no desea calcular el $p$ exactamente, usted tiene que elegir qué tan lejos estás dispuesto a estar con su estimación, por ejemplo, 20%. Desafortunadamente, usted no puede incluso estar seguro de que su estimación de $p$ será dentro de 20%, por lo que debes elegir un nivel de confianza de que esa estimación será dentro de 20% de % de$p$. Usted ha elegido 95%. Entonces la calculadora en línea le da el tamaño de la muestra, de 23 de usted necesita para estimar el $p$ a un plazo de 20% a 95% de confianza.

Pero, ¿qué hace que el 95% significa realmente? Básicamente, esto significa que si usted tuviera que elegir un montón y un montón de muestras de tamaño 23 y calcular un intervalo de confianza de cada uno de ellos, el 95% de la resultante de los intervalos de confianza, en realidad iba a contener el valor desconocido de $p$. El otro 5% daría un intervalo de algún tipo que no incluye a $p$. (Algunos serían demasiado grandes, otros demasiado pequeños.) Otra forma de verlo es que la elección de un 95% intervalo de confianza significa que usted está eligiendo un método que da resultados correctos (es decir, se produce un intervalo de confianza que contiene realmente el valor de $p$) 95% del tiempo.

Para responder a sus preguntas específicas:

"¿Eso quiere decir que "puedo estar 95% seguro de que el 80% al 100% de los archivos son correctos'?" No precisamente. Lo que realmente significa que usted puede estar 95% seguro de que el verdadero porcentaje de corregir los archivos es de entre el 80% y el 100%. Esa es una distinción sutil.

"Y sólo entonces puedo decir con 95% de confianza que los archivos son correctos? (99% +- 4% = 95% al 100%)?" No, este es el confundir los dos tipos de porcentajes. El 99% se refiere a que el 99% de todos los intervalos de confianza construidos si se va a construir un montón de ellos. El 4% se refiere a un margen de error de $\pm$ 4% para los archivos.

Otra cosa a recordar es que el tamaño de la muestra estimador se supone que la población está dibujo de es mucho, mucho más grande que el tamaño de la muestra se terminan yendo. Ya que su población es bastante pequeño, usted puede conseguir lejos con un menor tamaño de la muestra con el mismo nivel de confianza. La determinación de qué tan pequeña, sin embargo, es mucho más difícil de cálculo. Es más allá de lo que hubiera visto en una estadística básica de la clase. No estoy seguro de cómo hacerlo; tal vez alguien más en el sitio. (EDIT: Incluso mejor: tomar Jyotirmoy Bhattacharya la sugerencia y pregunte en las Estadísticas de Intercambio de la Pila.) Pero esta es la única justificación para ser capaz de utilizar un menor tamaño de la muestra de 23 - no el hecho de que usted podría anular el intervalo de confianza de cálculo si usted encuentra cualquier otra cosa que 100% de la muestra la estimación del verdadero valor de $p$.

1voto

Dillie-O Puntos 193

Vamos a olvidarnos de los intervalos de confianza para un tiempo y tratar de pensar en el tamaño de la muestra problema a partir de primeros principios. Esto también podría responder a @Mike habla de muestras finitas.

Suponga que entre su $N$ archivos de $M$ son buenas y $N-M$ son malos. Si usted escoge una muestra aleatoria de $n$ archivos de la probabilidad de que todas ellas son buenas es:

$$p(n,M) = {{M \choose n} \over {N \choose n}}$$

[This is a special case of the hypergeometric distribution. You can calculate it in Excel as HYPGEOMDIST(n,n,M,N) or in R as dhyper(n,M,N-M,n)]

$p(n,M)$ will be smaller for larger $n$. A large sample is more likely to uncover bad files even if they are rare.

$p(n,M)$ will be larger for larger $M$. Rarer bad files are, the less likely are they to be caught by a sample of a given size.

How large an $n$ should you choose?

If you knew $M$ then you could plot $p(n,M)$ and choose a $n$ large enough to put $p(n,M)$ below the threshold of error you are willing to tolerate.

But the whole point of the exercise is that you don't know $M$. Now it becomes a question of how optimistic or pessimistic you are. If you are an optimist then you will think that your process will either succeed or fail very badly. So if $M$ is not $N$ then it is a very small number. In this case choosing a small $n$ will let you reach your error tolerance.

If you are a pessimist you will think that if your process fails it will produce a bad file only occasionally, i.e. $M$ will be large but not equal to $N$. In this case you will be forced to take a large sample to reach any given error tolerance.

If you want to be formal you could try to codify you pre-sampling beliefs about the value of $M$ in terms of a probability distribution. [I have not seen anyone really do it, though I have seen people sometimes pretend to do so.] Let the probability mass function be $f(m)$. Then the probability of a sample of size $n$ having all good files even if some files are bad is:

$$\pi(n)={1 \over {1-f(N)}}\sum_{m=0}^{N-1} p(n,m)f(m)$$

Now you can choose a large enough $n$ to keep $\pi(n)$ below your error tolerance.

Some additional points:

  • I assumed that the 404 files are all you care about. On the other hand if you care about the process that generated the files, then you should model the process as generating bad files with a probability $q$ and instead of $p(n,M)$ have $p(n,q)=(1-q)^n$.

  • Supuse que por su pregunta que usted está interesado sólo en las dos posibilidades de $M=N$$M \neq N$. La extensión del enfoque de arriba cuando usted se preocupa por la cantidad de archivos que son malos se deja como ejercicio.

  • El error de "tolerancia" que se menciona debe ser un número escogido desde el aire o elegido por la convención. Debería ser el resultado de considerar los costos de las inspecciones, los daños que resultan de la falta de un mal de archivo, y su actitud hacia el riesgo.

Por último, ¿qué acerca de los intervalos de confianza? Son una reliquia bárbara del pasado. En la mayoría de las situaciones no contestar ninguna de las preguntas interesantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X