Ha sido un tiempo desde mi última estadística de la clase...
He 404 archivos que pasó por algunos automatizado el proceso de generación. Me gustaría comprobar manualmente algunos de ellos para asegurarse de que sus datos es de hecho correcta. Quiero usar la probabilidad para que me ayude, así que no tengo necesidad de revisar cada archivo.
¿Cómo puedo calcular lo que el tamaño de la muestra que debo utilizar para alcanzar un cierto nivel de confianza?
Por ejemplo, si yo quisiera decir que con un 95% de confianza de que los archivos son correctos, ¿cuántos de ellos tengo que hacer check?
He encontrado una calculadora en línea, pero no estoy totalmente seguro de lo que debo poner para el intervalo de confianza. Decir que me ponga un 20% y dejar el factor de confianza al 95%. Puedo obtener un tamaño de muestra de 23. Supongamos ahora que he probado el 23 de archivos aleatorios y todos ellos estaban bien. Significa eso de que "yo puedo estar 95% seguro de que el 80% al 100% de los archivos son correctos"?
Significa esto, entonces, que para mi pregunta original, yo tendría que usar un 99% de nivel de confianza con un 4% de intervalo de confianza, entonces yo tendría que verificar que la 291 archivos (el tamaño de la muestra que me dio) todas son correctas. Y sólo entonces puedo decir con 95% de confianza que los archivos son correctos? (99% +- 4% = 95% a 100%)
También menciona algo acerca de los porcentajes que no estoy muy claro... ¿el hecho de que la mayoría (es decir, 100%) de los archivos de prueba son válidos (ya que si he encontrado una inválida, me gustaría parar todo el proceso y examinar mi proceso de generación de errores) significa que puedo usar con una muestra más pequeña para obtener el mismo factor de confianza? Si es así, ¿cómo puedo calcular?