4 votos

¿Cómo comprobar la fiabilidad de una determinada tecnología de muestreo?

Una pregunta muy básica, sospecho. Es algo así como la inversa de este Y se aplican las mismas advertencias sobre mi propia ignorancia, pero ahí va:

Tengo una tecnología de muestreo. Conozco la población total y sé el número de muestras que he realizado. ¿Cuál es la mejor manera de calcular y expresar la confianza que tengo en que mis resultados son correctos?

Algunos puntos más por si sirven de algo:

  • Mi prueba comprueba si un elemento está en uno de los tres estados (y son los únicos posibles).
  • Estoy asumiendo que la prueba es realmente una distribución aleatoria.
  • En general, mi población total es > 1.000.000 y mi muestra es ~20% de ella, pero puede variar bastante.

Y una arruga (dudo incluso en poner esto porque quiero mantener las cosas simples):

  • Hay un ligero error por el que el valor de la población total que comunico puede ser ligeramente inferior al total real (entre un 5 y un 10%). Puedo obtener el total real si es necesario, pero no me molestaré si no supone realmente una diferencia.

Probablemente sea mejor que sea más preciso si hay diferentes formas de expresarlo. Por ejemplo, algo como "tenemos un 95% de confianza en que esto es correcto" es probablemente mejor que "tenemos un 95% de confianza en que esto es correcto con un 3%". (¿Estoy hablando de P?)

ACTUALIZACIÓN:

Hmm... Creo que mi "arruga" puede haber introducido confusión. No estoy tratando de averiguar la exactitud del total. Puedo obtener el total real, pero tengo que utilizar un método más enrevesado. Así que mi pregunta principal se refería a decir que si tengo 10.000 muestras de 1.000.000 de artículos cómo de seguro puedo estar de que mi distribución muestreada entre los tres estados es correcta.

Mi segunda pregunta (que es la que se me plantea) es: dado que el total real es entre un 5 y un 10% mayor que el que estoy utilizando, ¿qué diferencia supone para mi confianza? En otras palabras, estoy diciendo 1.000.000 de artículos, pero en realidad podrían ser 1.100.000. ¿Debería molestarme en pasar por el enrevesado proceso para obtener el total real, sólo para calcular la confianza? A mí me parece poco probable que eso suponga una diferencia significativa en mi nivel de confianza, pero pensé que debía comprobarlo.

1voto

patfla Puntos 1

Esto parece un simple caso de muestreo hipergeométrico. Así que tienes una distribución de muestreo de:

$$p(r_1,r_2,r_3|R_1,R_2,R_3,I)=\frac{{R_1 \choose r_1}{R_2 \choose r_2}{R_3 \choose r_3}}{{R_1+R_2+R_3 \choose r_1+r_2+r_3}}$$

Las letras mayúsculas denotan los totales de la población y las minúsculas los números de la muestra. $I$ es la información previa sobre el muestreo. Se quiere "invertir" esto para obtener una distribución para $R_{i}$ Sólo hay que utilizar el teorema de Bayes:

$$p(R_1,R_2,R_3|r_1,r_2,r_3,I)=p(R_1,R_2,R_3|I)\frac{p(r_1,r_2,r_3|R_1,R_2,R_3,I)}{p(r_1,r_2,r_3|I)}$$

¡Y ahora tienes una declaración sobre la exactitud de los totales de población!

ACTUALIZACIÓN

En respuesta al comentario, los valores de $R_{j}$ son los totales desconocidos de la población para cada uno de los tres estados - así que si se hubiera muestreado/probado cada elemento, se obtendría $R_{j}$ como las cifras de cada estado. Supongo que estas cantidades son el objetivo de su inferencia - esto es lo que le gustaría saber.

El total de la población $N=R_{1}+R_{2}+R_{3}\approx 1,000,000$ (podemos tener en cuenta un posible error más adelante). También se conocen los números muestreados $r_{1},r_{2},r_{3}$ (el número que ha dado positivo en cada estado de su muestra). El tamaño total de la muestra $n=r_{1}+r_{2}+r_{3}$ .

la cantidad $p(R_1,R_2,R_3|I)$ se llama el prior, y se asigna en base a lo que se conoce sobre los totales de la población más allá de los datos de la muestra. Ahora bien, usted ha afirmado que $N$ es conocida, lo que limita pero no determina la prioridad. Una forma de determinar la prioridad es dividir las tres proposiciones en partes mutuamente excluyentes y exhaustivas, y asignar probabilidades iguales a las que suman $N$ y cero a todo lo demás. Un rápido ejercicio de recuento muestra que hay $\frac{(N+1)(N+2)}{2}$ combinaciones de $R_1,R_2,R_3$ que suman $N$ por lo que la previa conjunta es:

$$p(R_1,R_2,R_3|N,I)=\frac{2}{(N+1)(N+2)}\delta(N-R_1-R_2-R_3)$$

Dónde $\delta(x)=1$ si $x=0$ y $\delta(x)=0$ si $x\neq 0$ . Y puedes calcular la constante de normalización $P(r_1,r_2,r_3|N,I)$ sumando las probabilidades a priori y de muestreo sobre el $R_{j}$ por lo que obtenemos:

$$p(r_1,r_2,r_3|N,I)=\sum_{R_1=0}^{N}\sum_{R_2=0}^{N}\sum_{R_3=0}^{N}p(R_1,R_2,R_3|N,I)p(r_1,r_2,r_3|R_1,R_2,R_3,N,I)$$ $$=\sum_{R_1=0}^{N}\sum_{R_2=0}^{N-R_1}\frac{2}{(N+1)(N+2)}\frac{{R_1 \choose r_1}{R_2 \choose r_2}{N-R_1-R_2 \choose n-r_1-r_2}}{{N \choose n}}$$

Ahora $(N+1)(N+2){N \choose n}=(n+1)(n+2){N+2 \choose n+2}$ y

$$\sum_{R_1=0}^{N}\sum_{R_2=0}^{N-R_1}{R_1 \choose r_1}{R_2 \choose r_2}{N-R_1-R_2 \choose n-r_1-r_2}={N+2 \choose n+2}$$

Así que tenemos:

$$p(r_1,r_2,r_3|N,I)=\frac{2}{(n+1)(n+2)}$$

Y por lo tanto la distribución posterior es:

$$p(R_1,R_2,R_3|r_1,r_2,r_3,N,I)=\frac{2}{(N+1)(N+2)}\frac{\frac{{R_1 \choose r_1}{R_2 \choose r_2}{R_3 \choose r_3}}{{N \choose n}}}{\frac{2}{(n+1)(n+2)}}=\frac{{R_1 \choose r_1}{R_2 \choose r_2}{R_3 \choose r_3}}{{N+2 \choose n+2}}$$

La última forma muestra muy fácilmente cómo generalizar, para los interesados (observando que $2=3-1$ ). Esta posterior tiene expectativa para $R_1$ de:

$$E([R_1+1]|r_1,r_2,r_3,N,I)=\sum_{R_1=0}^{N}\sum_{R_2=0}^{N-R_1}\frac{(R_1+1){R_1 \choose r_1}{R_2 \choose r_2}{R_3 \choose r_3}}{{N+2 \choose n+2}}=\frac{(r_1+1)(N+3)}{n+3}$$ $$\implies E(R_1|r_1,r_2,r_3,N,I)=\frac{(r_1+1)(N-n+n+3)-(n+3)}{n+3}$$ $$=r_1+(N-n)\hat{p}$$

donde $\hat{p}=\frac{r_1+1}{n+3}$ . Se trata del número de observados en la categoría 1 más una estimación del número que queda sin observar en la categoría 1. Ahora para la precisión podemos tomar la varianza - que, utilizando el mismo truco calcular $$E([R_1+1][R_1+2])=\frac{(r_1+1)(r_1+2)(N+3)(N+4)}{(n+3)(n+4)}=E([R_1+1]^2)+E(R_1+1)$$ y nota que $var(R_1)=var(R_1+1)$ obtenemos

$$var(R_1)=E([R_1+1][R_1+2])-E(R_1+1)-[E(R_1+1)]^2$$ $$=\frac{(r_1+1)(N+3)}{n+3}\left[\frac{(r_1+2)(N+4)}{n+4}-1-\frac{(r_1+1)(N+3)}{n+3}\right]$$ que después de algunas tediosas manipulaciones se obtiene:

$$var(R_1)=\frac{\hat{p}(1-\hat{p})}{n+4}(N-n)(N+3)$$

También puedes calcular la media y la varianza de la fracción restante $F=\frac{R_1-r_1}{N-n}$ que vienen dados por:

$$E(F|r_1,r_2,r_3,N,I)=\hat{p}\;\;\;\;\;var(F|r_1,r_2,r_3,N,I)=\frac{\hat{p}(1-\hat{p})}{n+4}\left(1+\frac{n+3}{N-n}\right)$$

Y entonces las cantidades son aproximadamente independientes de $N$ - por lo que la precisión de $N$ no es importante para inferir las proporciones de cada categoría, pero sí lo es la fracción de muestreo.

Una forma de incorporar la incertidumbre sobre $N$ es utilizar una previa uniforme entre a los límites $L_N<N<U_N$ y luego "promediar" el valor de $N$ de la parte posterior:

$$p(R_1,R_2,R_3|r_1,r_2,r_3,I)=\frac{1}{U_N-L_N}\sum_{N=L_N}^{U_N}p(R_1,R_2,R_3|r_1,r_2,r_3,N,I)$$

Pero a menos que los términos de esta suma sean sensiblemente diferentes, el resultado no cambiará mucho. No lo hará en este caso como he demostrado

0voto

Marcel Lamothe Puntos 133

Es posible que busque una prueba de bondad de ajuste para comprobar uno de los siguientes aspectos

  1. si es probable que la distribución de la muestra provenga de la distribución de la población o
  2. si es probable que varias distribuciones muestrales procedan de la misma distribución poblacional desconocida

Mira las pruebas de chi-cuadrado y Kolmogorov-Smirnov.

0voto

Patman Puntos 180

No estoy seguro de lo que quiere decir con "tenemos un 95% de confianza en que esto es correcto" o "tenemos un 95% de confianza en que esto es correcto con un 3%". Algunas preguntas:

  1. ¿Qué quieres saber sobre la población: el número de elementos de la población en cada una de las tres categorías, o la proporción de elementos en cada una de las tres categorías?

  2. ¿Cómo de pequeño tendría que ser su error de estimación respecto a cualquiera de ellos para considerar su resultado "correcto"?

  3. ¿Cómo quiere agregar el error entre las clases?

Sospecho que algunas de estas cosas quedarán más claras si proporciona algunos detalles adicionales sobre su solicitud.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X