6 votos

Tamaño de muestra para un número variable de respuestas

Tengo N diferentes resultados posibles (ex. rojo, amarillo o azul). Voy a una población de tamaño infinito y pedir un montón de gente una pregunta la respuesta a que es una de las opciones N.... Cómo será el tamaño de la muestra necesario para tener un ~95% de confianza que la muestra la distribución de respuestas representa la totalidad de la población?

Por ejemplo, con el rojo, amarillo y azul, ¿cuántas personas necesito para hacer la pregunta antes de que yo pueda tener un buen sentido de lo %s de cada respuesta obtendría entre el total de la población (dentro de un + o-5% de margen de error)? Esos números son menos importantes para mí; lo que importa más es el de la lógica matemática de cómo abordar este problema.

He buscado fórmulas para determinar el tamaño de la muestra, pero todos ellos ocupan en una población variable y no preguntar por el número de resultados posibles. Aquí, mi preocupación es el número de posibles resultados, y la población es infinita.

Gracias!

6voto

alexei.vidmich Puntos 320

Usted debe considerar el modelado de la situación mediante la distribución multinomial. Voy a cambiar de variables como yo prefiero reservar $n$ por tamaño de la muestra y denotan el número de opciones por $K$ (es decir, $K$ representa el número de colores, respuestas, etc).

Deje $p_k$ ser la verdadera proporción de personas en la población que elegir el $k^\text{th}$ elección cuando se presenta con $K$ opciones. Usted puede re-interpretar $p_k$ como la probabilidad de que una persona al azar se elige la $k^\text{th}$ elección cuando se presenta con $K$ opciones. Por lo tanto, por definición, tenemos:

$$\sum_{k=1}^K p_k = 1$$

Deje $x_k$ soporte para el número de personas que optan por las $k^\text{th}$ objeto cuando nos muestra las opciones de $n$ de la gente. Entonces la función de densidad de ${x_k}$ está dado por la multinomial pdf:

$$f(x_1,...x_K|-) = \begin{cases} \frac{n!}{x_1! ... x_K!} p_1^{x_1} ... p_K^{x_K} \quad \text{if} \quad \sum_kx_k=n \\ 0 \quad \text{otherwise}\end{cases}$$

Luego, puede usar al máximo la probabilidad de la teoría a la estimación de $\{p_1,p_2,...p_K\}$ y calcular los intervalos de confianza para estas estimaciones.

Cómputo de los intervalos de confianza también permiten calcular el margen de errores asociados con sus estimaciones para un determinado tamaño de muestra. Estos margen de errores le ayudará a calcular la muestra necesaria tamaños para lograr un margen de error de 5%, con un 95% de confianza.


MLE, el Margen de error y el Tamaño de la Muestra Cálculos

No es difícil mostrar que el MLE estimación de $p_k$ está dada por:

$$\hat{p}_k = \frac{x_k}{n}$$

El de arriba estimador imparcial como:

$$E(\hat{p}_k) = \frac{E(x_k)}{n} = \frac{n p_k}{n}=p_k$$

La varianza del estimador es:

$$V(\hat{p}_k) = \frac{V(x_k)}{n^2} = \frac{n p_k (1-p_k)}{n^2}=\frac{p_k (1-p_k)}{n}$$

Suponiendo que $n$ es lo suficientemente alta, se puede utilizar el teorema del límite central para aproximar la distribución de $\hat{p}_k$ como una normal con la media en $p_k$ y la varianza $\frac{p_k (1-p_k)}{n}$.

Así, el margen de error para un 95% de intervalo de confianza está dado por:

$$1.96 \sqrt{\frac{p_k (1-p_k)}{n}}$$

No sabemos $p_k$ apriori. Sin embargo, una estimación conservadora para $p_k$ que es igual a $K^{-1}$ (es decir, asumimos que todas las opciones son igualmente probables). El argumento anterior es un poco ad-hoc, pero tal vez sirva el OP.

Por lo tanto, tenemos la exigencia de que:

$$1.96 \sqrt{\frac{K^{-1} (1-K^{-1})}{n}} = 0.05$$

Si dejamos $K=3$ obtenemos el tamaño de muestra requerido como $n=341.475$.

PS: La última pregunta sobre la distribución Asintótica de multinomial parece pertinente en el contexto anterior y puede sugerir maneras de prestar el rigor de las ideas anteriores.

0voto

Robert Claypool Puntos 136

Cómo es esto diferente de preguntas independientes sobre una encuesta tal como la que usted votará - rojo, amarillo, etcetera. Si he leído la pregunta correcta, su respuesta es 364 observaciones. Esto proporcionará +-5% a 95% nivel de confianza dada una distribución normal.
Dr. Doug

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X