14 votos

¿De qué manera la precisión de una encuesta depende del tamaño de la muestra y tamaño de la población?

Que encuesta es más preciso? Suponga que las muestras son tomadas a la perfección al azar.

  1. Una muestra de 100 personas de una población de 1000 (de la muestra es de 10% de la población)

  2. Una muestra de 1000 personas de una población de 1000000 (de la muestra es de 0,1% de la población)


Recuerdo que mi profesor dijo algo así como que "cuando el tamaño de la muestra es pequeño en comparación con la población, la exactitud depende casi todos en el tamaño de la muestra, el tamaño de la población es de poca importancia" . Hay un nombre para ese resultado? Es bastante sorprendente a primera.

Me encantaría ver algunas gráficas de estas funciones.

Si ayuda, he aquí un ejemplo concreto (hecha por mí).

Un desconocido de la proporción p de la población a favor del candidato de Alice. El resto favor Bob. Tomamos una muestra aleatoria de tamaño k de la población (tamaño n), y pedir a sus preferencias, para obtener una estimación de p-hat.

¿Cómo afecta la exactitud de la p-hat dependen de k y n? Y en el límite de $n\to\infty$?

No recuerdo cómo cuantificar con exactitud. Supongo que se podría tomar el valor esperado $\mathbb{E}|\hat{p} - p|$

13voto

Markus Scheuer Puntos 16133

Nota: Para conveniencia solamente voy a usar en el siguiente $N$ para el tamaño de la población y $n$ para el tamaño de la muestra.

Con el fin de responder OPs preguntas que comienzan con algunos trabajos preliminares y describir la situación actual en algo más de detalle.

Situación actual:

Aquí tenemos un muestreo aleatorio simple, lo que significa que cada combinación posible de $n$ unidades de una población de tamaño $N$ tiene la misma probabilidad de ser la muestra seleccionada.

Estamos en un muestreo situación en la que el objeto es estimar la proporción de unidades en una población de tener algunos atributos. En tal situación, la variable de interés es una variable de indicador: $y_i=1$ si la unidad $i$ tiene el atributo, y $y_i=0$ si no lo hace.

Escrito $p$ para la proporción de la población de tamaño $N$ con el atributo \begin{align*} p=\frac{1}{N}\sum_{i=1}^{N}y_i=\mu \end{align*} el finitos de la varianza de la poblaciónes \begin{align*} \sigma^2&=\frac{\sum_{i=1}^{N-1}(y_i-p)^2}{N-1}=\frac{\sum_{i=1}^{N-1}y_i^2-Np^2}{N-1} =\frac{Np-Np^2}{N-1}\\ &=\frac{N}{N-1}p(1-p) \end{align*} Ahora dejando $\hat{p}$ el valor de la proporción en la muestra de tamaño $n$ con el atributo \begin{align*} \hat{p}=\frac{1}{n}\sum_{i=1}^n{y_i}=\bar{y} \end{align*} la varianza de la muestraes \begin{align*} s^2&=\frac{\sum_{i=1}^{n-1}(y_i-\bar{y})^2}{n-1}=\frac{\sum_{i=1}^{n-1}y_i^2-n\hat{p}^2}{n-1}\\ &=\frac{n}{n-1}\hat{p}(1-\hat{p})\\ \end{align*}

Nota en el ejemplo de proporción es la media muestral de una muestra aleatoria simple, es imparcial para la proporción de la población y ha varianza \begin{align*} \mathop{var}(\hat{p})=\frac{N-n}{N-1}\cdot\frac{p(1-p)}{n}\tag{1} \end{align*}

Antes de que podamos responder OPs preguntas que tenemos que hacer algunos generales

Consideraciones con respecto a la exactitud:

Suponga que se desea estimar un parámetro de población $\theta$ - por ejemplo, la población total o la proporción de un atributo de las unidades de la población con un estimador $\hat{\theta}$. A continuación, nos gustaría que la estimación se acerque el valor verdadero con una alta probabilidad.

Así, la especificación de una diferencia máxima permisible $d$ entre la estimación y el valor verdadero, y de permitir una pequeña probabilidad de $\alpha$ que el error puede exceder de la diferencia, el desafío es elegir un tamaño de la muestra $n$ tal que \begin{align*} P(|\hat{\theta}-\theta|>d)<\alpha\tag{2} \end{align*} Si el estimador $\hat{\theta}$ es un imparcial, normalmente distribuido estimador de $\theta$, $\frac{\hat{\theta}-\theta}{\sqrt{\mathop{var}(\hat{\theta})}}$ tiene una distribución normal estándar. Dejando $z$ denotar la parte superior $\frac{\alpha}{2}$ punto de la distribución normal estándar de los rendimientos de \begin{align*} P\left(\frac{|\hat{\theta}-\theta|}{\sqrt{\mathop{var}(\hat{\theta})}}>z\right) =P\left(|\hat{\theta}-\theta|>z\sqrt{\mathop{var}(\hat{\theta})}\right)=\alpha \end{align*}

Ahora, desde la $d$ y la expresión (2) nos proporcionan una idea precisa de precisión, estamos listos para la cosecha.

Observar, que la varianza del estimador $\hat{\theta}$ disminuye con un aumento en el tamaño de la muestra $n$, por lo que la desigualdad anterior, estarán satisfechos si podemos elegir $n$ lo suficientemente grande como para hacer \begin{align*} z\sqrt{\mathop{var}(\hat{\theta})}\leq d\tag{3} \end{align*}

Estos son los parámetros relevantes para lidiar con exactitud. Luego consideraremos

Tamaño de la muestra $n$ para la estimación de una proporción:

Para obtener un estimador $\hat{p}$ probabilidad de tener al menos $1-\alpha$ de ser no más lejos, a continuación, $d$ de la población, la proporción, el tamaño de la muestra fórmula basada en la aproximación normal da de acuerdo a (1) y (3) \begin{align*} \mathop{var}(\hat{\theta})&=\frac{d^2}{z^2}\\ \frac{N-n}{N-1}\cdot\frac{p(1-p)}{n}&=\frac{d^2}{z^2}\\ \end{align*} Obtenemos mediante el establecimiento $n_0=\frac{z^2}{d^2}p(1-p)$ \begin{align*} n=\frac{1}{\frac{N-1}{N}\cdot\frac{1}{n_0}+\frac{1}{N}}\tag{3} \end{align*}

Tenga en cuenta que la fórmula depende de la desconocida de la población proporción $p$. Dado que ninguna estimación de $p$ está disponible, el peor de los casos el valor de $p=\frac{1}{2}$ puede ser utilizado en la determinación del tamaño de la muestra. Este enfoque se justifica ya que la cantidad de $p(1-p)$, y por lo tanto el valor de $n$ asume su valor máximo cuando $p=\frac{1}{2}$.

Nota: Al $N$ es grande en comparación con el tamaño de la muestra $n$, entonces la fórmula (3) se reduce a

\begin{align*} n&\simeq \lim\limits_{N\rightarrow \infty}\frac{1}{\frac{N-1}{N}\cdot\frac{1}{n_0}+\frac{1}{N}}=n_0 \end{align*} Desde entonces $n=n_0$ obtenemos \begin{align*} n=\frac{z^2}{d^2}p(1-p)\tag{4} \end{align*} y vemos que de acuerdo con el OPs profesor, que en caso de que el tamaño de la muestra $n$ es pequeña comparada con el tamaño de la población de la exactitud $d$ depende de la muestra solamente.

Con respecto a uno de OPs preguntas que yo no soy consciente de que un término específico para esta circunstancia. Pero, a veces, esto se denomina corrección por población finita.

Cuál es el escenario más preciso:

Para responder a esta pregunta ahora transformación (3) para obtener la diferencia de $d$

\begin{align*} d=z\sqrt{\frac{N-n}{(N-1)n}p(1-p)} \end{align*}

Suponiendo una estimación de la proporción verdadera con una probabilidad de $0.95$ ($\alpha=0.05$) y tomando el peor de los casos la probabilidad de $p=0.5$ obtenemos la fórmula

\begin{align*} d=1.96\sqrt{\frac{N-n}{(N-1)n}\cdot\frac{1}{2}\cdot\frac{1}{2}}=0.98\sqrt{\frac{N-n}{(N-1)n}} \end{align*}

Observamos en el caso 1: $N=1000, n=100$ \begin{align*} d=0.98\sqrt{\frac{900}{999\cdot100}}\simeq 0.0930 \end{align*} y en el caso 2: $N=100000, n=1000$ \begin{align*} d=0.98\sqrt{\frac{999000}{999999\cdot1090}}\simeq 0.0310 \end{align*}

y la conclusión, que la precisión del caso 2 es mayor que la del caso 1, siempre que la interpretación está de acuerdo con los modelos anteriores.

Nota: Esta respuesta se basa principalmente en el Muestreo, en el capítulo 5: cálculo de las Proporciones, razones y Subpoblación Significa por Steven K. Thompson.

10voto

David K Puntos 19172

Desde que pidió gráficos, voy a hacer que su ejemplo, incluso un poco más específicos. Supongamos que en el ejemplo tomamos, $60\%$ de los votantes prefieren Alice. Para un tamaño de muestra de $100,$ eso significa que teníamos $60$ respuestas para Alice.

Así que parece que Alice está por delante de Bob, ¿no? Pero ¿qué seguridad tenemos? Para evaluar la exactitud de nuestra encuesta, podemos probar la configuración de un solo lado $95\%$ intervalo de confianza encontrando el menor porcentaje de la población que prefieren Alice que hay al menos un $5\%$ de probabilidad de que nos habría conseguido, al menos, $60$ respuestas favoreciendo Alice fuera de $100$ total de respuestas.

Si el tamaño de la población se $100,$ tendríamos encuestados todo de la población, y el intervalo de confianza sería empezar a $60\%$ (error cero). Si el tamaño de la población se acaba de $105$, de los cuales sólo $61$ ($58.1\%$) favorecido Alice, todavía quedaría mejor que un $5\%$ de probabilidad de que podríamos llegar a $60$ o más respuestas para Alice; pero si la gente menos favorecida Alice, entonces no habría menos de un $5\%$ de probabilidad de $60$ de respuestas favorables. Así que nos pusimos en la $95\%$ intervalo de confianza al $58.1\%$ o mayor, que es un error máximo de $1.9\%$ en la dirección de overcounting (que es, según nuestras estimaciones, podría ser mucho más alto que el verdadero porcentaje).

Como el tamaño de la población aumenta, el error máximo (en una dirección) aumenta rápidamente al principio, pero pronto comienza a estabilizarse. La siguiente tabla muestra los errores de los tamaños de población de hasta el $3000$.

enter image description here

Para una población de $1000$, nuestra muestra de $100$ ($60$de respuestas favorables) tiene un (a una cara) error de $8.2\%$ a $95\%$ de nivel de confianza. Pero el error crece muy lentamente después de eso. De hecho, nunca será más grande que alrededor de $8.7\%$, incluso para las poblaciones de un millón o más. Hay algún efecto de aumentar el tamaño de la población por encima de $1000$ en este ejemplo, pero no es muy dramático.

Por otro lado, supongamos que tenemos una población de un millón de votantes, tomar una muestra de $k$ de los electores de esta población, y encontrar que $60\%$ de ellos prefieren Alice. Si $k=100$ entonces tenemos un solo lado de error de acerca de $8.7\%$ a $95\%$ de nivel de confianza, pero si hacemos $k$ más grande, el error disminuye, como se muestra en el gráfico a continuación.

enter image description here

Para $k=1000$ el error es sólo acerca de la $2.6\%$. Es decir, mientras que para una muestra de $100$ poco de diferencia si la población era de $1000$ o un millón, que hace una gran diferencia si el tamaño de la muestra es $100$ o $1000$.

Podríamos hacer un análisis similar con dos caras intervalos de confianza, cuando nos fijamos en los errores posibles en cualquier dirección. Los resultados contaría la misma historia: poco degradación de la precisión para el $100$de los votantes de la muestra como la la población crece por encima de la $1000,$ pero la gran mejora en la precisión de los cuando se aumenta el tamaño de la muestra.

Eso es lo que su profesor entiende por decir la exactitud depende casi enteramente en el tamaño de la muestra cuando el tamaño de la muestra es pequeño en relación a la población. La única vez que el tamaño de la población hizo una gran diferencia en nuestro ejemplo (el cambio de los límites del intervalo de confianza por más de un punto porcentual) fue cuando la muestra fue considerablemente más de $10\%$ de toda la población.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X