Voy a hacer varias declaraciones y, a continuación, probar matemáticamente, en caso de que usted está interesado. Si quieres un resumen rápido, voy a dar uno en la final.
Primero de todos, tanto en el muestreo aleatorio simple (SRS) y el muestreo estratificado le proporcionará una evaluación imparcial y estimador de la media de la población es $\mu$.
Prueba 1:
Denotar por $\bar{x}_{SRS}$ la media de la muestra para el SRS y $\bar{x}_{St}$ la media de la muestra para el muestreo estratificado.
$\bar{x}_{SRS}$ es un estimador imparcial para $\mu$
$$ \begin{aligned} E[\bar{x}_{SRS}] = \frac{1}{N} X_1 + ... + \frac{1}{N} X_N = \bar{X}_{SRS} = \mu \end{aligned} $$
Tomando la anterior, y de su aplicación, dado $L$ estratos, $\bar{x}_{St}$ es un estimador imparcial para $\mu$
$$ \begin{aligned} E[\bar{x}_{St}] &= E[\sum^L_{i=1} W_i \bar{x}_i] \\ &= \sum^L_{i=1} W_i E(\bar{x}_i) \\ &= \sum^L_{i=1} W_i \bar{X}_i \\ &= \frac{N_1 \bar{X}_1 + ... + N_L \bar{X}_L}{N} \\ &= \frac{\tau_1 + ... \tau_L}{N} \\ &= \bar{X} \\ &= \mu \end{aligned} $$
Final de la prueba
Dado que tanto los esquemas de muestreo de dar una estimación objetiva, está bien para el uso. Sin embargo, las varianzas no son iguales, y por lo tanto podemos definir las condiciones bajo las cuales es óptimo para realizar el muestreo estratificado.
Recordemos que $W$ es el peso por el grupo de ie. $\frac{n_h}{N}$.
$$ \begin{aligned} V_{prop} &= \sum^L_{h=1} \frac{w^2_h s^2_h}{n W_h} (\frac{N w_h - n W_h}{N W_h }) \\ &= ( \frac{1}{n} \sum^L_{h = 1} w_h s^2_h) \frac{N-n}{N} \\ &= \frac{N-n}{Nn} \sum^L_{h=1} w_h s^2_h \end{aligned} $$
Recordemos que
$$ \begin{aligned} V_{ran} &= \frac{S^2}{n} (\frac{N-n}{N}) \\ V_{prop} &= \frac{N-n}{Nn} \sum^L_{h=1} W_h S^2_h \\ V_{opt} &= \frac{1}{n} (\sum^L_{h=1} W_h S_h)^2 - \frac{1}{N} \sum^L_{h=1} W_h S^2_h \end{aligned} $$
Recordemos que $W$ es el peso por el grupo de ie. $\frac{n_h}{N}$
$$ \begin{aligned} S^2 &= \frac{1}{N-1} \sum^N_{i=1} (Y_i - \bar{Y})^2 \\ (N-1) S^2 &= \sum^N_{i=1} (Y_i - \bar{Y})^2 \\ &= \sum^L_{h=1} \sum^{N_h}_{i=1} (Y_{hi} - \bar{Y})^2 \\ &= (Y_{hi} - \bar{Y_h} + \bar{Y_h} - \bar{Y})^2 \\ &= \sum^L_{h=1} \sum^{N_h}{i=1} (Y_{hi} - \bar{Y}_h)^2 + \sum^L_{h=1} \sum^{N_h}_{i=1} (\bar{Y}_h - \bar{Y})^2 + 2 \sum^L_{h=1} \sum^{N_h}_{i=1} (Y_{hi} - \bar{Y}_h)(\bar{Y}_h - \bar{Y} \end{aligned} $$
Recordemos que restar la media a partir de una serie de datos es siempre 0. Desde $\sum^{N_h}_{i=1} (Y_{hi} - \bar{Y}_h) = 0$, el tercer término desaparece.
$$ \begin{aligned} S^2_h &= \frac{1}{N_h -1} \sum^{N_h}_{i=1} (Y_{hi} - \bar{y}_h)^2 \\ (N-1) S^2 &= \sum^L_{h=1} (N_h -1) S^2_h + \sum^L_{h=1} N_h (\bar{Y}_h - \bar{Y})^2 \end{aligned}$$
Tenga en cuenta que $f = \frac{n}{N}$ aka corrección por población finita.**
$$ \begin{aligned} V_{ran} ( \bar{y}) &= \frac{1 - f}{n} S^2 \\ &\approx \frac{1-f}{n} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h \bar{Y})^2 \\ V_{SRS} - V_{St} &= \frac{1-f}{n} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum W_h (\bar{Y}_h - \bar{y})^2 - \frac{1}{n} (\sum^L_{h=1} W-h_h S_h)^2 + \frac{1}{N} \sum^L_{h=1} W_h S^2_h \\ &= \frac{1}{n} \sum^L_{h=1} W_h S^2_h - \frac{1}{N} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum W_h (\bar{Y}_h - \bar{Y})^2 + \frac{1}{N} \sum^L_{h=1} W_h S^2_h - \frac{1}{n} (\sum^L_{h=1} W_h S_h)^2 \\ &= \frac{1}{n} \sum^L_{h=1} W_h S^2_h - (\sum^L_{h=1} W_h S_h)^2) + \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 \\ &= \frac{1}{n} \sum^L_{h=1} W_h (S_h \bar{S})^2 + \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 \\ V_{ran} - V_{prop} &= \frac{1-f}{n} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 - \frac{1}{n} W_h S^2_h + \frac{1}{N} W_h S^2_h \\ &= \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 \end{aligned} $$
Interpretación:
Nos fijamos en dos tipos de esquemas de muestreo estratificado, la proporción y el óptimo (Neymar Asignación) y muestran que ambos son mejores que el muestreo aleatorio simple. La asignación proporcional método se realiza mejor que el SRS cuando el siguiente es maximizada:
$$ \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 $$
El único control que tenemos sobre esta expresión es la diferencia entre el$\bar{Y}_h$$\bar{Y}$. Esto significa que si usted tiene los estratos que tienen los medios lejos de la gran media, luego de asignación proporcional le dará una menor varianza, y por lo tanto una óptima, mejor, de la muestra.
El segundo tipo, Neymar o una asignación óptima, nos quiere maximizar el siguiente con el fin de tener la mayor diferencia, y por lo tanto la más pequeña de la varianza:
$$ \frac{1}{n} \sum^L_{h=1} W_h (S_h - \bar{S})^2 + \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 $$
Esto nos da un plazo adicional para la asignación proporcional de arriba. Por lo tanto, una asignación óptima es mejor que el de asignación proporcional, porque si las desviaciones estándar de los grupos son diferentes a los de la gran desviación estándar, entonces este término es más grande que la de arriba. No hay manera de que es de menor tamaño. Por lo tanto, como un resumen:
$$ V_{opt} (\bar{y}_{st}) \leq V_{prop} (\bar{y}_{st}) \leq V_{SRS} (\bar{y}_{SRS}) $$
Tenga en cuenta que las anteriores formulaciones de sostener cuando asumimos $\frac{1}{N} \approx \frac{1}{N_i} \overset{.}{=} 0$ y asumir que $\frac{N_h - 1}{N-1} \approx \frac{N_h}{N}$. Cuando este supuesto no se hace, el de arriba es un poco más complejo, pero aún así sigue.
Probablemente he cometido algunos errores y algunos errores tipográficos; voy a arreglar cuando tengo un poco más de tiempo, pero espero que la idea general viene a través.
TL;DR
La estratificación es siempre mejor, asumiendo la igualdad de los costos de muestreo de cada uno de los estratos. Lo mejor es cuando la media y la desviación estándar de sus estratos son muy diferentes a los de su gran media y la desviación estándar.
Referencias:
Primaria Encuesta de Muestreo 7ª Edición, Richard L. Scheaffer (Autor), III William Mendenhall (Autor), R. Lyman Ott (Autor), Kenneth G. Gerow (Autor), ISBN-13: 978-0840053619