4 votos

Cuando se debe elegir el muestreo Estratificado sobre el muestreo aleatorio?

Hay una regla general a seguir a la hora de decidir cuándo es mejor utilizar uno sobre el otro?

Un ejemplo que estaba viendo era la siguiente:

Un ejemplo podría ser la de determinar las proporciones de los productos defectuosos ser montado en una fábrica. En este caso, el muestreo puede ser estratificados por líneas de producción, fábrica, etc.

4voto

KevinOelen Puntos 76

La otra respuesta es incorrecta, por desgracia. En realidad, lo que debería ser obvio, de lo contrario no estadístico molestaría hacer SRS y que volvería a estratificar en absolutamente inútil variables - ¿por qué no?

Es cierto que la suma de los cuadrados de error dentro de cada estrato caerá (es decir, $\sum (x_i - {\overline{x}})^2$ caerá casi siempre). Esto es similar al hecho de que la adición de nuevas variables a una regresión apenas baje siempre el R-squared incluso si la variable de ruido. Sin embargo, el valor de $s^2$ también implica la división por $n_1 - 1$ e no $n_i$. En otras palabras, si usted tiene $k$ estratos, perderá $k-1$ grados de libertad. Para la estimación de varianzas podría aumentar si la variable de estratificación es lo suficientemente inútil. (El efecto es más grave si los tamaños de muestra son pequeños en algunos estratos. En el extremo, si se les cae a $n_i = 1$, usted no puede incluso calcula el error estándar.)

Evidentemente, una forma rápida de saber si la estratificación ayudaría es ejecutar un análisis de VARIANZA en la variable de estratificación. Si es significativo (o, al menos, el AJUSTADO R-cuadrado se eleva), la estratificación puede ayudar.

En la práctica, les digo a los investigadores que mientras tengan una razonable del tamaño de la muestra disponible de cada uno de los estratos, y la estratificación de la variable que le da sentido (que está seguro de que uno de los estratos son considerablemente diferentes de los de otros estratos), entonces estratificar.

Nota: Mientras que la reducción de las desviaciones es la razón habitual para estratificar, hay otros. En primer lugar, si se quiere garantizar suficiente tamaño de muestra en cada estrato, de manera que usted puede hacer por separado inferencias sobre cada uno de ellos, usted debe estratificar. En segundo lugar, si los costos varían mucho de un estrato a otro, puede estratificar a optimizar los costos. Por último, si la variabilidad es conocida por ser mucho mayor en algunos estratos de los demás, puede utilizar la estratificación (por aumento de tamaño de la muestra en la mayoría de las variables de los grupos) para disminuir la se. Sin embargo, si los costos variables y no distinguir sus estratos, definitivamente se puede obtener un amplio intervalo de confianza si se estratifican en una ineficiente variable.

Voy a ilustrar con un cálculo exacto: voy a empezar con la población $\lbrace 100, 150, 50, 101, 151, 51\rbrace$. En primer lugar voy a enumerar la EXACTA distribución de muestreo de los medios de todas las posibles Muestras Aleatorias Simples (SRS) de tamaño n = 4 de la población. A continuación, voy a dividir esto en dos estratos, cada uno de tamaño tres. Voy a enumerar todos los medios posibles de muestras en función de un SRS de tamaño 2 de cada estrato.

Por último, voy a calcular la exacta "población" de la varianza (es decir, sigma al cuadrado) de cada estadística.

> #The usual unbiased estimator of the mean, 
> #for a SRS of size n = 4 is the mean.  I'll find 
> #its exact sample distribution.
> 
> pop = c(100, 150, 50, 101, 151, 51)
> require(gtools)
> subsets = combinations(n=6, r=4)
> subsets[] = sapply(subsets, FUN=function(x){pop[x]})
> samp_dist = rowMeans(subsets)  # exact sampling distribution of sample means
> samp_dist
 [1] 100.25 112.75  87.75 125.50 100.50 113.00 100.50  75.50  88.00 100.75
[11] 113.00  88.00 100.50 113.25  88.25
> mu = mean(samp_dist)
> sigma2_sampling_dist = sum((samp_dist - mu)^2)/length(samp_dist)
>    # Note:  divided by n because this is a true variance (on a census), not an estimator
> sigma2_sampling_dist
[1] 166.6917
> 
> 
> 
> #Now consider stratification into two strata:
> 
> st1 = c(100, 150, 50)
> st2 = c(101, 151, 51)
>   # Take a SRS of size two from each stratum.  I won't bother with
>   # combinations, as there aren't many possible samples.  Then
>   # take the mean of each, followed by the average of these two means.
> sampling_dist1 = c(mean(c(100,150)),mean(c(100,50)),mean(c(150,50)))
> sampling_dist2 = c(mean(c(101, 151)), mean(c(151, 51)), mean(c(101,51)))
> samp_dist2 = rowMeans(cbind(rep(sampling_dist1, each=3), 
+                                       rep(sampling_dist2,times=3)))
> samp_dist2
[1] 125.5 113.0 100.5 100.5  88.0  75.5 113.0 100.5  88.0
> mu2 = mean(samp_dist2)
> sigma2_sampling_dist2 = sum((samp_dist2 - mu2)^2)/length(samp_dist2)
> sigma2_sampling_dist2
[1] 208.3333

Tenga en cuenta que la verdadera varianza del estimador de la estratificación es mucho mayor que la varianza de la muestra aleatoria simple calculadora. Por cierto, si me repita esto para la población $\lbrace 100, 150, 50, 170, 220, 120\rbrace$, donde los estratos son considerablemente diferentes, me da la estratificación del estimador de trabajo mejor:

exacto varianza de SRS estimador: 289.1667

exacto varianza del estimador de la estratificación: 208.3333

De hecho, probablemente habría sido más fácil probar esto de dar un ejemplo. Pero esto muestra que la estratificación puede dejar de dar una menor varianza del estimador. Observe que en este ejemplo es extremo en que los tamaños de muestra son pequeños.

2voto

codymanix Puntos 12119

Voy a hacer varias declaraciones y, a continuación, probar matemáticamente, en caso de que usted está interesado. Si quieres un resumen rápido, voy a dar uno en la final.

Primero de todos, tanto en el muestreo aleatorio simple (SRS) y el muestreo estratificado le proporcionará una evaluación imparcial y estimador de la media de la población es $\mu$.

Prueba 1:

Denotar por $\bar{x}_{SRS}$ la media de la muestra para el SRS y $\bar{x}_{St}$ la media de la muestra para el muestreo estratificado.

$\bar{x}_{SRS}$ es un estimador imparcial para $\mu$

$$ \begin{aligned} E[\bar{x}_{SRS}] = \frac{1}{N} X_1 + ... + \frac{1}{N} X_N = \bar{X}_{SRS} = \mu \end{aligned} $$

Tomando la anterior, y de su aplicación, dado $L$ estratos, $\bar{x}_{St}$ es un estimador imparcial para $\mu$

$$ \begin{aligned} E[\bar{x}_{St}] &= E[\sum^L_{i=1} W_i \bar{x}_i] \\ &= \sum^L_{i=1} W_i E(\bar{x}_i) \\ &= \sum^L_{i=1} W_i \bar{X}_i \\ &= \frac{N_1 \bar{X}_1 + ... + N_L \bar{X}_L}{N} \\ &= \frac{\tau_1 + ... \tau_L}{N} \\ &= \bar{X} \\ &= \mu \end{aligned} $$

Final de la prueba

Dado que tanto los esquemas de muestreo de dar una estimación objetiva, está bien para el uso. Sin embargo, las varianzas no son iguales, y por lo tanto podemos definir las condiciones bajo las cuales es óptimo para realizar el muestreo estratificado.

Recordemos que $W$ es el peso por el grupo de ie. $\frac{n_h}{N}$. $$ \begin{aligned} V_{prop} &= \sum^L_{h=1} \frac{w^2_h s^2_h}{n W_h} (\frac{N w_h - n W_h}{N W_h }) \\ &= ( \frac{1}{n} \sum^L_{h = 1} w_h s^2_h) \frac{N-n}{N} \\ &= \frac{N-n}{Nn} \sum^L_{h=1} w_h s^2_h \end{aligned} $$

Recordemos que

$$ \begin{aligned} V_{ran} &= \frac{S^2}{n} (\frac{N-n}{N}) \\ V_{prop} &= \frac{N-n}{Nn} \sum^L_{h=1} W_h S^2_h \\ V_{opt} &= \frac{1}{n} (\sum^L_{h=1} W_h S_h)^2 - \frac{1}{N} \sum^L_{h=1} W_h S^2_h \end{aligned} $$

Recordemos que $W$ es el peso por el grupo de ie. $\frac{n_h}{N}$

$$ \begin{aligned} S^2 &= \frac{1}{N-1} \sum^N_{i=1} (Y_i - \bar{Y})^2 \\ (N-1) S^2 &= \sum^N_{i=1} (Y_i - \bar{Y})^2 \\ &= \sum^L_{h=1} \sum^{N_h}_{i=1} (Y_{hi} - \bar{Y})^2 \\ &= (Y_{hi} - \bar{Y_h} + \bar{Y_h} - \bar{Y})^2 \\ &= \sum^L_{h=1} \sum^{N_h}{i=1} (Y_{hi} - \bar{Y}_h)^2 + \sum^L_{h=1} \sum^{N_h}_{i=1} (\bar{Y}_h - \bar{Y})^2 + 2 \sum^L_{h=1} \sum^{N_h}_{i=1} (Y_{hi} - \bar{Y}_h)(\bar{Y}_h - \bar{Y} \end{aligned} $$

Recordemos que restar la media a partir de una serie de datos es siempre 0. Desde $\sum^{N_h}_{i=1} (Y_{hi} - \bar{Y}_h) = 0$, el tercer término desaparece.

$$ \begin{aligned} S^2_h &= \frac{1}{N_h -1} \sum^{N_h}_{i=1} (Y_{hi} - \bar{y}_h)^2 \\ (N-1) S^2 &= \sum^L_{h=1} (N_h -1) S^2_h + \sum^L_{h=1} N_h (\bar{Y}_h - \bar{Y})^2 \end{aligned}$$

Tenga en cuenta que $f = \frac{n}{N}$ aka corrección por población finita.**

$$ \begin{aligned} V_{ran} ( \bar{y}) &= \frac{1 - f}{n} S^2 \\ &\approx \frac{1-f}{n} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h \bar{Y})^2 \\ V_{SRS} - V_{St} &= \frac{1-f}{n} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum W_h (\bar{Y}_h - \bar{y})^2 - \frac{1}{n} (\sum^L_{h=1} W-h_h S_h)^2 + \frac{1}{N} \sum^L_{h=1} W_h S^2_h \\ &= \frac{1}{n} \sum^L_{h=1} W_h S^2_h - \frac{1}{N} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum W_h (\bar{Y}_h - \bar{Y})^2 + \frac{1}{N} \sum^L_{h=1} W_h S^2_h - \frac{1}{n} (\sum^L_{h=1} W_h S_h)^2 \\ &= \frac{1}{n} \sum^L_{h=1} W_h S^2_h - (\sum^L_{h=1} W_h S_h)^2) + \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 \\ &= \frac{1}{n} \sum^L_{h=1} W_h (S_h \bar{S})^2 + \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 \\ V_{ran} - V_{prop} &= \frac{1-f}{n} \sum^L_{h=1} W_h S^2_h + \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 - \frac{1}{n} W_h S^2_h + \frac{1}{N} W_h S^2_h \\ &= \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 \end{aligned} $$

Interpretación:

Nos fijamos en dos tipos de esquemas de muestreo estratificado, la proporción y el óptimo (Neymar Asignación) y muestran que ambos son mejores que el muestreo aleatorio simple. La asignación proporcional método se realiza mejor que el SRS cuando el siguiente es maximizada:

$$ \frac{1-f}{n} \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 $$

El único control que tenemos sobre esta expresión es la diferencia entre el$\bar{Y}_h$$\bar{Y}$. Esto significa que si usted tiene los estratos que tienen los medios lejos de la gran media, luego de asignación proporcional le dará una menor varianza, y por lo tanto una óptima, mejor, de la muestra.

El segundo tipo, Neymar o una asignación óptima, nos quiere maximizar el siguiente con el fin de tener la mayor diferencia, y por lo tanto la más pequeña de la varianza:

$$ \frac{1}{n} \sum^L_{h=1} W_h (S_h - \bar{S})^2 + \sum^L_{h=1} W_h (\bar{Y}_h - \bar{Y})^2 $$

Esto nos da un plazo adicional para la asignación proporcional de arriba. Por lo tanto, una asignación óptima es mejor que el de asignación proporcional, porque si las desviaciones estándar de los grupos son diferentes a los de la gran desviación estándar, entonces este término es más grande que la de arriba. No hay manera de que es de menor tamaño. Por lo tanto, como un resumen:

$$ V_{opt} (\bar{y}_{st}) \leq V_{prop} (\bar{y}_{st}) \leq V_{SRS} (\bar{y}_{SRS}) $$

Tenga en cuenta que las anteriores formulaciones de sostener cuando asumimos $\frac{1}{N} \approx \frac{1}{N_i} \overset{.}{=} 0$ y asumir que $\frac{N_h - 1}{N-1} \approx \frac{N_h}{N}$. Cuando este supuesto no se hace, el de arriba es un poco más complejo, pero aún así sigue.

Probablemente he cometido algunos errores y algunos errores tipográficos; voy a arreglar cuando tengo un poco más de tiempo, pero espero que la idea general viene a través.

TL;DR

La estratificación es siempre mejor, asumiendo la igualdad de los costos de muestreo de cada uno de los estratos. Lo mejor es cuando la media y la desviación estándar de sus estratos son muy diferentes a los de su gran media y la desviación estándar.


Referencias:

Primaria Encuesta de Muestreo 7ª Edición, Richard L. Scheaffer (Autor), III William Mendenhall (Autor), R. Lyman Ott (Autor), Kenneth G. Gerow (Autor), ISBN-13: 978-0840053619

0voto

Mike Barrett Puntos 57

Me he tomado muchas muestras, grandes y pequeñas, simples y complejas, a través de los años. Mi conclusión: muestreo aleatorio Simple (SRS) por sí sola es casi nunca la elección de un problema de la vida real.

Por otro lado, la teoría de la SRS es importante, porque es la base de la teoría de las otras técnicas.

Las alternativas a los SRS: muestreo estratificado, muestreo sistemático, en algunos casos, la desigualdad de muestreo de probabilidad, o una combinación de estos. Está bien para tomar un SRS dentro de los estratos.

En mis comentarios, he citado Cochran como diciendo: muestreo estratificado no siempre es más precisa que los SRS. Sin embargo, el aumento de la precisión no es la única, ni siquiera la principal, la razón para la elección de un stratifed diseño.

Razones para estratificar

Look para la estratificación de los factores de por lo menos cinco razones (Lohr (2009) pág. 74; Valliant, Dever, & Kreuter, 2013, pág. 44):

  1. Para evitar la selección de una muestra que mal tergiversa la población. He visto muchos casos de estos SRSs. En algunos, la reponderación fue una solución parcial. En otros, la recuperación no fue posible. Uno de estos fue el objeto de una pregunta a Statalist. Un alto funcionario de salud pública quería para estimar las características de una epidemia por el estudio de la tf pacientes que asistieron a las clínicas médicas durante ese tiempo. Hubo 40 clínicas de la ciudad, y 10 fueron atraídos por los SRS. Por desgracia, el 10 no se incluyen los dos muy grandes hospital de clínicas de la ciudad, que entre ellos vio más del 30% de todos los pacientes ambulatorios, generalmente a los más enfermos. Esta tendencia hizo que la muestra inútil para la satisfacción de su propósito original. Como mínimo, los dos grandes clínicas del hospital debería haber sido seleccionado con certeza antes de tomar la muestra aleatoria simple.

  2. Estrechamente relacionados: estratificar a "cubrir" la totalidad de la población. (Esta es también una razón para hacer el muestreo sistemático.)

  3. Para garantizar un tamaño mínimo de la muestra para el grupo que va a recibir un análisis separado. Para un estudio de seguridad y salud ocupacional en granjas de California, por ejemplo, las granjas fueron estratificados por tamaño y de los cultivos principales.

  4. El control de costos. Ejemplo: las tablas se resume en una muestra de hospitales de California. Los hospitales rurales fueron colocados por separado en un estrato y se muestrea a una tasa menor que en los hospitales urbanos. Por qué? Experiencia a los redactores de resúmenes vivía en zonas urbanas y podría estudio 1-2 hospitales por día, y luego ir a casa por la noche. Para el estudio de un hospital rural tuvo un captador de dos días, incluyendo los viajes, y la incurrido en el costo de una noche de estancia.

  5. Para mejorar la muestra de la eficiencia (es decir, obtener más pequeño de los errores estándar) por agrupar las observaciones con similar medias y varianzas. Algunas encuestas nacionales estratificar tan finamente como sea posible y sacar un SRS con $n= 1$ unidad de cada estrato. Debido a que un mínimo de $n = 2$ observaciones por estrato es necesario para calcular los errores estándar, los diseños son analizados mediante la combinación de los vecinos de los estratos. La "verdad" de los errores estándar para el diseño, es muy probable que sea menor que la estimación de los errores estándar, claramente una buena cosa.

  6. Para la muestra con una probabilidad de aproximadamente proporcional al tamaño.

El muestreo sistemático

Muchos cuadros tienen una natural de pedidos, por ejemplo la fecha del evento. Las muestras sistemáticas de captura de la estratificación contenidas en este ordenamiento.

Referencias

Lohr, Sharon L. 2009. Muestreo: Diseño y Análisis. Boston, MA: Cengage Brooks/Cole.

Valliant, Richard, Jill A. Dever, y Frauke Kreuter. 2013. Herramientas prácticas para el Diseño y la Ponderación de la Encuesta de Muestras. Estadística para las Ciencias Sociales y del Comportamiento. Springer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X