5 votos

Probabilidades de inclusión en una encuesta con probabilidad de selección desigual

Estoy intentando realizar una simulación en R que requiere realizar una encuesta donde la probabilidad de selección de cada individuo no es igual.

Tengo un factor covariable $x$ que tiene niveles $x_1, x_2, ..., x_5$ que se conoce para cada miembro de la población antes del muestreo, y deseo dar a los individuos una probabilidad de selección basada en su $x$ para que las personas con $x=x_1$ tienen la menor probabilidad de selección, y los individuos con $x=x_5$ tienen la más alta. Supongamos $x_1 =1, x_2=2,..., x_5=5$

Supongamos, por tanto, que $\pi_i = \frac{x_i}{\sum_{i=1}^N x_i}$ donde $\pi_i$ es la probabilidad de selección de la persona $i$ .

Teniendo esto en cuenta, necesito obtener la probabilidad de estar incluido en una muestra de tamaño $n$ de la población de tamaño $N$ . En el muestreo aleatorio simple, se trata simplemente de $\frac{n}{N}$ pero no sé cómo derivarlo en este caso.

Del mismo modo, a efectos de estimación de la varianza, necesito derivar la probabilidad de inclusión conjunta de dos individuos $i$ y $j$ la probabilidad de que ambos estén incluidos en la muestra. De nuevo, en el muestreo aleatorio simple esto es simplemente $\frac{n(n-1)}{N(N-1)}$ pero no estoy seguro de lo que es aquí.

La razón por la que necesito las probabilidades de inclusión es para poder encontrar las ponderaciones de la muestra, que son necesarias para la estimación de mi total de $Y$ y su varianza.

1voto

alexs77 Puntos 36

Convirtiendo mi comentario en una respuesta.

No tienes suficiente información para responder a la pregunta de forma específica. Más bien depende de la distribución de $x$ en el marco de muestreo (que podemos suponer que es toda la población).

Trivialmente, si tiene una muestra objetivo de $n=$ (decir) $300$ . Eso significa que esa muestra se repartirá 5:4:3:2:1 (15 partes) entre los miembros con $x=5$ , $x=4$ , $\ldots$ y $x=1$ respectivamente. (100, 80, 60, 40, 20 respectivamente). Una vez conocida la distribución de $x$ en la población, basta con calcular 5 veces la probabilidad de muestreo SRS. Por ejemplo, si $X=1$ tiene 1.000 personas en la población, entonces la probabilidad de muestreo es $20/1000 = 0.005$ y así sucesivamente.

Esa es la respuesta al problema junto con una descripción de la información que falta.

0voto

JoanComasFdz Puntos 131

Supongamos que tomamos una muestra de tamaño $n$ y definamos $I^{(i)}_j$ como indicador de si un individuo $i$ se elige en el $j^\text{th}$ selección (es igual a uno si la persona está seleccionada y en caso contrario es igual a cero). A continuación,

\begin{align} P( \text{individual $i$ is included in the sample}) &= P \left ( \sum_{j=1}^{n} I_j^{(i)} = 1 \right ) \\ &= \text{E} \left ( \sum_{j=1}^{n} I_j^{(i)} \right ) \\ &= \sum_{j=1}^{n} \text{E} \left ( I_j^{(i)} \right ) \\ &= n \pi_i . \end{align}

Podemos comprobar que cuando estamos muestreando uniformemente y $\pi_i = 1 / N$ recuperamos de hecho la fórmula original $n / N$ . Se puede utilizar una técnica similar para hallar la probabilidad de que los individuos $i$ y $j$ se incluyen en la muestra

\begin{align} P(\text{individuals $i$ and $j$ are in the sample}) &= P \left [ \left ( \sum_{k=1}^{n} I_k^{(i)} \right ) \left ( \sum_{l=1}^{n} I_l^{(j)} \right ) = 1 \right ] \\ &= \text{E} \left [ \left ( \sum_{k=1}^{n} I_k^{(i)} \right ) \left ( \sum_{l=1}^{n} I_l^{(j)} \right ) \right ] \\ &= \text{E} \left ( \sum_{k=1}^{n} \sum_{l=1}^{n} I_k^{(i)} I_l^{(j)} \right ) \\ &= \sum_{k=1}^{n} \sum_{l=1}^{n} \text{E} ( I_k^{(i)} I_l^{(j)} ) . \end{align}

Ahora $I_k^{(i)} I_l^{(j)} = 0$ siempre que $k = l$ (no podemos seleccionar ambos individuos al mismo tiempo), por lo que nos quedan los restantes $2 \binom{n}{2} = n (n - 1)$ términos que por simetría son todos iguales. Por lo tanto, la suma anterior se convierte en

\begin{align} n (n - 1) \text{E}( I_1^{(i)} I_2^{(j)} ) &= n (n - 1) P(I_1^{(i)} = 1 \cap I_2^{(j)} = 1) \\ &= n (n - 1) P(I_1^{(i)} = 1) P(I_2^{(j)} = 1 \mid I_1^{(i)} = 1) \\ &= n (n - 1) \pi_i \frac{x_j}{\sum_{k \neq i} x_k} . \end{align}

De nuevo podemos comparar esto con la fórmula original en la que tenemos un muestreo uniforme estableciendo $x_i = 1$ para $1 \leq i \leq N$ y nuestra nueva fórmula se reduce a $\frac{n (n - 1)}{N (N - 1)}$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X