Estoy intentando realizar una simulación en R que requiere realizar una encuesta donde la probabilidad de selección de cada individuo no es igual.
Tengo un factor covariable $x$ que tiene niveles $x_1, x_2, ..., x_5$ que se conoce para cada miembro de la población antes del muestreo, y deseo dar a los individuos una probabilidad de selección basada en su $x$ para que las personas con $x=x_1$ tienen la menor probabilidad de selección, y los individuos con $x=x_5$ tienen la más alta. Supongamos $x_1 =1, x_2=2,..., x_5=5$
Supongamos, por tanto, que $\pi_i = \frac{x_i}{\sum_{i=1}^N x_i}$ donde $\pi_i$ es la probabilidad de selección de la persona $i$ .
Teniendo esto en cuenta, necesito obtener la probabilidad de estar incluido en una muestra de tamaño $n$ de la población de tamaño $N$ . En el muestreo aleatorio simple, se trata simplemente de $\frac{n}{N}$ pero no sé cómo derivarlo en este caso.
Del mismo modo, a efectos de estimación de la varianza, necesito derivar la probabilidad de inclusión conjunta de dos individuos $i$ y $j$ la probabilidad de que ambos estén incluidos en la muestra. De nuevo, en el muestreo aleatorio simple esto es simplemente $\frac{n(n-1)}{N(N-1)}$ pero no estoy seguro de lo que es aquí.
La razón por la que necesito las probabilidades de inclusión es para poder encontrar las ponderaciones de la muestra, que son necesarias para la estimación de mi total de $Y$ y su varianza.