Considerar los datos de las muestras de una población de tamaño $N$, de la siguiente manera: Para $k=1, ..., N$
Observar individual $k$'s "enfermedad" en el estado de
Si tienen la enfermedad, incluirlos en la muestra con probabilidad de $p_{k1}$
Si ellos no tienen la enfermedad, se incluyen con probabilidad de $p_{k0}$.
Supongamos que usted observó un resultado binario variable $Y_i$ y predictor de vectores ${\bf X}_i$ $i=1, ..., n$ de los sujetos muestreados de esta manera. La variable de resultado es que no la "enfermedad" de estado. Yo quiero estimar los parámetros del modelo de regresión logística:
$$ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta} $$
Todo lo que me interesa son los (log) de los odds ratios, ${\boldsymbol \beta}$. La intercepción es irrelevante para mí.
Mi pregunta es: puedo obtener estimaciones sensatas de ${\boldsymbol \beta}$ por ignorar el muestreo de probabilidades $\{ p_{i1}, p_{i0} \}$, $i=1, ..., n$ y ajuste del modelo como si se tratara de un ordinario muestra aleatoria?
Estoy bastante seguro de que el responder a esta pregunta es "sí". Lo que estoy buscando es una referencia que valida este.
Hay dos principales razones por las que estoy seguro acerca de la respuesta:
Yo he hecho varios estudios de simulación y ninguno de ellos se contradicen, y
Es sencillo demostrar que, si la población se rige por el modelo de arriba, a continuación, el modelo de gobierno los datos de la muestra es
$$ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \log(p_{i1}) - \log(p_{i0}) + \alpha + {\bf X}_i {\boldsymbol \beta} $$
Si el muestreo de probabilidades no dependen $i$, entonces esto podría representar un simple cambio a la intersección y el punto de cálculo de ${\boldsymbol \beta}$ claramente se verá afectada. Pero, si los desplazamientos son diferentes para cada persona esta lógica no acaba de aplicar ya que sin duda tendrá un diferente punto de estimación, aunque sospecho que algo similar.
Relacionado: El clásico papel por Prentice y Pyke (1979) dice que los coeficientes de regresión logística a partir de un caso-control (con el estado de la enfermedad como el resultado) tienen la misma distribución que los obtenidos a partir de un estudio prospectivo. Sospecho que el resultado sería el mismo se aplica aquí, pero debo confesar que no entiendo cada pedacito de papel.
Gracias de antemano por cualquier comentario/referencias.