10 votos

La estimación de coeficientes de regresión logística en un diseño caso-control cuando la variable de resultado no es el caso/control del estado de

Considerar los datos de las muestras de una población de tamaño $N$, de la siguiente manera: Para $k=1, ..., N$

  1. Observar individual $k$'s "enfermedad" en el estado de

  2. Si tienen la enfermedad, incluirlos en la muestra con probabilidad de $p_{k1}$

  3. Si ellos no tienen la enfermedad, se incluyen con probabilidad de $p_{k0}$.

Supongamos que usted observó un resultado binario variable $Y_i$ y predictor de vectores ${\bf X}_i$ $i=1, ..., n$ de los sujetos muestreados de esta manera. La variable de resultado es que no la "enfermedad" de estado. Yo quiero estimar los parámetros del modelo de regresión logística:

$$ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta} $$

Todo lo que me interesa son los (log) de los odds ratios, ${\boldsymbol \beta}$. La intercepción es irrelevante para mí.

Mi pregunta es: puedo obtener estimaciones sensatas de ${\boldsymbol \beta}$ por ignorar el muestreo de probabilidades $\{ p_{i1}, p_{i0} \}$, $i=1, ..., n$ y ajuste del modelo como si se tratara de un ordinario muestra aleatoria?


Estoy bastante seguro de que el responder a esta pregunta es "sí". Lo que estoy buscando es una referencia que valida este.

Hay dos principales razones por las que estoy seguro acerca de la respuesta:

  1. Yo he hecho varios estudios de simulación y ninguno de ellos se contradicen, y

  2. Es sencillo demostrar que, si la población se rige por el modelo de arriba, a continuación, el modelo de gobierno los datos de la muestra es

$$ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \log(p_{i1}) - \log(p_{i0}) + \alpha + {\bf X}_i {\boldsymbol \beta} $$

Si el muestreo de probabilidades no dependen $i$, entonces esto podría representar un simple cambio a la intersección y el punto de cálculo de ${\boldsymbol \beta}$ claramente se verá afectada. Pero, si los desplazamientos son diferentes para cada persona esta lógica no acaba de aplicar ya que sin duda tendrá un diferente punto de estimación, aunque sospecho que algo similar.

Relacionado: El clásico papel por Prentice y Pyke (1979) dice que los coeficientes de regresión logística a partir de un caso-control (con el estado de la enfermedad como el resultado) tienen la misma distribución que los obtenidos a partir de un estudio prospectivo. Sospecho que el resultado sería el mismo se aplica aquí, pero debo confesar que no entiendo cada pedacito de papel.

Gracias de antemano por cualquier comentario/referencias.

8voto

Oliver M Grech Puntos 161

Se trata de una variación del modelo de selección en econometría. La validez de las estimaciones utilizando sólo la muestra seleccionada depende aquí de la condición de que $\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$ . Aquí $D_i$ es $i$ de la enfermedad.

Para dar más detalles, definamos las siguientes notaciones: $\pi_{1}=\Pr\left(D_{i}=1\right)$ y $\pi_{0}=\Pr\left(D_{i}=0\right)$ ; $S_{i}=1$ se refiere al acontecimiento que $i$ está en la muestra. Además, supongamos $D_{i}$ es independiente de $X_{i}$ para simplificar.

La probabilidad de $Y_{i}=1$ para una unidad $i$ en la muestra es \begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \mathrm{{E}}\left(Y_{i}\mid X_{i},S_{i}=1\right)\\ & = & \mathrm{{E}}\left\{ \mathrm{{E}}\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)\mid X_{i},S_{i}=1\right\} \\ & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1,S_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0,S_{i}=1\right), \end{eqnarray*} por la ley de la expectación iterada. Supongamos que, en función de la enfermedad estado $D_{i}$ y otras covariables $X_{i}$ el resultado $Y_{i}$ es independiente de $S_{i}$ . Como resultado, tenemos \begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right). \end{eqnarray*} Es fácil ver que $$ \Pr\left(D_{i}=1\mid S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\mbox{ and }\Pr\left(D_{i}=0\mid S_{i}=1\right)=\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}. $$ Aquí $p_{i1}$ y $p_{i0}$ son los definidos en su plan de muestreo. Así, $$ \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right). $$ Si $ $$ \Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right) $, we have $$ \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i}\right), $$ and you can omit the sample selection problem. On the other hand, if $ \Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right) $, $$ \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i}\right) $$ in general. As a particular case, consider the logit model, $$ \Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\frac{e^{X_{i}'\alpha}}{1+e^{X_{i}'\alpha}}\mbox{ and }\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)=\frac{e^{X_{i}'\beta}}{1+e^{X_{i}'\beta}}. $$ Even when $ p_{i1} $ and $ p_{i0} $ are constant across $ i$, el resultado distribución no mantendrá la formación logit. Y lo que es más importante, las interpretaciones de los parámetros serían totalmente diferentes. Esperemos que los argumentos anteriores ayuden a aclarar un poco su problema.

Se siente tentado a incluir $D_{i}$ como variable explicativa adicional, y estimar el modelo basado en $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ . Para justificar la validez de utilizar $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ , tenemos que demostrar que $\Pr\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ , lo que equivale a la condición de que $D_{i}$ es suficiente estadística de $S_{i}$ . Sin más información sobre su proceso de no estoy seguro de que sea cierto. Utilicemos una notación abstracta. La variable de observabilidad $S_{i}$ puede considerarse como una función aleatoria de $D_{i}$ y las otras variables aleatorias, digamos $\mathbf{Z}_{i}$ . Denotemos $S_{i}=S\left(D_{i},\mathbf{Z}_{i}\right)$ . Si $\mathbf{Z}_{i}$ es independiente de $Y_{i}$ condicionado a $X_{i}$ y $D_{i}$ nosotros tenemos $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ por la definición de independencia. Sin embargo, si $\mathbf{Z}_{i}$ es no es independiente de $Y_{i}$ tras el acondicionamiento en $X_{i}$ y $D_{i}$ , $\mathbf{Z}_{i}$ contiene intuitivamente información relevante sobre $Y_{i}$ y, en general, no se espera que $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ . Así pues, en el caso "sin embargo", el desconocimiento de la selección de la muestra podría ser engañosa para la inferencia. No estoy muy familiarizado con la literatura sobre selección de muestras en econometría. Recomendaría el capítulo 16 de Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book Variables cualitativas y dependientes limitadas en econometría' es un tratamiento sistemático de las cuestiones relativas a la selección de muestras y los resultados discretos. y los resultados discretos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X