20 votos

Preguntas básicas acerca de tiempo discretos análisis de la supervivencia

Estoy tratando de llevar a cabo un discreto tiempo de análisis de supervivencia utilizando un modelo de regresión logística, y no estoy seguro de entender completamente el proceso. Les agradecería mucho la ayuda con algunas preguntas básicas.

Aquí es el conjunto:

Estoy buscando en la pertenencia a un grupo dentro de los cinco años de tiempo de la ventana. Cada miembro tiene un récord mensual de la afiliación por cada mes en que el miembro está en el grupo. Estoy pensando en todos los miembros cuyos miembros se inició durante los cinco años de ventana (para evitar la "izquierda de la censura" problemas con los miembros que se unieron antes). Cada registro será indexado por el tiempo, con el tiempo uno es el mes de los estados unidos. Así, un miembro que permanece por dos años y medio se han treinta registros mensuales, numeradas de uno a treinta. Cada registro también será dada una variable binaria, que tendrá un valor de uno para el último mes de la membresía, y cero en caso contrario; un valor de uno para la variable binaria marcas el caso de que el miembro ha dejado el grupo. Para cada uno de los miembros cuyos miembros se continúa más allá de los cinco años de la ventana de análisis, todos los binarios de los valores de la variable será igual a cero (estos son el derecho de censura a los individuos en el análisis de supervivencia).

Así, el modelo de regresión logística es construido para predecir los valores de los binarios de caso de la variable. Tan lejos, tan bueno. Una de las formas típicas para evaluar un binario modelo predictivo es la medición de la elevación en una exclusión de la muestra. Para el modelo de regresión logística que se han construido para predecir la pertenencia evento final, he calculado el ascensor en un conjunto de datos de exclusión con un cinco a una proporción de eventos para los eventos. He clasificado los valores previstos en los deciles. El decil con los más altos valores de la predicción contiene setenta por ciento, a una elevación de más de cuatro. Los dos primeros deciles combinado contiene sesenta y cinco por ciento de todos los de la exclusión. En ciertos contextos, esto sería considerado una bastante decente modelo predictivo, pero me pregunto si es lo suficientemente bueno para llevar a cabo un análisis de supervivencia.

Deje $h[j,k]$ ser la función de riesgo para el individuo $j$ mes $k$, y deje $S[j,k]$ la probabilidad de que el individuo $j$ sobrevive a través de mes $k$.

Aquí están mis preguntas fundamentales:

  1. Es el discreto función de riesgo, $h[j,k]$, la probabilidad condicional de no-supervivencia (dejando el grupo) en cada mes?

  2. Son los valores predichos del modelo de regresión logística de las estimaciones de la función de riesgo? (es decir, se $h[j,k]$ igual a la del modelo del valor de la predicción individual de la $j$ mes $k$, algo más hay que hacer para obtener estimaciones de la función de riesgo?)

  3. Es la probabilidad de supervivencia hasta el mes q individuales $j$ igual al producto de uno menos la función de riesgo desde el mes uno a a $q$, es decir, hace $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$?

  4. Es el valor de la media de $S[j,k]$ sobre todos los individuos $j$ para cada tiempo de $k$ una estimación razonable de la población total probabilidad media de supervivencia?

  5. Debe una parcela de la población total probabilidad media de supervivencia por mes se asemejan a la mensual de Kaplan-Meier gráfica?

Si la respuesta a cualquiera de estas preguntas es no, entonces tengo un grave malentendido, y realmente podría utilizar alguna ayuda o explicación. También, hay alguna regla del pulgar para lo bueno que el binario de modelos de predicción de las necesidades, con el fin de producir una precisa la supervivencia de perfil?

Gracias!

-- TMK --

7voto

GenericTypeTea Puntos 27689

Suponga $K$ es el mayor valor de $k$ (es decir, el más grande de mes/periodo de observación en sus datos).

  1. Aquí es la función de riesgo con un totalmente discretos parametrización de tiempo, y con un vector de parámetros $\mathbf{B}$ un vector de variables condicionantes $\mathbf{X}$: $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$. La función de riesgo también puede ser construido alrededor de alternativa parametrizaciones de tiempo (por ejemplo, incluir $k$ o funciones de la misma como una variable en el modelo), o alrededor de un híbrido de ambos.

    La línea de base logit peligro para la función que describe la probabilidad de aparición de eventos en el tiempo $k$, condicionado a haber sobrevivido a tiempo $k$. La adición de predictores ($\mathbf{X}$) para el modelo restringe aún más esta condicionalidad.

  2. No, la regresión logística de las estimaciones (por ejemplo,$\hat{\alpha_{1}}$, $\dots$, $\hat{\alpha_{K}}$, $\mathbf{\hat{B}}$) son no las funciones de riesgo en sí mismos. Los modelos de regresión logística: logit$(h_{j,k}) = \alpha_{k} + \mathbf{BX}$, y que necesita para realizar la anti-logit transformar en (1) anterior, para obtener el peligro de las estimaciones.

  3. Sí. Aunque me gustaría anotar el es $\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$. La función de supervivencia es la probabilidad de que no experimentan el evento por el tiempo $k$, y, por supuesto, también puede estar condicionado a $\mathbf{X}$.

  4. Esta es una sutil pregunta, no estoy seguro de que tiene las respuestas. Tengo preguntas, aunque. :) El tamaño de la muestra en cada período de tiempo disminuye con el tiempo debido a derecha-censura y debido a la aparición de eventos: ¿tienes en cuenta esto en el cálculo de la media del tiempo de supervivencia? Cómo? ¿A qué te refieres con "la población?" ¿A qué población son los individuos reclutados para su estudio generalizando? ¿O te refieres a algunos estadísticos "super-población" concepto? La inferencia es un gran reto en estos modelos, porque estimamos $\beta$s y sus errores estándar, pero necesita hacer delta-método de backflips para obtener los errores estándar de las $\hat{h}_{j,k}$, y (desde mi propio trabajo) derivando válidos los errores estándar de las $\hat{S}_{j,k}$ trabaja sólo en el papel (no puedo conseguir el correcto CI coberturas para $\hat{S}_{j,k}$ en modelos condicionales).

  5. Usted puede utilizar el método de Kaplan-Meier-como paso la función de los gráficos, y también se puede usar directamente de la línea de gráficos (es decir, conectar los puntos entre períodos de tiempo con una línea). Usted debe utilizar este último caso sólo cuando el concepto de "tiempo discreto" sí admite la posibilidad de subdividir períodos. También puede parcela/comunicar las estimaciones de incidencia acumulada (que es $1 - S_{j,k}$... al menos los epidemiólogos se suelen definir "incidencia acumulada" de esta manera, el término se utiliza de manera diferente en la competencia de los riesgos de los modelos. El término absorción también puede ser utilizado aquí.).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X