Estoy tratando de llevar a cabo un discreto tiempo de análisis de supervivencia utilizando un modelo de regresión logística, y no estoy seguro de entender completamente el proceso. Les agradecería mucho la ayuda con algunas preguntas básicas.
Aquí es el conjunto:
Estoy buscando en la pertenencia a un grupo dentro de los cinco años de tiempo de la ventana. Cada miembro tiene un récord mensual de la afiliación por cada mes en que el miembro está en el grupo. Estoy pensando en todos los miembros cuyos miembros se inició durante los cinco años de ventana (para evitar la "izquierda de la censura" problemas con los miembros que se unieron antes). Cada registro será indexado por el tiempo, con el tiempo uno es el mes de los estados unidos. Así, un miembro que permanece por dos años y medio se han treinta registros mensuales, numeradas de uno a treinta. Cada registro también será dada una variable binaria, que tendrá un valor de uno para el último mes de la membresía, y cero en caso contrario; un valor de uno para la variable binaria marcas el caso de que el miembro ha dejado el grupo. Para cada uno de los miembros cuyos miembros se continúa más allá de los cinco años de la ventana de análisis, todos los binarios de los valores de la variable será igual a cero (estos son el derecho de censura a los individuos en el análisis de supervivencia).
Así, el modelo de regresión logística es construido para predecir los valores de los binarios de caso de la variable. Tan lejos, tan bueno. Una de las formas típicas para evaluar un binario modelo predictivo es la medición de la elevación en una exclusión de la muestra. Para el modelo de regresión logística que se han construido para predecir la pertenencia evento final, he calculado el ascensor en un conjunto de datos de exclusión con un cinco a una proporción de eventos para los eventos. He clasificado los valores previstos en los deciles. El decil con los más altos valores de la predicción contiene setenta por ciento, a una elevación de más de cuatro. Los dos primeros deciles combinado contiene sesenta y cinco por ciento de todos los de la exclusión. En ciertos contextos, esto sería considerado una bastante decente modelo predictivo, pero me pregunto si es lo suficientemente bueno para llevar a cabo un análisis de supervivencia.
Deje $h[j,k]$ ser la función de riesgo para el individuo $j$ mes $k$, y deje $S[j,k]$ la probabilidad de que el individuo $j$ sobrevive a través de mes $k$.
Aquí están mis preguntas fundamentales:
Es el discreto función de riesgo, $h[j,k]$, la probabilidad condicional de no-supervivencia (dejando el grupo) en cada mes?
Son los valores predichos del modelo de regresión logística de las estimaciones de la función de riesgo? (es decir, se $h[j,k]$ igual a la del modelo del valor de la predicción individual de la $j$ mes $k$, algo más hay que hacer para obtener estimaciones de la función de riesgo?)
Es la probabilidad de supervivencia hasta el mes q individuales $j$ igual al producto de uno menos la función de riesgo desde el mes uno a a $q$, es decir, hace $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$?
Es el valor de la media de $S[j,k]$ sobre todos los individuos $j$ para cada tiempo de $k$ una estimación razonable de la población total probabilidad media de supervivencia?
Debe una parcela de la población total probabilidad media de supervivencia por mes se asemejan a la mensual de Kaplan-Meier gráfica?
Si la respuesta a cualquiera de estas preguntas es no, entonces tengo un grave malentendido, y realmente podría utilizar alguna ayuda o explicación. También, hay alguna regla del pulgar para lo bueno que el binario de modelos de predicción de las necesidades, con el fin de producir una precisa la supervivencia de perfil?
Gracias!
-- TMK --