9 votos

¿Cómo puedo determinar si un modelo de supervivencia con datos faltantes es la adecuada?

Simplificando un poco, tengo cerca de un millón de registros que registre la hora de entrada y hora de salida de las personas en un sistema que abarca alrededor de diez años. Cada registro tiene una hora de entrada, pero no cada registro tiene un tiempo de salida. El tiempo medio en el sistema es de ~1 año.

La falta de salida de los tiempos de suceder por dos razones:

  1. La persona no ha dejado el sistema en el momento en que se capturaron los datos.
  2. La persona de la hora de salida no fue grabado. Esto sucede a decir que el 50% de los registros

Las preguntas de interés son:

  1. Son personas a pasar menos tiempo en el sistema, y cuánto menos tiempo.
  2. Son más salir de veces que se está grabando, y cuántos.

Podemos modelar esta diciendo que la probabilidad de que una salida se graba varía linealmente con el tiempo, y que el tiempo en el que el sistema tiene una Weibull cuyos parámetros varían linealmente con el tiempo. A continuación, podemos hacer una estimación de máxima verosimilitud de los diversos parámetros y el globo ocular de los resultados y considere plausible. Elegimos la distribución de Weibull, porque parece ser usados en la medición de tiempos de vida y es divertido decir como se opuso a que el ajuste de los datos mejor que decir una distribución gamma.

Donde debo buscar para obtener una idea de cómo hacer esto correctamente? Estamos algo matemáticamente inteligente, pero no muy estadísticamente inteligente.

5voto

Omar Kooheji Puntos 384

La forma básica para ver si los datos de Weibull es la trama del registro acumulativo de los riesgos frente de registro de tiempos y ver si una línea recta que puede ser un buen ajuste. El acumulado de peligro puede ser encontrado usando el no-paramétrico de Nelson-Aalen estimador. Hay similares gráfica de diagnóstico para la regresión de Weibull si usted ajuste a sus datos con las covariables y algunas referencias a seguir.

El Klein Y Moeschberger texto es bastante bueno y cubre mucho terreno con la construcción de modelos/diagnóstico paramétricos y semi-paramétrica de los modelos (aunque sobre todo la última). Si estás trabajando en R, Theneau del libro es bastante bueno (yo creo que él escribió la supervivencia del paquete). Se cubre una gran parte de la Cox PH y los modelos asociados, pero no recuerdo si tiene mucha cobertura de los modelos paramétricos, como el que estamos construyendo.

Por CIERTO, es este un millón de sujetos, cada uno con una entrada/salida o recurrente de entrada/salida eventos para algunos de los más pequeños de la piscina de la gente? Estás acondicionamiento de la probabilidad para dar cuenta de la censura en el mecanismo?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X