Supongamos que tengo datos de supervivencia con más de una fila por sujeto, porque he dividido el tiempo de seguimiento de cada sujeto en trozos (tal vez porque tengo una o más variables que varían en el tiempo o tal vez sólo porque quiero ajustar un modelo de Poisson con un peligro no constante en el tiempo).
¿Tengo que utilizar el estimador robusto de la varianza/covarianza (que se implementa por ejemplo en Stata con la opción vce(cluster clustvar)
) para tener en cuenta que tengo más de una observación por sujeto (es decir, que no son independientes)?
Editar (15 de marzo de 2012) :
Lambert y Royston en su libro realizan este análisis: dividen el seguimiento de cada sujeto en una escala de tiempo (digamos la edad alcanzada)[*] y ajustan una regresión de Poisson que incluye la edad alcanzada como variable dependiente (modelada, por ejemplo, mediante splines) más el offset, de modo que es posible modelar la incidencia de alguna enfermedad en función de la edad alcanzada.
Ellos no utilizar el estimador robusto de varianza/covarianza, pero no he encontrado en el texto ninguna explicación de por qué las filas individuales (o episodios ) pueden considerarse independientes.
La pregunta: ¿Puede alguien explicarme por qué las filas simples (o episodios ) pueden considerarse independientes?
[*]Para aclarar lo que se ha hecho, tomemos por ejemplo el tema número 1001
. Entra en el estudio en 80.00219
años de edad y desarrollan la enfermedad a 85.037236
años ( _d==1
). Esto es lo que ocurre con el registro de este tema después de dividirlo. (La variable de desplazamiento se define como ln(_t-_t0)
)
id _d _t _t0
1001 0 81 80.00219
1001 0 82 81
1001 0 83 82
1001 0 84 83
1001 0 85 84
1001 1 85.037236 85