Estoy escribiendo mi tesis sobre la predicción de quiebra Pr(Y=1) a través de una puntuación de sentimiento que he calculado (x1) y una variable de control llamada Z-Score (x2). Sin embargo tengo muchas dudas sobre cómo integrar mis datos en la fórmula de R que he encontrado. Este es mi código:
library(survival)
## Add survival object. status = 1 is bankruptcy
WRDS$SurvObj <- with(WRDS, Surv(as.numeric(DEL == 1)))
## model
res.cox1 <- coxph(SurvObj ~ SCORE10K+TIME+Z, data = WRDS)
summary(res.cox1)
El siguiente es mi conjunto de datos, x1,x2,x3 ,x4 & x5 son subvariables que utilicé para crear Z, así que no las tengas en cuenta:
CIK TIME DEL SCORE10K SCOREMDA AbsDiff x1 x2 x3 x4 x5 Z
1 10254 1 0 0.69 0.13 0.56 0.24 -0.36 0.15 20.578713 0.39 13.016228
2 10254 2 0 0.66 0.13 0.53 0.25 -0.16 0.20 10.676150 0.45 7.591690
3 10254 3 0 0.65 0.18 0.47 0.02 -0.07 0.12 5.063745 0.33 3.690247
4 10254 4 0 0.62 0.19 0.43 0.06 0.03 0.20 6.476520 0.38 5.039912
5 20629 1 0 0.70 0.26 0.44 0.57 1.15 0.12 4.859852 1.34 6.945911
6 20629 2 0 0.74 0.30 0.44 0.61 1.17 0.13 6.950391 1.26 8.229235
¿Es correcto introducir mis variables continuas SCORE10K y Z junto con la variable TIME? ¿O eso ya está integrado en la función a través del objeto Supervivencia? (DEL es mi variable binaria que muestra si hay quiebra Y=1).
El TIEMPO se codifica como 1,2,3,4 para cada empresa, y cada empresa tiene una puntuación para una duración de 4 años antes de entrar en quiebra, O NO. Mi muestra incluye 50 empresas que quiebran en el año 4 y una muestra sana de 100 empresas que también tienen puntuaciones para los mismos 4 años. Así que en total tengo 600 puntos de datos, pero sólo 150 "puntos de datos específicos de la empresa".
También he pensado en el modelo logit de efectos aleatorios, pero en este caso nos enfrentamos realmente a un análisis de supervivencia, si no me equivoco.
EDITAR después de la entrada :
He descubierto que, debido a la estructura de mi conjunto de datos, la función cox.zph del modelo de Cox estima que mi varianza es igual a 0, ya que todos mis sucesos por defecto Y=1 ocurren en el último periodo t=4. Esto invalida el modelo técnicamente, aunque teóricamente tenga sentido utilizar un modelo de riesgo.
Si echa un vistazo a mi conjunto de datos, eso sólo significa que DEL=1 sólo ocurre en TIME=4, SI es que ocurre.
Ya no puedo añadir puntos de datos por falta de tiempo, así que me pregunto si tengo que cambiar la estructura de los puntos de datos o si hay alguna forma de evitar que el modelo de Cox no pueda estimar mis tasas de supervivencia.