8 votos

Uso de bosque al azar para el análisis de supervivencia con covariables variables tiempo

He estado tratando de entrenar a un modelo que predice un individuo del tiempo de supervivencia.

Mi conjunto de entrenamiento es un desequilibrio en el panel; tiene múltiples observaciones por individuo y por lo tanto el tiempo de diferentes covariables. Cada individuo es observado desde el inicio hasta el final así que no hay censura.

Como prueba, he utilizado una llanura bosque aleatorio de regresión (no es casual la supervivencia del bosque), el tratamiento de cada observación como si se tratara de iid (incluso si se trataba de la misma persona) con la duración como en el de destino. Cuando se prueba las predicciones sobre un conjunto de pruebas, los resultados han sido sorprendentemente preciso.

¿Por qué este trabajo tan bien? Pensé bosques aleatorios necesarios iid observaciones.

3voto

shyam Puntos 4133

Aunque no es la estructura de los datos, es posible que la variación en los valores basales de riesgo no varía sustancialmente suficiente entre los sujetos que causa un modelo sin una fragilidad plazo para formar buenos predicciones. Por supuesto, es perfectamente posible que un modelo con una fragilidad plazo podría funcionar mejor que el conjunto de azar bosque modelo.

Incluso si usted ha ejecutado un conjunto y el modelo jerárquico y el modelo agrupado hizo así o un poco mejor, usted todavía puede que desee utilizar el modelo jerárquico debido a que la varianza en la línea de base en el riesgo es muy probable que NO cero entre los sujetos, y el modelo jerárquico sería probablemente un mejor desempeño en el largo plazo en los datos que había en ninguna de sus pruebas o de conjuntos de entrenamiento.

Como un aparte, considerar si la validación cruzada de puntuación en el que están utilizando se alinea con los objetivos de su tarea de predicción, en primer lugar, antes de comparar los agrupan y los modelos jerárquicos. Si su objetivo es hacer predicciones sobre el mismo grupo de individuos como en su prueba/datos de entrenamiento, entonces la simple k veces o loo validación cruzada en la respuesta es suficiente. Pero si usted desea hacer predicciones acerca de los nuevos individuos, en su lugar usted debe hacer k veces validación cruzada de las muestras obtenidas en el nivel individual. En el primer caso que se anotó en sus predicciones sin tener en cuenta la estructura de los datos. En el segundo caso de la estimación de su capacidad para predecir el riesgo dentro de los individuos que no están en la muestra.

Por último, recuerde siempre que la CV es de por sí los datos de los dependientes, y sólo una estimación de su modelo predictivo de capacidades.

0voto

berkes Puntos 197

Estoy empezando a trabajar con el bosque al azar pero creo que es principalmente el ensacado que iid para cada árbol y el subconjunto de la selección de características en cada nodo. Desconozco de restricciones formales en los datos sí mismo.

Por qué funciona tan bien en sus datos que no puedo decir hasta he investigado sus datos. Pero el no iid'ness de sus características no influirá en rendimiento demasiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X