8 votos

Predicción de resultados dicotómicos sobre el conjunto de datos temporal con covariables

Tengo un conjunto de datos, con los resultados y variable en el tiempo de las variables, para los pacientes durante el curso de sus respectivas estancias en el hospital. Hay una escala dicotómica resultado en el último día. La duración de la estancia puede ser diferente para cada paciente. Yo estoy más interesado en hacer un modelo de predicción, en el mismo espíritu, como se podría hacer con el estándar de la regresión.

Yo creo que el paciente puede desarrollar algunos "impulso" que suelen conducir a un resultado u otro.

Mis intentos anteriores de este modelo de datos se han limitado a la regresión logística. Estoy empezando a pensar acerca de lmer y amigos, pero no estoy seguro de si sería adecuado para la direccionalidad en el tiempo. También, he considerado algunos enfoques estocásticos, pero no he avanzado mucho con enganche de esto en un resultado binario o incluso la posibilidad de que las covariables.

Cualquier sugerencia sería muy bienvenido.

De Ficción De Datos:

Patient No. | Day of Stay | Outcome | Age | Gender | Blood Value | ...
         1  |           1 |       - |  70 |      M |       123.1 | ...
         1  |           2 |       - |  70 |      M |       134.2 | ...
         1  |         ... |     ... | ... |    ... |         ... | ...
         1  |          10 |       1 |  70 |      M |       148.3 | ...
           ...           ...       ...   ...      ...           ...
       100  |           1 |       - |  54 |      F |        98.3 | ...
       100  |           2 |       - |  54 |      F |        95.2 | ...
       100  |         ... |     ... | ... |    ... |         ... | ...
       100  |           6 |       0 |  54 |      F |        54.1 | ...

1voto

Awais Tariq Puntos 116

Si usted tiene un GRAN conjunto de datos, puede haber algo en la máquina de aprendizaje de la literatura para ayudar a usted. Lo ven como un problema de clasificación. Pero ya que este es un ejemplo médico, sospecho que el número total de pacientes es bastante pequeña.

En ese caso, su mayor esperanza radica en ser capaz de especificar un modelo para el tiempo-dependiente de cosas. Por ejemplo, si una regresión simple se relaciona Día a la Sangre y de Valor, se puede comparar el estimado de la pendiente de parámetro para el resultado: 2 grupos; simple t-test. Si usted tiene otras covariables, se podrían incluir también a ellos. Usted tendría entonces una regresión logística con el parámetro de la pendiente y las covariables en el modelo. Usted podría encajar más complejo, de forma funcional, si es necesario.

Usted podría ser capaz de modelar la sangre valor de la componente de otras maneras: trate de un análisis de componentes principales, y si la mayoría de la variación parecen estar en el primer componente, reemplace toda la serie de observaciones con el PC puntuación. A continuación, proceder como antes, con una regresión logística.

Si usted tuviera el mismo número de "la repetición de las observaciones" para cada paciente, podría tratar de un análisis discriminante. Esto es similar a la que el PCA se mencionó anteriormente, excepto que los componentes son elegidos para mejor distinguir entre los dos dicotómica resultados de la última jornada.

Sea lo que sea, se puede estimar el modelo de una parte del conjunto de datos y la prueba de la otra parte, ver cómo se puede predecir el resultado.

1voto

Dario Castañé Puntos 131

Creo que un modelo de efectos mixtos o marginal modelo de uso de ecuaciones de estimación generalizada (GEE) podría funcionar para usted. El uso de GEE puede especificar un trabajo matriz de correlación que designa aquellas observaciones más adelante en la serie como más altamente correlacionado con el uno al otro y se podría añadir una variable en el modelo para el componente de tiempo. Usted podría, por supuesto, hacer algo similar con lmer y de efectos mixtos (menos la de trabajo de la matriz de correlación de bits). La mezcla de efectos de enfoque tiene la ventaja añadida de que no está utilizando una población promedio de enfoque como GEE.

Dando un paso más allá, usted puede incluso ser capaz de construir varios modelos predictivos utilizando clásico de modelización estadística y técnicas de aprendizaje de máquina de técnicas como impulsado árboles de regresión y, a continuación, utilizar una máquina de aprendizaje ensemble método para combinarlos en una sola, más potente predictor. El uso de Apilamiento por ejemplo, puede crear varios modelos y, a continuación, combina todos los modelos en un último modelo de predicción. Estos modelos generalmente superan a Bayesian model averaging enfoques así.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X