Estoy construyendo un modelo predictivo que las previsiones de un estudiante de la probabilidad de éxito en la finalización de un período. Me interesa conocer si el estudiante tiene éxito o fracasa, donde el éxito se define generalmente como completar el curso y el logro de un 70% o más puntos de un total de puntos posibles.
Al implementar el modelo, la estimación de la probabilidad de éxito necesita ser actualizado a través del tiempo a medida que más información esté disponible; preferiblemente inmediatamente después de que ocurre algo, como cuando un alumno envía una asignación o consigue un grado en uno. Esta actualización suena algo Bayesiano para mí, pero dada mi formación en las estadísticas de educación, que es un poco fuera de mi zona de confort.
Hasta ahora he estado usando regresión logística (en realidad el lazo) con un histórico conjunto de datos que contiene basado en la semana de instantáneas. Este conjunto de datos se ha correlacionado observaciones, ya que cada estudiante ha $TermLength/7$ observaciones; las observaciones de uno de los estudiantes están correlacionados. Yo no soy concretamente el modelado de la correlación dentro de un estudiante en particular semanal de observaciones. Creo que yo sólo tendría que considerar la posibilidad de que en un inferencial, ya los errores estándar sería demasiado pequeño. Creo, pero no estoy seguro de esto, que el único problema que surja de la correlación de las observaciones es que tengo que tener cuidado cuando me validación cruzada para mantener agrupado observaciones en un subconjunto de los datos, por lo que no tengo artificialmente bajos fuera de muestra de los índices de error se basa en hacer predicciones acerca de una persona que el modelo ya ha visto.
Estoy usando R glmnet paquete para hacer un lazo con un modelo logístico para generar una probabilidad de éxito/fracaso y a tomar automáticamente predictores para un curso en particular. He estado usando la semana de la variable como un factor, interactuó con el resto de los predictores. No creo que esto difiere, en general, de sólo la estimación individual de la semana basado en los modelos, excepto que da una idea de cómo puede haber algún modelo común que tiene todo el término que se ajusta a través de varios de riesgo los factores de ajuste en diferentes semanas.
Mi principal pregunta es esta: ¿hay una mejor manera de actualizar la clasificación de las probabilidades a lo largo del tiempo en lugar de simplemente dividiendo el conjunto de datos en forma semanal (o de otro intervalo) las instantáneas, la introducción de un período de tiempo variable de factor de interactuó con cada otra característica, y el uso acumulativo de características (acumulativo de puntos ganados, días acumulados en clase, etc)?
Mi segunda pregunta es: ¿me estoy perdiendo algo crítico sobre el modelo de predicción con la correlación de las observaciones?
Mi tercera pregunta es: ¿cómo puedo generalizar esto a una actualización en tiempo real, dado que estoy haciendo semanales instantáneas? Estoy pensando en simplemente enchufar variables para el actual intervalos semanales, pero esto parece kludgey a mí.
Para tu INFORMACIÓN, estoy entrenado en educativa aplicada stats pero no tienen una formación en matemáticas estadísticas desde hace mucho tiempo. Puedo hacer algo más sofisticado, si tiene sentido, pero necesito que se explica en relativamente accesible términos.