19 votos

La actualización de la clasificación de la probabilidad en la regresión logística a través del tiempo

Estoy construyendo un modelo predictivo que las previsiones de un estudiante de la probabilidad de éxito en la finalización de un período. Me interesa conocer si el estudiante tiene éxito o fracasa, donde el éxito se define generalmente como completar el curso y el logro de un 70% o más puntos de un total de puntos posibles.

Al implementar el modelo, la estimación de la probabilidad de éxito necesita ser actualizado a través del tiempo a medida que más información esté disponible; preferiblemente inmediatamente después de que ocurre algo, como cuando un alumno envía una asignación o consigue un grado en uno. Esta actualización suena algo Bayesiano para mí, pero dada mi formación en las estadísticas de educación, que es un poco fuera de mi zona de confort.

Hasta ahora he estado usando regresión logística (en realidad el lazo) con un histórico conjunto de datos que contiene basado en la semana de instantáneas. Este conjunto de datos se ha correlacionado observaciones, ya que cada estudiante ha $TermLength/7$ observaciones; las observaciones de uno de los estudiantes están correlacionados. Yo no soy concretamente el modelado de la correlación dentro de un estudiante en particular semanal de observaciones. Creo que yo sólo tendría que considerar la posibilidad de que en un inferencial, ya los errores estándar sería demasiado pequeño. Creo, pero no estoy seguro de esto, que el único problema que surja de la correlación de las observaciones es que tengo que tener cuidado cuando me validación cruzada para mantener agrupado observaciones en un subconjunto de los datos, por lo que no tengo artificialmente bajos fuera de muestra de los índices de error se basa en hacer predicciones acerca de una persona que el modelo ya ha visto.

Estoy usando R glmnet paquete para hacer un lazo con un modelo logístico para generar una probabilidad de éxito/fracaso y a tomar automáticamente predictores para un curso en particular. He estado usando la semana de la variable como un factor, interactuó con el resto de los predictores. No creo que esto difiere, en general, de sólo la estimación individual de la semana basado en los modelos, excepto que da una idea de cómo puede haber algún modelo común que tiene todo el término que se ajusta a través de varios de riesgo los factores de ajuste en diferentes semanas.

Mi principal pregunta es esta: ¿hay una mejor manera de actualizar la clasificación de las probabilidades a lo largo del tiempo en lugar de simplemente dividiendo el conjunto de datos en forma semanal (o de otro intervalo) las instantáneas, la introducción de un período de tiempo variable de factor de interactuó con cada otra característica, y el uso acumulativo de características (acumulativo de puntos ganados, días acumulados en clase, etc)?

Mi segunda pregunta es: ¿me estoy perdiendo algo crítico sobre el modelo de predicción con la correlación de las observaciones?

Mi tercera pregunta es: ¿cómo puedo generalizar esto a una actualización en tiempo real, dado que estoy haciendo semanales instantáneas? Estoy pensando en simplemente enchufar variables para el actual intervalos semanales, pero esto parece kludgey a mí.

Para tu INFORMACIÓN, estoy entrenado en educativa aplicada stats pero no tienen una formación en matemáticas estadísticas desde hace mucho tiempo. Puedo hacer algo más sofisticado, si tiene sentido, pero necesito que se explica en relativamente accesible términos.

4voto

Awais Tariq Puntos 116

Usted no puede llegar allí desde aquí. Usted necesita comenzar con un modelo diferente. Me gustaría mantener el semanario instantáneas y construir un modelo estocástico alrededor de las transiciones en cada estudiante de la variable de estado. Supongamos que hay 10 semanas, lo que da 11 "decisión" de los puntos, $t_0, t_1, \ldots, t_n$. El estado en $t_i$ $(Z_i,S_i)$ donde $Z_i$ es 1 o 0, según lo que el estudiante está inscrito o no; y $S_i$ es la puntuación en ese punto (la suma de la prueba y los puntajes de las pruebas hasta la fecha). Los valores iniciales son $(1,0)$. Tiene dos transiciones que preocuparse: $Prob(z_i=0|s_{i-1})$ y la distribución de $S_i$.

El abandono de las probabilidades no es estacionaria, ya que obtendrá un exceso de abandonos justo antes de la final de la caída-sin-pena de la fecha. Pero se puede estimar que estos a partir de los datos anteriores.También se puede estimar la probabilidad de deserción como una función de la corriente (triste) de rendimiento.

El $S$ los resultados de un paseo aleatorio en un binomio de resultado (número de respuestas correctas en una prueba de $n$ elementos, digamos). Usted probablemente puede asumir independencia condicional -- asumen una latente "talento" de los parámetros para cada estudiante, y condicionada a que el valor de cada nuevo resultado es independiente de su rendimiento actual. Usted podría poner a prueba esta hipótesis en contra de sus datos históricos ... hacer fracasar los estudiantes cambian sus hábitos de estudio y de sacar un triunfo? Pero la mayoría de los estudiantes se comporten de verdad para formar ... así como un condicionalmente independiente del modelo debería funcionar bien.

Así que, básicamente, un estudiante no si $Z$ puntuación de las transiciones a 0, o $S$ puntuación no cruza el 70\% pasar el umbral.

Echemos un vistazo más de cerca a la $S$ proceso. Para simplificar el modelo, se asume que la evaluación consiste en obtener 70 puntos o más, de un total de 100 puntos posibles, obtenidos a partir de los 10 elementos de prueba cada semana.

En la línea de base, un estudiante pase de la probabilidad es simplemente la tasa de aprobación de la clase anterior.

En el momento 1, el estudiante ha ganado $S_1$ puntos (o abandonado). Que pasa si él puede ganar, al menos, $70-S_1$ puntos de los 90. este es un binomio problema, que puedo calcular fácilmente si sé que el estudiante de la probabilidad de éxito. Esto ya no será la "clase media"; necesito ajustar a la luz de la estudiante del éxito hasta el momento. Me gustaría utilizar una tabla a partir de la experiencia del pasado para el presente, pero se puede hacer un promedio ponderado de la clase tasa de éxito y el de los estudiantes para el éxito personal. La Regla de Bayes debe ayudar aquí.

Como un bono, usted puede calcular un rango de probabilidades, la cual debe estrecho como el término que avanza. De hecho, los fuertes a los estudiantes a cruzar el 70\% marca antes de la finalización del término, y su éxito será determinado en ese momento. Para la debilidad de los alumnos, el fracaso también se convertirá en determinados antes de la final.

RE: pregunta 3. Debe acudir a tiempo continuo? Yo no, porque eso lo pone a uno en el dominio de tiempo continuo de procesos estocásticos y las matemáticas involucradas está por encima de mi nivel de remuneración. No sólo eso, es poco probable que, sustancialmente, un resultado diferente.

La mejor forma de actualizar el modelo que he descrito no es continua en el tiempo, pero para ajustar las probabilidades de transición sobre la base de la experiencia previa. Tal vez débil estudiantes caer más detrás de una independencia modelo podría predecir. La incorporación de inhomegeneity podría mejorar el modelo más que ir de discretos a tiempo continuo.

0voto

Josh Puntos 58

Cuando entreno modelos de predicción para un tipo similar de implementación, puedo asegurarme de que mi conjuntos de datos tienen algún tipo de Term_End_Date así que puedo derrive la longitud de tiempo que queda hasta el final del término. Esto probablemente va a terminar siendo un predictor significativo en el modelo.

Con respecto a la cuestión de la correlación de las observaciones, supongo que no importa cuán grande de un repositorio de datos que tiene. Si es posible, me gustaría que aleatoriamente seleccione del 1 de observación para cada estudiante, estratificada en [# de semanas hasta el Término Final]. También me gustaría agarrar de términos antiguos, si es posible. Si usted no tiene suficientes datos para hacer eso, tal vez usted puede tratar de un re-método de muestreo como bootstrap.

Creo que la cosa más importante si usted tiene un pequeño conjunto de datos es mantener suficientes datos como una exclusión para asegurarse de que su último modelo es estable.

Creo que cuando ya está todo hecho, y usted tiene una fórmula de puntuación, que va a ser muy fácil de implementar. Pero sí, debe de ser de enchufar el semanal x variables que usted necesita para calcular la puntuación - pero esto suena más como una colección de datos tema y menos acerca de la implementación del modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X