Tengo algunos datos que representa a los estudiantes los resultados de los exámenes, estos datos se utilizan para predecir qué rango el estudiante estará en 'hoy' examen. Algunos de los datos que uso con el fin de predecir este es el anterior examen de las puntuaciones de que estos estudiantes lograron. Lamentablemente el anterior examen de las puntuaciones no son siempre del mismo sujeto como hoy de examen. Por ejemplo hoy en la prueba puede ser el cálculo y ayer (o el último) puede haber sido latina.
Si puedo describir mi anterior de la estandarización de la metodología para ayudar a añadir un poco de contexto. La primera cosa a tener en cuenta es que actualmente no estoy tratando de averiguar lo que la puntuación de la prueba de un determinado alumno debe alcanzar para este examen, que se están tomando, estoy tratando de calcular donde se deben clasificar en contra de sus pares dentro de los exámenes de clase.
- Mi método original: he calculado que el promedio de puntuación en un examen de cálculo fue por un estudiante que alcanzó un 98 en la latina examen (que tuvo como su último examen) a través de un simple no lineal de regresión. Tengo que hacer esto para todos los estudiantes sentados un determinado examen, el cálculo de lo que creo que su anterior examen, la puntuación sería la pena si fue en el tema de hoy. Incluso hago este mismo tema de las puntuaciones, la razón de ser cuando un estudiante obtiene una ridículamente alta puntuación de un examen, en realidad, en promedio, alcanzan ligeramente menor en el próximo examen (según mi regresión.)
- Lo que quiero hacer, entonces, es encontrar la diferencia entre el más grande del último tiempo de la puntuación del examen de una clase y la última vez que el examen de la puntuación de cada alumno tomando hoy el examen. por ejemplo, La puntuación más alta alumno tendrá un valor de
0
y aquellos que lograron peor tendrá un número positivo que refleja cuán lejos estaban de la persona que logró la mejor puntuación, permite llamar a este valordeltaE
para fines de referencia. - Entonces me cálculo posterior porcentaje de exámenes de la clase victoria de diferentes
deltaE
valores de, por ejemplo, aquellos con undeltaE
de 0 tienen un 18% de probabilidad de ranking más alto en su próximo examen. - Yo, a continuación, utilizar este tipo de datos en un intento de predecir donde el estudiante se clasifican con un bosque al azar clasificador, incluyendo los tres parámetros 18,100,0.18 representa la cantidad de veces que un
deltaE
0 rango superior en su próximo examen, de un número total dedeltaE-0
estudiantes y, finalmente, el 18/100 representado como un decimal
Este método de estandarización de las diferentes materias en los que se espera una de las materias relevantes puntuación me parece desordenado y más que probable que el largo camino de hacer las cosas. Me pregunto si es posible para mí hacer uso de los bosques aleatorios funcionalidad para eliminar la necesidad de la normalización? Por ejemplo, podría utilizar una representación numérica de cada sujeto y la incluyen en mis datos? Por ejemplo latina podría ser 18,100,0.18,2 sin embargo, si el sujeto estaba cálculo sería 18,100,0.18,1 o algo para este efecto.
Todos los comentarios y sugerencias bienvenidos, alguien con la experiencia de bosques aleatorios sería ideal para comentar esto, pero si su experiencia es en otras modelado de programación de los fondos siente libre de poner sus pensamientos en todo. Gracias de antemano