4 votos

¿Este tipo de datos requiere esta estandarización manual, o se puede eludir utilizando un clasificador de bosque aleatorio?

Tengo algunos datos que representa a los estudiantes los resultados de los exámenes, estos datos se utilizan para predecir qué rango el estudiante estará en 'hoy' examen. Algunos de los datos que uso con el fin de predecir este es el anterior examen de las puntuaciones de que estos estudiantes lograron. Lamentablemente el anterior examen de las puntuaciones no son siempre del mismo sujeto como hoy de examen. Por ejemplo hoy en la prueba puede ser el cálculo y ayer (o el último) puede haber sido latina.

Si puedo describir mi anterior de la estandarización de la metodología para ayudar a añadir un poco de contexto. La primera cosa a tener en cuenta es que actualmente no estoy tratando de averiguar lo que la puntuación de la prueba de un determinado alumno debe alcanzar para este examen, que se están tomando, estoy tratando de calcular donde se deben clasificar en contra de sus pares dentro de los exámenes de clase.

  • Mi método original: he calculado que el promedio de puntuación en un examen de cálculo fue por un estudiante que alcanzó un 98 en la latina examen (que tuvo como su último examen) a través de un simple no lineal de regresión. Tengo que hacer esto para todos los estudiantes sentados un determinado examen, el cálculo de lo que creo que su anterior examen, la puntuación sería la pena si fue en el tema de hoy. Incluso hago este mismo tema de las puntuaciones, la razón de ser cuando un estudiante obtiene una ridículamente alta puntuación de un examen, en realidad, en promedio, alcanzan ligeramente menor en el próximo examen (según mi regresión.)
  • Lo que quiero hacer, entonces, es encontrar la diferencia entre el más grande del último tiempo de la puntuación del examen de una clase y la última vez que el examen de la puntuación de cada alumno tomando hoy el examen. por ejemplo, La puntuación más alta alumno tendrá un valor de 0 y aquellos que lograron peor tendrá un número positivo que refleja cuán lejos estaban de la persona que logró la mejor puntuación, permite llamar a este valor deltaE para fines de referencia.
  • Entonces me cálculo posterior porcentaje de exámenes de la clase victoria de diferentes deltaE valores de, por ejemplo, aquellos con un deltaE de 0 tienen un 18% de probabilidad de ranking más alto en su próximo examen.
  • Yo, a continuación, utilizar este tipo de datos en un intento de predecir donde el estudiante se clasifican con un bosque al azar clasificador, incluyendo los tres parámetros 18,100,0.18 representa la cantidad de veces que un deltaE 0 rango superior en su próximo examen, de un número total de deltaE-0 estudiantes y, finalmente, el 18/100 representado como un decimal

Este método de estandarización de las diferentes materias en los que se espera una de las materias relevantes puntuación me parece desordenado y más que probable que el largo camino de hacer las cosas. Me pregunto si es posible para mí hacer uso de los bosques aleatorios funcionalidad para eliminar la necesidad de la normalización? Por ejemplo, podría utilizar una representación numérica de cada sujeto y la incluyen en mis datos? Por ejemplo latina podría ser 18,100,0.18,2 sin embargo, si el sujeto estaba cálculo sería 18,100,0.18,1 o algo para este efecto.

Todos los comentarios y sugerencias bienvenidos, alguien con la experiencia de bosques aleatorios sería ideal para comentar esto, pero si su experiencia es en otras modelado de programación de los fondos siente libre de poner sus pensamientos en todo. Gracias de antemano

1voto

太極者無極而生 Puntos 3116

Usted puede agregar variable categórica que representa al sujeto, RF debe ser capaz de "averiguar" ¿cuál es la correlación de la puntuación entre los sujetos. En lugar de sólo una variable puede tener múltiples variables, una para cada tema y asignar 0 o 1 para cada uno. Otra opción para evitar demasiadas variables como para ser creado de división de los sujetos por grupos (técnica, humanitaria, idiomas, etc...), de nuevo, la creación de un 0/1 variable binaria para cada uno.

El problema con sólo una variable categórica es que podría ser confuso para RF porque divide hacer una comparación. ¿Qué sería de subject < 4 significa? No tiene mucho sentido... aún podría funcionar, pero creo variables binarias debería de funcionar mejor (casi?) siempre.

Todos en todos, que de estas maneras funciona mejor en su caso sólo puede ser probado en la práctica, dadas sus restricciones sobre cómo rápidamente usted necesita entrenar y precisión lo que necesita.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X