9 votos

¿Cómo puedo utilizar estos datos para calibrar los marcadores con diferentes niveles de generosidad en la calificación del estudiante papeles?

12 los maestros están enseñando a 600 estudiantes. El 12 de cohortes enseñado por estos maestros varían en tamaño de 40 a 90 estudiantes, y esperamos que las diferencias sistemáticas entre las cohortes, como estudiantes de posgrado fueron asignados de manera desproporcionada a determinados grupos, y la experiencia previa ha demostrado que los estudiantes de posgrado, promedio de la puntuación considerablemente mayor que el de estudiantes de pregrado.

Los profesores han gradual, todos los papeles en su cohorte, y ha asignado una calificación de 100.

Cada maestro tiene también miraron el uno al azar de papel seleccionado de otros tres profesores, y dio una calificación de 100. Cada profesor ha tenido tres de sus papeles marcados por otro profesor. 36 diferentes papeles por lo que han sido marcadas con cruces de esta manera, y yo llamo a esto mis datos de calibración.

También puedo ver cómo muchos estudiantes graduados fueron en cada cohorte.

Mis preguntas son:

A) ¿Cómo puedo usar esta los datos de calibración para ajustar el original de la marca con el fin de hacerlos más justos? En particular, me gustaría lavar tanto como sea posible los efectos de demasiado generoso/ungenerous de decisiones.

B) Cómo es mi datos de calibración? Yo no tenía una opción en la más limitada de 36 puntos de datos de calibración de los datos que obtuve en este curso, y no tienen ninguna opción para recoger más durante el semestre en curso. Sin embargo, si esta situación se repite, yo podría ser capaz de recoger más datos de calibración o bien recoger diferentes tipos de datos de calibración.

Esta pregunta es un familiar de una de las populares de la pregunta que le hice: Cómo puedo lidiar con los efectos de los marcadores con diferentes niveles de generosidad en la calificación del estudiante papeles?. Sin embargo, es un curso diferente, y no estoy seguro de cómo una lectura útil que la pregunta sería como telón de fondo para esta corriente, ya que el principal problema no era que yo no tenía datos de calibración.

6voto

user60642 Puntos 6

Esto suena como una gran oportunidad para utilizar una factorización de la matriz de sistemas de recomendación. Brevemente, este funciona de la siguiente manera:

  • Ponga sus observaciones dentro de un parcialmente-observó matriz $M$ donde $M_{ij}$ es el puntaje maestro de $i$ le dio a estudiantes $j$.

  • Suponga que esta matriz es el exterior producto de algunos latente función de los vectores, $\vec t$$\vec s$, es decir, $M_{ij} = t_i s_j$.

  • Resolver para el latente función de los vectores que se minimice el cuadrado de la reconstrucción de error $\sum_{i,j} (t_is_j - M_{ij})^2$ (donde la suma de los rangos de más de todos los observados en células de $M$).

  • Usted puede hacer esto expectation-maximization estilo por la fijación de una conjetura por $\vec t$ y resolviendo $\vec s$ a través de mínimos cuadrados, luego de fijación que adivinar para $\vec s$ y resolviendo $\vec t$ y se itera hasta la convergencia.

Tenga en cuenta que esto hace un bastante fuerte de la asunción en la forma de un maestro del sesgo: en particular, si usted piensa de los estudiantes latente características como su "verdadera calificación", luego de un profesor sesgo multiplica cada cierto puntaje en una cantidad constante (para hacer aditivo lugar sería exponentiate las puntuaciones que se inserta en la matriz, y luego aprender las exponenciales de la "verdadera scores"). Con tan pocos datos de calibración, probablemente usted no puede llegar muy lejos sin hacer una fuerte suposición de esta forma, pero si tuviera más datos, se puede agregar una segunda dimensión latente de características, etc. (es decir, supongamos $M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$ y de nuevo intenta minimizar el cuadrado de la reconstrucción de error).


EDIT: con el fin de tener una bien definida problema que necesita tener más operaciones de matriz de latente parámetros (o puede utilizar algún tipo de regularización). Usted apenas tiene que aquí (tienes 636 observaciones y 612 latente parámetros), por lo que la factorización de la matriz puede que no funcione super bien, no he trabajado con ellos en muestras pequeñas, así que realmente no sé.

Si la calibración resulta ser insuficiente para el uso de un buen modelo de recomendación, podría tratar de un multinivel de la regresión en Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher) (sin tener en cuenta los datos de calibración) para extraer las estimaciones de un aditivo maestro sesgo y, a continuación, comprobar si esta tendencia es consistente con los datos de calibración que usted tomó. (Usted debe permitir heterocedasticidad por el maestro (si es posible). Esto es más ad-hoc, pero puede dar menos severos problemas de recopilación de datos.

2voto

AdamSane Puntos 1825

He aquí un par de enfoques relacionados.

Tome el conjunto de documentos marcado por más de un profesor, ya que los que contienen la mayor parte de la información sobre el maestro de los efectos y fuera de los papeles, el maestro y la cohorte efectos se confunden (si había alguna manera de llegar a el efecto de la cohorte -- tal vez a través de GPA o algún otro indicador, por ejemplo, entonces usted puede utilizar todos los datos, pero se va a complicar los modelos un poco).

La etiqueta de los estudiantes $i=1,2, ... n$, y los marcadores $j=1, 2, ...,m$. Deje que el conjunto de las marcas de ser $y_{ij}, i=1,2, ... m$.

Se debe considerar su modelo de cómo el marcador efecto se aplica. Es aditivo? Es multiplicativo? ¿Necesita preocuparse acerca de los límites de los efectos (por ejemplo, sería un aditivo o multiplicativo efecto en un logit escala estar mejor)?

Imagina dos marcadores en dos documentos e imaginar el segundo marcador es más generoso. Digamos que el primer marcador daría a los artículos 30 y 60. Será el segundo marcador tienden a añadir un número constante de las marcas (es decir 6 puntos) a ambos? Se tienden a agregar constante porcentajes (digamos 10% para ambos, o 3 puntos vs 6 puntos)? ¿Qué pasa si el primer marcador dio 99? -- ¿qué pasaría entonces? ¿Qué acerca de 0? ¿Y si el segundo marcador fueron menos generoso? lo que habría de suceder en el 99 o 0? (esta es la razón por la que menciono a un modelo logit - uno podría tratar de la marca como una proporción de las posibles marcas ( $p_{ij}=m_{ij}/100$ ) y, a continuación, el marcador efecto podría ser añadir una constante (dicen) el logit de $p$ - es decir,$\log(p_{ij}/(1-p_{ij})$).

(Usted no tiene información suficiente para estimar la forma de generousness así como su tamaño. Usted tiene que elegir un modelo a partir de su comprensión de la situación. Usted también tendrá que hacer caso omiso de cualquier posibilidad de interacción; usted no tiene los datos de la misma)

Posibilidad 1 - llanura modelo aditivo. Esto podría ser adecuado si no hay marcas muy cercanas a 0 o 100:

Considere la posibilidad de un modelo como $E(y_{ij}) = \mu_{i}+\tau_j$

Esto es esencialmente un ANOVA de dos vías. Usted necesita restricciones en esto, así que usted puede configurar una desviación de codificación/configurar el modelo, por lo que de marcador de efectos es 0, o puede configurar un modelo donde un marcador de la línea de base (cuyo efecto es 0, y cuyas marcas se intenta ajustar cada uno de los otros marcador hacia).

Luego tomar la $\hat{\tau}_j$ valores y ajuste de la población más amplia de marcas de $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$.

Posibilidad 2: En efecto, un tipo similar de la idea, sino $E(y_{ij}) = \mu_{i}\tau_j$. Aquí usted puede caber una no lineal de mínimos cuadrados del modelo, o un GLM con un registro de enlace (probablemente me inclinarse hacia la segunda de estas dos). De nuevo tiene una restricción en la $\tau$s.

Luego de un adecuado ajuste sería dividir por $\hat{\tau_j}$.

Posibilidad 3: aditivo en la escala logit. Esto podría ser más conveniente si algunas de las marcas acercarse a 0 o 100. Se verá aproximadamente multiplicativo para de muy pequeñas marcas, aditivos para regular las marcas y aproximadamente multiplicativo en $1-p=(100-m)/100$ para muy altas marcas. Usted podría utilizar una versión beta de la regresión o un cuasi-binomio GLM con logit enlace a este modelo de ajuste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X