Estoy escribiendo un autotest de reconocimiento de conceptos. (Esto es menos raro de lo que parece, pero sólo un poco. No te preocupes.) En parte para evitar que la gente haga clic en todo lo que ve, pero sobre todo sólo para obligar a la gente a pensar en los elementos más difícil, he incluido una serie de elementos falsos en la lista.
Por ejemplo, supongamos que pregunto sobre 25 conceptos con 10 falsos. Una persona podría elegir 5 de los 25, o 20 de 25, o lo que sea. Lo ideal sería que nadie eligiera nunca los conceptos falsos, pero por supuesto puede ocurrir. Estoy tratando de elaborar un método sólido para calificar un esquema de este tipo. (Esto es puramente para mi propia edificación -- el esquema no necesita ser calificado ya que es sólo una auto-prueba -- pero me gustaría ver cuál sería un buen método).
Me recuerda a Tao's ¿Cómo asignar créditos parciales en un examen de preguntas verdadero-falso? que penaliza fuertemente la asignación de altas probabilidades a elementos falsos. Me gustaría hacer algo conceptualmente similar, teniendo en cuenta el número de falsificaciones (cuantas más, más difícil). También estoy abierto a sugerencias sobre cuántas incluir.
Un comentario pedía un ejemplo. Digamos que pregunto qué clases estelares conoce una persona, presentándole las opciones de clase A, B, C, E. F, G, K, M y O (estos son los conceptos). La persona elige entonces cuál de esas 9 conoce. Una persona puede elegir sólo G, una clase que incluye nuestro sol. Otra persona puede elegir O, B, A, F, G, K, M, pero omitir las no reconocidas C (estrellas de carbono) y E (ésta es falsa). Alguien que eligió E acertó en esa, pero quizá también en otras.
Si no incluyera falsificaciones, simplemente construiría un intervalo de confianza binomial dado el número de elementos seleccionados del total. ¿Existe una buena manera de modificar esto para mis necesidades, o tal vez algo completamente diferente?
Ahora mismo no tengo ninguna buena idea, así que cualquier cosa será bienvenida. Mi parche es tratar a una persona eligiendo de conceptos reales totales, que también eligió conceptos falsos, como tener de correcta y, a continuación, construir un intervalo de confianza. Así, en el ejemplo, la persona que eligiera A, B, C y E, 3 reales y 1 falsa de 8 clases de estrellas reales y 1 falsa, obtendría 3 de 9 (media 30%, intervalo A-C 95% 10% a 68%) mientras que alguien que eligiera sólo A, B y C obtendría 3 de 8 (media 37,5%, intervalo A-C 11% a 73%). Pero esto no tiene una motivación estadística sólida.
Estoy abierto a recibir sugerencias sobre cómo formular mejor mi pregunta.