Tengo un test de tareas de inteligencia humana que trata de obtener la mejor opción de un conjunto de opciones contrastadas con un grupo de control.
La prueba consiste en:
- Supongamos que tenemos un grupo de control de opciones, digamos 10.
- Cada opción está relacionada con una característica o concepto común, pero son diferentes entre sí y están ordenadas, descendiendo desde la más relevante.
- Nos centramos en una opción y la llamamos variante de control .
- Construimos n variantes de esta opción y llamarlas variantes de prueba .
- Cada variante se pone en lugar del variante de control para construir un grupo de prueba .
- La prueba se realiza pidiendo a un humano que seleccione la mejor opción de un grupo que describe nuestra característica o concepto. El grupo (incluido el grupo de control) que se muestra a la persona que realiza la prueba se selecciona uniformemente al azar. Realizamos la prueba 500 veces, asegurándonos de que una persona pueda resolver la prueba una sola vez.
Quiero medir cuál de las variantes de control y de prueba es mejor para los examinados. Por ejemplo, podríamos seleccionar la variante que sea seleccionada más veces con respecto a sus opciones de grupo, es decir, si se muestra un grupo a los examinados k_i
(con i = 1,2,...,n
) veces (idealmente el mismo valor 500/n), seleccione la variante con mayor tasa de selección respecto a sus propias opciones de grupo en el k_i
muestras.
No soy un experto, pero veo claramente que la forma de realizar la prueba introduce algunos problemas. Por ejemplo, ¿qué establece claramente que este enfoque conduciría a la mejor variante según el criterio de los examinados? ¿Qué confianza tengo en esto? Está claro que los grupos mostrados no se seleccionarán perfectamente de manera uniforme. ¿La cantidad de muestras conducirá a un resultado significativo?
Un amigo me dijo que me interesaría leer sobre las pruebas de chi-cuadrado, y me envió este artículo: https://www.lunametrics.com/blog/2014/07/01/statistical-significance-test pero no entiendo del todo si esto se aplicaría al problema.
¿Cómo puedo inferir cuál es la mejor opción según la prueba descrita con alta confianza? ¿Pueden compartir conmigo algunos conceptos, artículos o libros para aprender sobre este tipo de problemas?