2 votos

Cómo inferir en una tarea de inteligencia humana sobre la selección de la mejor opción

Tengo un test de tareas de inteligencia humana que trata de obtener la mejor opción de un conjunto de opciones contrastadas con un grupo de control.

La prueba consiste en:

  • Supongamos que tenemos un grupo de control de opciones, digamos 10.
  • Cada opción está relacionada con una característica o concepto común, pero son diferentes entre sí y están ordenadas, descendiendo desde la más relevante.
  • Nos centramos en una opción y la llamamos variante de control .
  • Construimos n variantes de esta opción y llamarlas variantes de prueba .
  • Cada variante se pone en lugar del variante de control para construir un grupo de prueba .
  • La prueba se realiza pidiendo a un humano que seleccione la mejor opción de un grupo que describe nuestra característica o concepto. El grupo (incluido el grupo de control) que se muestra a la persona que realiza la prueba se selecciona uniformemente al azar. Realizamos la prueba 500 veces, asegurándonos de que una persona pueda resolver la prueba una sola vez.

enter image description here

Quiero medir cuál de las variantes de control y de prueba es mejor para los examinados. Por ejemplo, podríamos seleccionar la variante que sea seleccionada más veces con respecto a sus opciones de grupo, es decir, si se muestra un grupo a los examinados k_i (con i = 1,2,...,n ) veces (idealmente el mismo valor 500/n), seleccione la variante con mayor tasa de selección respecto a sus propias opciones de grupo en el k_i muestras.

No soy un experto, pero veo claramente que la forma de realizar la prueba introduce algunos problemas. Por ejemplo, ¿qué establece claramente que este enfoque conduciría a la mejor variante según el criterio de los examinados? ¿Qué confianza tengo en esto? Está claro que los grupos mostrados no se seleccionarán perfectamente de manera uniforme. ¿La cantidad de muestras conducirá a un resultado significativo?

Un amigo me dijo que me interesaría leer sobre las pruebas de chi-cuadrado, y me envió este artículo: https://www.lunametrics.com/blog/2014/07/01/statistical-significance-test pero no entiendo del todo si esto se aplicaría al problema.

¿Cómo puedo inferir cuál es la mejor opción según la prueba descrita con alta confianza? ¿Pueden compartir conmigo algunos conceptos, artículos o libros para aprender sobre este tipo de problemas?

2voto

STAR1B2UTY Puntos 1

Usted mencionó lo siguiente (en un comentario):

La "mejor" opción debe ser la que tenga más índice de selección entre todos los examinados.

Esto sugiere que su estadística de interés es simplemente la tasa de selección $p$ de alguna opción $j$ $(j=1,...,10)$ para un grupo determinado $i$ $(i=1,...,m)$ .

Por lo tanto, se puede comparar el valor de $p$ con respecto a algún $j$ entre cada $i$ .

Debido a que usted sugiere que habrá múltiples variantes, las pruebas como una prueba de dos proporciones no lo hará. En cambio, su principal opción es (como sugirió su amigo) un _Prueba de Chi-cuadrado_ .


Notas adicionales :

  • el ejemplo que vinculado para Pruebas de Chi-cuadrado menciona el uso de un Corrección de Bonferroni que sería aplicable en su caso si decide seguir este método
    • Sin embargo, esta corrección puede ser a menudo conservadora para un gran número $m$ de grupos (en cuyo caso, debería evitarlo)
  • el ejemplo que vinculado para Pruebas de Chi-cuadrado puede ser mejor para seguir, ya que su método generaliza el número $m$ de grupos (en lugar de suponer que sólo hay dos)
    • en este caso, su pestaña cruzada tendría $m$ filas (para cada grupo de control y variante) y 2 columnas (por ejemplo, " opción j seleccionada " frente a " no seleccionó la opción j ")

El poder de su prueba, es decir, la probabilidad de detectar algún efecto suponiendo que el efecto exista realmente (siendo un efecto algo parecido a " opción $j$ tiene un mayor índice de selección $p$ para algún grupo en particular $i$ "), va a depender en gran medida del tamaño de su muestra ( $\approx \frac{500}{m}$ ) para cada grupo y la magnitud real de los efectos en cuestión.

Sin tener una buena idea del número de grupos y del contexto del problema, es difícil inferir la potencia de su diseño de prueba propuesto.

La principal conclusión es que si la diferencia esperada en las tasas de selección entre los grupos es mayor, cabe esperar que la potencia estadística de la prueba también sea mayor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X