Estoy jugando con IAs para Onitama un juego de conocimiento perfecto para 2 jugadores.
Quiero comparar los puntos fuertes de diferentes IAs midiendo sus victorias y derrotas y luego comprobando la significación estadística.
- Los resultados son desde la perspectiva de la fila
- "empate" significa realmente "50 turnos sin ganador")
- "min_max_X" significa "min_max buscando a profundidad X"
Mi primer intento es utilizar una prueba binomial. Ignorando los empates, mi hipótesis nula es que las IAs de igual fuerza ganan el 50% de las veces.
He calculado los valores P utilizando scipy
p_value = stats.binom_test(x=result["win"], n=result["win"] + result["lose"], p=0.5, alternative='two-sided')
Estos resultados me parecen razonables, suponiendo que esté interpretando bien:
- Cuanto más se acerque el valor P a 0, más probable es que la hipótesis nula sea errónea.
- "aleatorio" tiene valores P bajos frente a min-max, como era de esperar
- Como era de esperar, los valores P de las IAs que juegan contra sí mismas son altos.
¿Es válido mi planteamiento para esta situación? ¿Existe una forma mejor o más común?