1 votos

Porcentaje de victorias estadísticamente significativo

Estoy jugando con IAs para Onitama un juego de conocimiento perfecto para 2 jugadores.

Quiero comparar los puntos fuertes de diferentes IAs midiendo sus victorias y derrotas y luego comprobando la significación estadística.

Game Results

  • Los resultados son desde la perspectiva de la fila
  • "empate" significa realmente "50 turnos sin ganador")
  • "min_max_X" significa "min_max buscando a profundidad X"

Mi primer intento es utilizar una prueba binomial. Ignorando los empates, mi hipótesis nula es que las IAs de igual fuerza ganan el 50% de las veces.

He calculado los valores P utilizando scipy

p_value = stats.binom_test(x=result["win"], n=result["win"] + result["lose"], p=0.5, alternative='two-sided')

P-values based on previous results

Estos resultados me parecen razonables, suponiendo que esté interpretando bien:

  • Cuanto más se acerque el valor P a 0, más probable es que la hipótesis nula sea errónea.
  • "aleatorio" tiene valores P bajos frente a min-max, como era de esperar
  • Como era de esperar, los valores P de las IAs que juegan contra sí mismas son altos.

¿Es válido mi planteamiento para esta situación? ¿Existe una forma mejor o más común?

1voto

manku Puntos 111

He probado varios de estos cálculos en R utilizando binom.test obteniendo resultados que coincidan con los suyos.

En concreto, para "Random vs Random", obtuve:

binom.test(21, 21+17, alt="two")

        Exact binomial test

data:  21 and 21 + 17
number of successes = 21, number of trials = 38, p-value = 0.6271
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.3829908 0.7137585
sample estimates:
probability of success 
             0.5526316 

Además, para 'min_max3 va min_max2':

binom.test(21, 21+10, alt="two")

        Exact binomial test

data:  21 and 21 + 10
number of successes = 21, number of trials = 31, p-value = 0.07076
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.4862702 0.8331764
sample estimates:
probability of success 
             0.6774194 

A veces, esto se denomina "prueba de signos", en la que se llama a los Wins + Pérdidas - y se ignoran los empates. Para el primer ejemplo anterior ('Random vs Random'), el valor P para una prueba de dos caras puede calcularse, por simetría, como $2P(X \le 17)= 0.6271,$ donde $X \sim \mathsf{Binom}(n=38,\, p=1/2).$

2*pbinom(17, 21+17, 1/2)
[1] 0.6271026

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X