Tengo dos implementaciones de un algoritmo genético que se supone que se comportan de forma equivalente. Sin embargo, debido a restricciones técnicas que no se pueden resolver, su resultado no es exactamente el mismo, dada la misma entrada.
Aun así, me gustaría demostrar que no hay una diferencia de rendimiento significativa.
Tengo 20 ejecuciones con la misma configuración para cada uno de los dos algoritmos, utilizando diferentes semillas de números aleatorios iniciales. Para cada ejecución y la generación el error mínimo aptitud del mejor individuo de la población se registró. El algoritmo emplea un mecanismo de preservación de la élite, por lo que la aptitud del mejor individuo es monotónicamente decreciente. Una tirada consta de 1000 generaciones, por lo que tengo 1000 valores por tirada. No puedo obtener más datos, ya que los cálculos son muy costosos.
¿Qué prueba debo emplear? Una forma fácil sería probablemente comparar sólo el error en las generaciones finales (de nuevo, ¿qué prueba utilizaría aquí)? Pero también se podría pensar en comparar el comportamiento de la convergencia en general.