Teniendo dos estrategias de programación, me gustaría probar cuál funciona mejor. Los datos de entrada (varios casos de prueba de problemas) para las estrategias se generan aleatoriamente. Las estrategias se utilizan para calcular una programación óptima factible. Durante la programación, se miden varias cosas: tiempo de programación, número de retrocesos realizados, número de nodos en el árbol de búsqueda y otros criterios. Me gustaría comparar las estrategias en cada uno de los criterios.
No puedo determinar ninguna distribución para los datos medidos. Además, los datos pueden ser muy diferentes en cada caso de prueba. Por ejemplo, los tiempos de programación podrían ser:
| test case | strategy #1 | strategy #2 |
|------------|-------------|-------------|
| #1 | 300 | 500 |
| #2 | 1200 | 3300 |
| #3 | 150 | 140 |
| #4 | 2340 | 6872 |
| #5 | 4354 | 9335 |
| #6 | 972 | 869 |
¿Existe algún estadístico de prueba que pueda utilizar para realizar una prueba de hipótesis como: "la estrategia nº 1 corre más que la estrategia nº 2"? ¿Cuál es la mejor manera de medir cuál de las dos estrategias funciona mejor según un criterio?