He medido el tiempo necesario para resolver un problema mediante el algoritmo de $X$ y por el algoritmo de $Y$. Toma bastante tiempo, así que sólo tengo 10 datos para cada algoritmo: $$ X : ( x_1, x_2, \dots , x_{10}) \\ Y : ( y_1, y_2, \dots , y_{10}) $$
EDIT:
The problem they are solving is randomized. I generated 10 instances of the problem using 10 different random seeds. The 10 computational times correspond to these 10 problem instances. In this sense, the data are paired.
The change of a seed does not change the difficulty of the problem very much.
END OF EDIT
I have computed the ratio of the averages:
$$ avg = \frac{\sum_{k=1}^{10} x_k }{\sum_{k=1}^{10} y_k } $$
Esto, sin embargo, no transmite ninguna información sobre la forma precisa la relación es.
Una manera posible es la estimación de la desviación estándar.
De acuerdo a esta respuesta, el promedio de variables aleatorias iid es asintóticamente normal y, por tanto, la relación ha asymptotical de Cauchy de distribución, cuya desviación estándar es infinito. Este no me satisface, sobre todo ya que tengo solo 10 datos.
Entonces, de acuerdo a esta respuesta debería aproximar la desviación estándar usando la serie de Taylor. Esta respuesta se ve mejor, pero aún no se siente bien.
La distribución de una proporción es intuitivamente muy asimétricos alrededor de 1. (sólo tiene el intervalo de $(0; 1)$ a capturar el hecho de que el algoritmo de $X$ es más rápido, pero todo el $(1 ; \infty)$ a capturar el hecho de que $Y$ es más rápido). Así que incluso un estimado de la desviación estándar puede ser de poco uso.
Sería mejor para proporcionar algún tipo de intervalo de confianza. Por ejemplo: la proporción es de 1,5 con un asimétricos intervalo de confianza de (1,3 ; 2,8). Pero no tengo idea de cómo calcular esto, pues yo no conozco la distribución de mis datos.
EDIT2:
Aquí están mis datos:
X Y
111536 160134
111165 164850
112494 165844
115959 166409
121296 161755
119948 167781
119172 168666
117330 169766
116661 166518
129311 169884
EDIT3:
Para responder a la pregunta (en los comentarios) de D L Dahly
¿por qué no acaba de informar de que un algoritmo es más rápido en todas las instancias
Por la brevedad de la pregunta que no he mencionado que en realidad he 84 conjuntos de datos que se describen en esta pregunta. 2 problemas x 6 dimensiones del problema x 7 tamaños posibles del problema. En algunos casos, X es más rápido, en algunos Y es más rápido y en algunos casos los resultados no son concluyentes.
Yo no necesariamente tienen intervalos de confianza o desviaciones estándar. Sólo quiero ofrecer al lector algo más rica que la de los promedios. El lector debe tener un sentido de cómo se representa el promedio de los resultados experimentales.