Estoy tratando de evaluar la diferencia entre los dos algoritmos. Ellos son estocásticos, así que me he quedado varias veces en contra de los mismos archivos de entrada y tomó nota de sus resultados. Quiero saber si mi algoritmo ofrece una mejora estadísticamente significativa de más de un enfoque anterior. De mi (potencialmente defectuoso) la comprensión de este tipo de situaciones es donde debería (o más bien podría) utilizar el Signo de Wilcoxon Rank.
Los datos son naturalmente vinculado, así que pueden unirse salidas de ambos algoritmos de la entrada en particular problema. Ya quiero probar que mi algoritmo es no sólo diferente, pero en realidad es mejor (en este caso devolver valores más bajos) que los otros algoritmo esto parece ser una cola de asunción.
Estoy usando el R wilcox.test
función para realizar la prueba y estoy un poco confundido acerca de cómo debería interpretar los resultados. He leído la página de ayuda para wilcox.test
y no parece ofrecer mucha información acerca de los resultados, más énfasis se hace a los argumentos de la función. He hecho un mínimo ejemplo de trabajo con un pequeño subconjunto de mis datos:
x <- structure(list(instance = structure(c(1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L), .Label = c("competition01", "competition02",
"competition03", "competition04", "competition05", "competition06",
"competition07", "competition08", "competition09", "competition10",
"competition11", "competition12", "competition13", "competition14",
"competition15", "competition16", "competition17", "competition18",
"competition19", "competition20"), class = "factor"), nhoods = structure(c(1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = c("nhoods1", "nhoods2",
"nhoods3", "nhoods4", "nhoods5"), class = "factor"), run.no = structure(c(1L,
1L, 2L, 2L, 3L, 3L, 4L, 4L, 5L, 5L), .Label = c("1", "2", "3",
"4", "5"), class = "factor"), partition = structure(c(1L, 2L,
1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L), .Label = c("Hard-Soft", "Full"
), class = "factor"), VNS = c(984L, 1445L, 1033L, 1445L, 1035L,
1318L, 1058L, 1445L, 913L, 1445L), `VNS-Skip` = c(1083L, 1425L,
1099L, 1230L, 1077L, 1363L, 1102L, 1442L, 1093L, 1252L)), .Names = c("instance",
"nhoods", "run.no", "partition", "VNS", "VNS-Skip"), row.names = c(NA,
10L), class = "data.frame")
wilcox.test(x[,5], x[,6], paired = TRUE, conf.int = TRUE, alternative = "greater")
Mi algoritmo de resultados en la 6ª columna y los originales están en la 5ª columna. Ya quiero para evaluar si mi algoritmo es mejor que yo he utilizado la alternativa = "mayor" opción, la cual debe significar que la prueba es la comprobación de la 1ª arg > del 2 de arg.
Esto se traduce en la salida:
Wilcoxon signed rank test
data: x[, 5] and x[, 6]
V = 22, p-value = 0.7217
alternative hypothesis: true location shift is greater than 0
95 percent confidence interval:
-72 Inf
sample estimates:
(pseudo)median
-21
En este caso el p-valor no es menor que 0.05 por lo que no hay suficiente evidencia para descartar la hipótesis nula.
Lo que hace tener infinito como el límite superior de un intervalo de confianza de decir? Es esto porque estoy usando el de una cola de la versión de prueba? Todas las pruebas que me he encontrado en mis datos siempre tienen la parte superior del intervalo de confianza como Inf. Si el p-valor inferior a 0,05 tendría que decir yo estaría justificado diciendo: "con un 95% de confianza x[,5]'s significa que será dentro de -72 de x[,6]'s?"
¿Qué hace el V valor de la media con respecto a mis datos? Por lo que puedo ver es la diferencia entre median(x[,5])
y median(x[,6]
, pero ¿cómo podría describir en prosa? ¿Alguien realmente utilizar el valor V es la discusión de sus análisis de datos?