Los datos que estoy trabajando son muy sesgada, con la gran mayoría de los datos concentrados en 0. Parece muy difícil poner de relieve las diferencias entre estos tipos de distribuciones:
gamma1 <- rgamma(10000, shape=0.05, rate=1)
gamma2 <- rgamma(10000, shape=0.055, rate=0.98)
gamma3 <- rgamma(10000, shape=0.06, rate=0.95)
c(mean(gamma1), mean(gamma2), mean(gamma3))
[1] 0.04845668 0.05253655 0.05797983
ks.test(gamma1, gamma2)
Two-sample Kolmogorov-Smirnov test
data: gamma1 and gamma2
D = 0.0433, p-value = 1.44e-08
alternative hypothesis: two-sided
ks.test(gamma2, gamma3)
Two-sample Kolmogorov-Smirnov test
data: gamma2 and gamma3
D = 0.0456, p-value = 1.864e-09
alternative hypothesis: two-sided
ks.test(gamma1, gamma3)
Two-sample Kolmogorov-Smirnov test
data: gamma1 and gamma3
D = 0.0798, p-value < 2.2e-16
alternative hypothesis: two-sided
Como la mayoría de los datos está en 0, histogramas no son muy útiles para ver las diferencias entre las distribuciones (por no mencionar el hecho no parece ser una manera conveniente para trazar un histograma con múltiples distribuciones en R, ver https://github.com/hadley/ggplot2/issues/1081):
Violín parcelas parecen distorsionar la forma de la distribución (que parece mucho más normal de lo que realmente son) y, ya que los medios son muy bajos, las cajas son casi invisibles:
Desde estas parcela en realidad no se ve nada útil, me preguntaba si hay una mejor manera de visualizar distribuciones sesgadas?