Sólo porque el cinco el número de resumen es idéntico no significa que la distribución es idéntica. Este indica la cantidad de información que se pierde en el momento de presentar los datos de forma gráfica en un diagrama de caja!
Tal vez la forma más sencilla de ver el problema es que el número cinco de resumen no le dice nada acerca de la distribución de los valores entre el mínimo y el cuartil inferior, o entre el cuartil inferior y el de la mediana, y así sucesivamente. Usted sabe que la frecuencia entre el mínimo y el cuartil inferior debe coincidir con la frecuencia entre el cuartil inferior y la mediana (con las obvias excepciones, por ejemplo, si tenemos datos acostado en un cuartil, o peor aún, si dos cuartiles son atados), pero no saben para qué valores de la variable esas frecuencias son asignadas. Podemos tener una situación como esta:
Estas dos distribuciones tienen la misma cinco el número de sumario, por lo que sus diagramas de caja son idénticos, pero he escogido $X$ a tiene una distribución uniforme entre cada cuartil, mientras que $Y$ tiene una distribución de frecuencias bajas cerca de los cuartiles y altas frecuencias en el medio de los dos cuartiles. Efectivamente, la distribución de $Y$ ha sido constituida por la distribución de $X$ y pasando la mayor parte de los datos que está cerca de un cuartil más lejos de ella; mi R
código realiza realmente esta en sentido inverso, comenzando con la distribución irregular de la $Y$ y la nivelación de las frecuencias por parte de la reasignación de los datos de los picos para rellenar las depresiones.
EDIT: Como @Glen_b dice, esto se hace aún más evidente cuando se mira la distribución acumulativa. He añadido las líneas de cuadrícula para mostrar la ubicación de los cuartiles, que son las mismas para las dos distribuciones para sus empírica Cdf se cruzan.
R código de
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00