El boxplot así como sus variantes (véase "40 años de boxplots" de Wickham & Stryjewski ) visualiza muestras o posiblemente una población entera. Por lo general, se trata de observaciones reales. Tenga en cuenta que verá al menos cinco números visualizados por boxplot.
El gráfico de puntos se suele utilizar para visualizar un estimación de parámetros . La barra puede utilizarse para indicar la incertidumbre en la estimación, por ejemplo, un error estándar. Tenga en cuenta que es muy posible mostrar sólo el punto, es decir, un único número por gráfico de puntos (aunque, por supuesto, se debe indicar la incertidumbre).
En su ejemplo, los dos están visualizando cosas similares, es decir, la tendencia central de las observaciones por grupo. La diferencia es sutil: el boxplot ofrece el resumen habitual de cinco números de la observaciones entre las que se encuentra la mediana de la muestra, que resulta ser una estimador para la mediana de la población.
Sin embargo, se puede utilizar igualmente un gráfico de puntos para visualizar cualquier otra estimación con el punto. El punto podría representar una estimación de la desviación estándar de las observaciones dentro de cada grupo, y la barra podría representar el error estándar de la desviación estándar . O el punto podría visualizar un coeficiente de regresión para cada grupo, de nuevo con la barra representando su error estándar.
Si piensa un poco en ejemplos como estos, se dará cuenta de que mientras un gráfico de puntos es sencillo para estas estimaciones de parámetros, no hay un boxplot "correspondiente".
Por supuesto, es muy posible, digamos, hacer un bootstrap de la estimación de un parámetro y luego visualizar las estimaciones del bootstrap utilizando un boxplot. ¿Es esto una contraposición a mi argumento "gráficos de puntos para las estimaciones de los parámetros, gráficos de caja para las muestras"? No. Lo que se visualiza en este caso es de nuevo una muestra, es decir, una muestra de estimaciones bootstrap. Es una muestra de estimaciones.
Por lo tanto, la decisión de utilizar un diagrama de caja o un gráfico de puntos se reduce a si se desea visualizar una muestra o una estimación de parámetros con su incertidumbre asociada.
Por último, parece que hay cierta confusión en su terminología. Lo que usted está discutiendo es, como arriba, un gráfico de puntos con barras. Cuando se refiere a un barplot o gráfico de barras En este caso, se trata de un gráfico que vuelve a visualizar las estimaciones de los parámetros como el gráfico de puntos, pero en lugar de los puntos, se utilizan barras, y entonces puede haber además ser barras de error alrededor de los extremos de la barra, dando lugar a la la justamente denostada "trama de la dinamita" .
Por último, el gráfico de puntos también suele denominarse "gráfico de puntos". Mi costumbre personal es referirme a un gráfico de muestras brutas, con una muestra por punto, como un "gráfico de puntos", mientras que llamaré "gráfico de puntos" a un gráfico con un solo punto que visualiza una estimación de parámetros. Sin embargo, no he conseguido lavar el cerebro a toda la profesión estadística para que adopte la nomenclatura que he elegido.
He aquí un ejemplo. Simularé 30 puntos de datos, los visualizaré y superpondré un boxplot. Además, doy gráficos de puntos para la media estimada (con +/- un error estándar) y la desviación estándar estimada (con +/- un error estándar bootstrap).
set.seed(1)
nn <- 30
xx <- rnorm(nn)
mean_pm_one_se <- mean(xx)+sd(xx)*c(-1,1)/sqrt(nn)
library(boot)
sd_pm_one_se <- sd(xx)+sd(boot(xx,function(xx,index)sd(xx[index]),R=1000)$t[,1])*c(-1,1)
opar <- par(mfrow=c(1,3))
boxplot(xx,ylim=range(xx),main="Dot plot\nof observations\nwith boxplot")
points(0.8+0.4*runif(nn),xx,pch=19)
#
plot(mean(xx),pch=19,ylim=range(xx),ylab="",xlab="",xaxt="n",
main="Dot chart\nof mean\nwith SE")
lines(c(1,1),mean_pm_one_se)
#
plot(sd(xx),pch=19,ylim=c(0,2),ylab="",xlab="",xaxt="n",
main="Dot chart\nof SD\nwith bootstrapped SE")
lines(c(1,1),sd_pm_one_se)
par(opar)