La gráfica de caja, así como variantes (ver "40 años de gráficas de caja" por Wickham & Stryjewski) visualiza muestras, o posiblemente una población entera. Por lo general, estas serán observaciones reales. Ten en cuenta que verás al menos cinco números visualizados por gráfica de caja.
La gráfica de puntos se utiliza típicamente para visualizar una estimación de parámetro. La barra se puede utilizar para indicar la incertidumbre estimada en la estimación, por ejemplo, un error estándar. Ten en cuenta que es bastante posible mostrar solo el punto, es decir, un solo número por gráfica de puntos (aunque por supuesto generalmente deberías indicar la incertidumbre).
En tu ejemplo, ambos visualizan cosas similares, es decir, la tendencia central de las observaciones por grupo. La diferencia es sutil: la gráfica de caja ofrece el resumen usual de cinco números de las observaciones, entre las cuales está la mediana de la muestra, que resulta ser un estimador útil para la mediana de la población.
No obstante, se puede usar igualmente una gráfica de puntos para visualizar cualquier otra estimación con el punto. El punto podría representar una estimación de la desviación estándar de las observaciones dentro de cada grupo, y la barra podría entonces representar el error estándar de la desviación estándar. O el punto podría visualizar un coeficiente de regresión para cada grupo, nuevamente con la barra representando su error estándar.
Si piensas un poco en ejemplos como estos, te darás cuenta de que si bien una gráfica de puntos es directa para estas estimaciones de parámetros, no hay una gráfica de caja "correspondiente".
Por supuesto, es perfectamente posible, por ejemplo, bootstrappear una estimación de parámetro y luego visualizar las estimaciones bootstrapped usando una gráfica de caja. ¿Es esto un contraargumento a mi afirmación "gráficas de puntos para estimaciones de parámetros, gráficas de caja para muestras"? No. Lo que se visualiza en este caso es nuevamente una muestra, es decir, una muestra de estimaciones bootstrapped. Es una muestra de estimaciones.
Por lo tanto, si debes usar una gráfica de caja o una gráfica de puntos depende de si deseas visualizar una muestra o una estimación de parámetro con su incertidumbre asociada.
Finalmente, parece haber cierta confusión en tu terminología. Lo que estás discutiendo es, como se mencionó anteriormente, una gráfica de puntos con barras. Cuando te refieres a un gráfico de barras, entonces te refieres a un gráfico que nuevamente visualiza estimaciones de parámetros como la gráfica de puntos, pero en lugar de los puntos, utilizas barras; y entonces puede además haber barras de error alrededor de los extremos de las barras, creando el denostado "gráfico del dinamite".
Finalmente, la gráfica de puntos a menudo también se llama "gráfico de puntos". Mi costumbre personal es referirme a un gráfico de muestras en bruto, con una muestra por punto, como un "gráfico de puntos", mientras que llamaré a un gráfico con un solo punto que visualiza una estimación de parámetro un "gráfico de puntos". No he tenido mucho éxito en lavarle el cerebro a toda la comunidad estadística para que adopte mi nomenclatura elegida, sin embargo.
Aquí tienes un ejemplo. Simularé 30 puntos de datos, los visualizaré y superpondré una gráfica de caja. Además, presentaré gráficas de puntos para la media estimada (con +/- un error estándar) y la desviación estándar estimada (con +/- un error estándar bootstrappeado).
set.seed(1)
nn <- 30
xx <- rnorm(nn)
mean_pm_one_se <- mean(xx)+sd(xx)*c(-1,1)/sqrt(nn)
library(boot)
sd_pm_one_se <- sd(xx)+sd(boot(xx,function(xx,index)sd(xx[index]),R=1000)$t[,1])*c(-1,1)
opar <- par(mfrow=c(1,3))
boxplot(xx,ylim=range(xx),main="Gráfica de puntos\nde las observaciones\ncon gráfica de caja")
points(0.8+0.4*runif(nn),xx,pch=19)
#
plot(mean(xx),pch=19,ylim=range(xx),ylab="",xlab="",xaxt="n",
main="Gráfica de puntos\nde la media\ncon EE")
lines(c(1,1),mean_pm_one_se)
#
plot(sd(xx),pch=19,ylim=c(0,2),ylab="",xlab="",xaxt="n",
main="Gráfica de puntos\nde la DE\ncon EE bootstrapeado")
lines(c(1,1),sd_pm_one_se)
par(opar)
3 votos
Por favor, no vuelvas a publicar una pregunta cerrada, incluso si la editaste y el proceso de reapertura lleva más tiempo del que deseas ("más complicado de lo que vale la pena", como escribes). Si tu publicación editada no se reabre rápidamente y en realidad recibe votos en contra de la reapertura, esto indica que tus ediciones pueden no haber sido lo suficientemente claras.
0 votos
¡Lo siento por eso! Espero entender mejor ahora cómo funciona todo...
0 votos
No entiendo la pregunta en el último párrafo.
0 votos
¿No sería una comparación más significativa con un diagrama de caja con muescas?
0 votos
No conocía esto, pero en la medida en que contengan un CI de la mediana, entonces supongo que no solo muestra el resumen de 5 números como un boxplot regular, sino que también contiene la misma información que el gráfico de puntos con barras de error te da, ¡haciendo así que este último sea innecesario!