4 votos

Diferencia cualitativa entre boxplots y barras de error (¿estadística descriptiva frente a inferencial?)

Supongamos que tengo las puntuaciones de las pruebas de varios grupos, con todas las muestras de igual tamaño. Supongamos que quiero trazar estos datos para destacar de la manera más sencilla (sin mostrar las distribuciones) la diferencia en las puntuaciones de las pruebas en términos de media y variabilidad entre los grupos.

Supongamos que soy una persona con conocimientos superficiales de estadística, y que conozco (1) los gráficos de barras con barras de error y (2) los gráficos de caja; pero debido a lo similares que parecen ser sobre el papel (visualización simplista a continuación), estoy indeciso sobre cuál utilizar.

enter image description here enter image description here

Mi pregunta es: ¿Cuál es la diferencia cualitativa entre estos dos tipos de gráficos? Al fin y al cabo, cada uno de ellos muestra una medida de tendencia central (diagrama de barras con barras de error: media , boxplot: mediana ) y una medida de dispersión ( SEM y IQR respectivamente).

Supongo que la respuesta está en la estadística inferencial frente a la descriptiva, de la que el diagrama de barras con barras de error y el diagrama de caja son los respectivos exponentes; pero agradecería que se explicara cómo estos dos tipos de gráficos aparentemente similares son, de hecho, cualitativamente muy diferentes, y cómo la elección entre ellos no es puramente una cuestión de cuál le gusta más el aspecto (o los pocos bits adicionales de información que le da el diagrama de caja).

Dicho de otra manera, ¿sería un error tomar la medida de incertidumbre de la estimación proporcionada por la barra de error (±1 SEM) como medida de difundir ¿como si se tratara de un IQR a escala? Por supuesto, tanto el SEM como el IQR se preocupan por las varianzas de las distribuciones, pero el IQR no se preocupa por el tamaño de la muestra, mientras que el SEM sí (ya que está normalizado por su raíz cuadrada).

4voto

icelava Puntos 548

El boxplot así como sus variantes (véase "40 años de boxplots" de Wickham & Stryjewski ) visualiza muestras o posiblemente una población entera. Por lo general, se trata de observaciones reales. Tenga en cuenta que verá al menos cinco números visualizados por boxplot.

El gráfico de puntos se suele utilizar para visualizar un estimación de parámetros . La barra puede utilizarse para indicar la incertidumbre en la estimación, por ejemplo, un error estándar. Tenga en cuenta que es muy posible mostrar sólo el punto, es decir, un único número por gráfico de puntos (aunque, por supuesto, se debe indicar la incertidumbre).

En su ejemplo, los dos están visualizando cosas similares, es decir, la tendencia central de las observaciones por grupo. La diferencia es sutil: el boxplot ofrece el resumen habitual de cinco números de la observaciones entre las que se encuentra la mediana de la muestra, que resulta ser una estimador para la mediana de la población.

Sin embargo, se puede utilizar igualmente un gráfico de puntos para visualizar cualquier otra estimación con el punto. El punto podría representar una estimación de la desviación estándar de las observaciones dentro de cada grupo, y la barra podría representar el error estándar de la desviación estándar . O el punto podría visualizar un coeficiente de regresión para cada grupo, de nuevo con la barra representando su error estándar.

Si piensa un poco en ejemplos como estos, se dará cuenta de que mientras un gráfico de puntos es sencillo para estas estimaciones de parámetros, no hay un boxplot "correspondiente".

Por supuesto, es muy posible, digamos, hacer un bootstrap de la estimación de un parámetro y luego visualizar las estimaciones del bootstrap utilizando un boxplot. ¿Es esto una contraposición a mi argumento "gráficos de puntos para las estimaciones de los parámetros, gráficos de caja para las muestras"? No. Lo que se visualiza en este caso es de nuevo una muestra, es decir, una muestra de estimaciones bootstrap. Es una muestra de estimaciones.

Por lo tanto, la decisión de utilizar un diagrama de caja o un gráfico de puntos se reduce a si se desea visualizar una muestra o una estimación de parámetros con su incertidumbre asociada.

Por último, parece que hay cierta confusión en su terminología. Lo que usted está discutiendo es, como arriba, un gráfico de puntos con barras. Cuando se refiere a un barplot o gráfico de barras En este caso, se trata de un gráfico que vuelve a visualizar las estimaciones de los parámetros como el gráfico de puntos, pero en lugar de los puntos, se utilizan barras, y entonces puede haber además ser barras de error alrededor de los extremos de la barra, dando lugar a la la justamente denostada "trama de la dinamita" .

Por último, el gráfico de puntos también suele denominarse "gráfico de puntos". Mi costumbre personal es referirme a un gráfico de muestras brutas, con una muestra por punto, como un "gráfico de puntos", mientras que llamaré "gráfico de puntos" a un gráfico con un solo punto que visualiza una estimación de parámetros. Sin embargo, no he conseguido lavar el cerebro a toda la profesión estadística para que adopte la nomenclatura que he elegido.

He aquí un ejemplo. Simularé 30 puntos de datos, los visualizaré y superpondré un boxplot. Además, doy gráficos de puntos para la media estimada (con +/- un error estándar) y la desviación estándar estimada (con +/- un error estándar bootstrap).

dot chart vs. boxplot

set.seed(1)
nn <- 30
xx <- rnorm(nn)
mean_pm_one_se <- mean(xx)+sd(xx)*c(-1,1)/sqrt(nn)

library(boot)
sd_pm_one_se <- sd(xx)+sd(boot(xx,function(xx,index)sd(xx[index]),R=1000)$t[,1])*c(-1,1)

opar <- par(mfrow=c(1,3))
    boxplot(xx,ylim=range(xx),main="Dot plot\nof observations\nwith boxplot")
    points(0.8+0.4*runif(nn),xx,pch=19)
    #
    plot(mean(xx),pch=19,ylim=range(xx),ylab="",xlab="",xaxt="n",
        main="Dot chart\nof mean\nwith SE")
    lines(c(1,1),mean_pm_one_se)
    #
    plot(sd(xx),pch=19,ylim=c(0,2),ylab="",xlab="",xaxt="n",
        main="Dot chart\nof SD\nwith bootstrapped SE")
    lines(c(1,1),sd_pm_one_se)
par(opar)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X