4 votos

Diferencia cualitativa entre diagramas de caja y barras de error (estadísticas descriptivas vs inferenciales?)

Supongamos que tengo puntajes de prueba de varios grupos, con todas las muestras de igual tamaño. Supongamos que quiero representar estos datos de manera que se enfatice de la forma más simple (sin mostrar las distribuciones) la diferencia en los puntajes de prueba en términos de promedio y variabilidad entre los grupos.

Ahora supongamos que soy alguien con solo un entendimiento superficial de las estadísticas, y conozco (1) gráficos de barras con barras de error y (2) diagramas de caja; pero debido a lo similares que parecen ser en papel (visualización simplista a continuación), no estoy seguro de cuál usar.

introducir descripción de la imagen aquí introducir descripción de la imagen aquí

Mi pregunta es: ¿Cuál es la diferencia cualitativa entre estos dos tipos de gráficos? Después de todo, cada uno de ellos muestra una medida de tendencia central (gráfico de barras con barras de error: media, diagrama de caja: mediana) y una medida de dispersión (SEM y IQR, respectivamente).

Sospecho que la respuesta radica en las estadísticas inferenciales vs descriptivas, de las cuales el gráfico de barras con barras de error y el diagrama de caja son exponentes respectivos; pero agradecería una explicación sobre cómo estos dos tipos de gráficos aparentemente similares son de hecho cualitativamente bastante diferentes, y cómo la elección entre ellos no es simplemente una cuestión de cuál prefieres visualmente (o de los pocos bits de información adicionales que te proporciona el diagrama de caja).

Dicho de otra manera, ¿sería incorrecto tomar la medida de incertidumbre de la estimación proporcionada por la barra de error (±1 SEM) como una medida de dispersión, como si fuera simplemente un rango intercuartílico escalado? Por supuesto, tanto el SEM como el IQR se preocupan por las varianzas de las distribuciones, pero el IQR no se preocupa por el tamaño de la muestra, mientras que el SEM sí (ya que se normaliza por su raíz cuadrada).

3 votos

Por favor, no vuelvas a publicar una pregunta cerrada, incluso si la editaste y el proceso de reapertura lleva más tiempo del que deseas ("más complicado de lo que vale la pena", como escribes). Si tu publicación editada no se reabre rápidamente y en realidad recibe votos en contra de la reapertura, esto indica que tus ediciones pueden no haber sido lo suficientemente claras.

0 votos

¡Lo siento por eso! Espero entender mejor ahora cómo funciona todo...

0 votos

No entiendo la pregunta en el último párrafo.

4voto

icelava Puntos 548

La gráfica de caja, así como variantes (ver "40 años de gráficas de caja" por Wickham & Stryjewski) visualiza muestras, o posiblemente una población entera. Por lo general, estas serán observaciones reales. Ten en cuenta que verás al menos cinco números visualizados por gráfica de caja.

La gráfica de puntos se utiliza típicamente para visualizar una estimación de parámetro. La barra se puede utilizar para indicar la incertidumbre estimada en la estimación, por ejemplo, un error estándar. Ten en cuenta que es bastante posible mostrar solo el punto, es decir, un solo número por gráfica de puntos (aunque por supuesto generalmente deberías indicar la incertidumbre).

En tu ejemplo, ambos visualizan cosas similares, es decir, la tendencia central de las observaciones por grupo. La diferencia es sutil: la gráfica de caja ofrece el resumen usual de cinco números de las observaciones, entre las cuales está la mediana de la muestra, que resulta ser un estimador útil para la mediana de la población.

No obstante, se puede usar igualmente una gráfica de puntos para visualizar cualquier otra estimación con el punto. El punto podría representar una estimación de la desviación estándar de las observaciones dentro de cada grupo, y la barra podría entonces representar el error estándar de la desviación estándar. O el punto podría visualizar un coeficiente de regresión para cada grupo, nuevamente con la barra representando su error estándar.

Si piensas un poco en ejemplos como estos, te darás cuenta de que si bien una gráfica de puntos es directa para estas estimaciones de parámetros, no hay una gráfica de caja "correspondiente".

Por supuesto, es perfectamente posible, por ejemplo, bootstrappear una estimación de parámetro y luego visualizar las estimaciones bootstrapped usando una gráfica de caja. ¿Es esto un contraargumento a mi afirmación "gráficas de puntos para estimaciones de parámetros, gráficas de caja para muestras"? No. Lo que se visualiza en este caso es nuevamente una muestra, es decir, una muestra de estimaciones bootstrapped. Es una muestra de estimaciones.

Por lo tanto, si debes usar una gráfica de caja o una gráfica de puntos depende de si deseas visualizar una muestra o una estimación de parámetro con su incertidumbre asociada.

Finalmente, parece haber cierta confusión en tu terminología. Lo que estás discutiendo es, como se mencionó anteriormente, una gráfica de puntos con barras. Cuando te refieres a un gráfico de barras, entonces te refieres a un gráfico que nuevamente visualiza estimaciones de parámetros como la gráfica de puntos, pero en lugar de los puntos, utilizas barras; y entonces puede además haber barras de error alrededor de los extremos de las barras, creando el denostado "gráfico del dinamite".

Finalmente, la gráfica de puntos a menudo también se llama "gráfico de puntos". Mi costumbre personal es referirme a un gráfico de muestras en bruto, con una muestra por punto, como un "gráfico de puntos", mientras que llamaré a un gráfico con un solo punto que visualiza una estimación de parámetro un "gráfico de puntos". No he tenido mucho éxito en lavarle el cerebro a toda la comunidad estadística para que adopte mi nomenclatura elegida, sin embargo.

Aquí tienes un ejemplo. Simularé 30 puntos de datos, los visualizaré y superpondré una gráfica de caja. Además, presentaré gráficas de puntos para la media estimada (con +/- un error estándar) y la desviación estándar estimada (con +/- un error estándar bootstrappeado).

gráfica de puntos vs. gráfica de caja

set.seed(1)
nn <- 30
xx <- rnorm(nn)
mean_pm_one_se <- mean(xx)+sd(xx)*c(-1,1)/sqrt(nn)

library(boot)
sd_pm_one_se <- sd(xx)+sd(boot(xx,function(xx,index)sd(xx[index]),R=1000)$t[,1])*c(-1,1)

opar <- par(mfrow=c(1,3))
    boxplot(xx,ylim=range(xx),main="Gráfica de puntos\nde las observaciones\ncon gráfica de caja")
    points(0.8+0.4*runif(nn),xx,pch=19)
    #
    plot(mean(xx),pch=19,ylim=range(xx),ylab="",xlab="",xaxt="n",
        main="Gráfica de puntos\nde la media\ncon EE")
    lines(c(1,1),mean_pm_one_se)
    #
    plot(sd(xx),pch=19,ylim=c(0,2),ylab="",xlab="",xaxt="n",
        main="Gráfica de puntos\nde la DE\ncon EE bootstrapeado")
    lines(c(1,1),sd_pm_one_se)
par(opar)

0 votos

Excelente respuesta Stephan, el tipo de respuesta que esperaba obtener para esta pregunta, y que abordó completamente mis dudas. Muchas gracias, y también gracias por soportar mis dificultades al usar el sitio de CV correctamente (republicaciones/ediciones, etc).

0 votos

Añadiría que varios autores todavía utilizan un gráfico descriptivo/distributivo como un gráfico de puntos, pero luego resaltan las diferencias significativas entre las medias de las distribuciones, para lo cual el gráfico de puntos con SEMs probablemente hubiera sido más adecuado para mostrar.

0 votos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X