Esto ha sido bien contestado. Estos comentarios adicionales son un poco demasiado largos (ACTUALIZACIÓN: ahora mucho más largos) para ir como comentarios.
Estrictamente, todo lo que se puede leer de un boxplot sobre la variabilidad de una distribución es su rango intercuartil (la longitud o altura de la caja) y el rango (la longitud o altura entre los extremos de la pantalla).
Como aproximación, es probable que los gráficos de caja que parecen idénticos tengan varianzas muy similares, pero cuidado. Los gráficos de caja con posiciones de caja o colas muy diferentes (o ambas) tienen muy pocas probabilidades de tener varianzas similares, pero no es imposible. Pero incluso si los gráficos de caja tienen un aspecto idéntico, no se obtiene ninguna información en un gráfico de caja simple o de vainilla sobre la variabilidad dentro de la caja o, de hecho, la variabilidad dentro de los bigotes (las líneas que a menudo se muestran entre la caja y los puntos de datos dentro de 1,5 IQR del cuartil más cercano). N.B. Existen varias variantes de gráficos de caja; los autores no suelen documentar las reglas precisas utilizadas por su software.
La popularidad de la trama de cajas tiene su precio. Los gráficos de caja pueden ser muy útiles para mostrar las características brutas de muchos grupos o variables (digamos 20 o 30, a veces incluso más). En mi opinión, su uso habitual para comparar, por ejemplo, dos o tres grupos es excesivo, ya que otros gráficos pueden mostrar muchos más detalles de forma inteligible en el mismo espacio. Naturalmente, esto es ampliamente apreciado, si no universalmente, y varias mejoras del gráfico de caja muestran más detalles.
Un trabajo serio con las desviaciones requiere el acceso a los datos originales.
Esto es a grandes rasgos, y se podrían añadir más detalles. Por ejemplo, la posición de la mediana dentro de la caja a veces da un poco más de información.
ACTUALIZACIÓN
Supongo que mucha más gente está interesada en los usos (y limitaciones) de los gráficos de caja en general que en la cuestión específica de inferir la varianza a partir de un gráfico de caja (a la que la respuesta corta es "No se puede, excepto indirectamente, aproximadamente, y a veces"), así que añadiré más comentarios sobre las alternativas, tal y como me ha sugerido @Christian Sauer.
-
Los histogramas utilizados con sensatez suelen seguir siendo competitivos. El texto introductorio clásico moderno de Freedman, Pisani y Purves los utiliza en todo momento.
-
Lo que se conoce como gráficos de puntos o de franjas (y con muchos otros nombres) es fácil de entender. Los puntos idénticos pueden apilarse, después de un binning si se desea. Se puede añadir la mediana y los cuartiles, o la media y los intervalos de confianza, a gusto del usuario.
-
Los gráficos cuantílicos son, al parecer, un gusto adquirido, pero en varios sentidos son los más versátiles de todos. Incluyo aquí gráficos de valores ordenados de nuevo la probabilidad acumulada (posición de trazado), así como los gráficos de cuantiles que serían rectos si los datos fueran cualquier distribución "de marca" que se considere (normal, exponencial, gamma, lo que sea). (Agradecimientos a @Scortchi por la referencia a la "marca" tal y como la utiliza C.J. Geyer).
Pero no es posible hacer una lista exhaustiva. (Añadiré, por ejemplo, que muy ocasionalmente, una representación de tallo y hoja es exactamente la adecuada para ver detalles importantes en los datos, como cuando la preferencia de dígitos es rampante). El principio clave es que los mejores tipos de gráficos de distribución permiten lo aparentemente imposible, la percepción de estructura fina en los datos que podrían ser interesantes o importantes (modalidad, granularidad, valores atípicos, etc.), así como estructura gruesa (nivel, dispersión, asimetría, etc.).
Los gráficos de caja no son igual de buenos para mostrar todos los tipos de estructura. No pueden serlo, y no se pretendía que lo fueran. Vale la pena señalar que J.W. Tukey en Análisis exploratorio de datos Reading, MA: Addison-Wesley (1977) dio un ejemplo de datos bimodales de Rayleigh que un gráfico de caja oscurece completamente la estructura principal. Como gran estadístico, era muy consciente de que los gráficos de caja no siempre eran la respuesta.
Una práctica extraña, muy extendida en los textos introductorios, es discutir el ANOVA mientras se invita a los lectores a mirar los gráficos de caja, que muestran las medianas y los cuartiles, no las medias y las varianzas (más bien las DE). Naturalmente, mirar los datos es mucho mejor que no mirarlos, pero incluso así, una representación gráfica más apropiada es posiblemente algún gráfico de los datos brutos con las medias ajustadas +/- algún múltiplo apropiado de SE.
1 votos
Recientemente me topé con este artículo sobre un tema similar. Espero que te sirva de ayuda.