Yo diría que con datos como estos, usted realmente necesita para mostrar los resultados en una escala transformada. Que es el primer imperativo y una cuestión más importante que precisamente cómo dibujar un diagrama de caja.
Pero me hago eco de Frank Harrell en la que instaba algo más informativo que un mínimo diagrama de caja, incluso con algunos puntos extremos identificados. Dispone de espacio suficiente para mostrar mucha más información. Aquí está uno de los muchos ejemplos, una caja híbrida y los cuantiles de la parcela. Como en sus datos, hay dos grupos que se comparan.
Voy a tomar estos dos puntos uno por uno y decir más.
Escala transformada
En el caso más simple, todos los valores pueden ser positivos y, a continuación, usted debe primero tratar de usar una escala logarítmica.
Si usted tiene exacto de ceros, una raíz cuadrada o una raíz cúbica escala todavía va a mejorar la extrema asimetría. Algunas personas son felices con registro(valor + constante), donde la constante es el más comúnmente 1, como una manera de lidiar con ceros.
Las implicaciones para los diagramas de caja de la utilización de una escala transformada son sutiles.
Si usted usa el común de Tukey convención de mostrar de forma individual todos los puntos de más allá del cuartil superior + 1.5 IQR o cuartil inferior - 1.5 IQR, entonces podría decirse que los límites deben ser calculados en la escala transformada. Que no es el mismo que el cálculo de los límites de la escala original, entonces la transformación.
En lugar de eso me gustaría apoyar lo que parece ser todavía una minoría convención de la selección de cuantiles para los extremos de los bigotes. Una de las varias ventajas de esto es que la transformación de los cuantiles = cuantil de transformar, al menos lo suficientemente cerca para gráfica de los efectos en la mayoría de los casos. (La letra pequeña es siempre cuantiles se calculan por interpolación lineal entre adyacente de estadísticas de orden.)
Este cuantil convención sugirió bastante prominente de la Cleveland (1985). Para el registro, mejorada diagramas de caja de las cajas a los cuartiles, diluyente de cajas para exterior octiles (12,5 y el 87,5% de los puntos) y tira de las parcelas de los datos fueron utilizados en la geografía y la climatología por (por ejemplo) Matthews (1936) y Grove (1956), bajo el nombre de "diagramas de dispersión".
Más de diagramas de caja
Diagramas de caja se re-inventado por Tukey alrededor de 1970 y más visiblemente promovidos, dentro de su libro, de 1977. Gran parte de su propósito era promover gráficos que podría ser rápidamente dibujado con lápiz(cil) y de papel en el sector informal de la exploración. Él también sugiere formas de identificar los posibles valores atípicos. Que estaba bien, pero ahora todos tenemos acceso a las computadoras es sin dolor para dibujar los gráficos que muestran, si no todos los datos, a continuación, al menos mucho más detalle. El resumen de la función de los diagramas de caja es valioso, pero el gráfico puede mostrar la estructura fina demasiado, sólo en caso de que sea interesante o importante. (Y lo que los investigadores piensan que es poco interesante o sin importancia, que podría ser más llamativo para sus lectores.)
Hay un montón de espacio para cortés, el desacuerdo sobre exactamente lo que funciona mejor, pero desnuda diagramas de caja han sido bastante exagerado, en mi opinión.
Stata los usuarios pueden encontrar más información sobre el programa que dibujó la figura en este Statalist post. Los usuarios de otros programas de software debe encontrar ninguna dificultad en la elaboración de algo tan bueno o mejor (otra cosa ¿por qué utilizar ese software?).
Cleveland, W. S. 1985. Elementos de representación gráfica de datos. Monterey, CA: Wadsworth.
Arboleda, A. T. 1956. La erosión del suelo en Nigeria. En Acero, R. W. y Fisher, C. A. (Eds)
Geográfica ensayos sobre Británica tropical de tierras. Londres: George Philip, 79-111.
Matthews, H. A. 1936. Una nueva visión de algunos familiares de la India lluvias. Scottish Geographical Magazine 52: 84-97.
Tukey, J. W. 1977. Análisis exploratorio de datos. Reading, MA: Addison-Wesley.