25 votos

Cómo presentar diagrama de caja con un caso extremo atípico?

Yo podría utilizar un poco de orientación sobre la presentación de algunos datos.

Este primer argumento es un caso de control de comparación para la citoquina IL-10. He establecer manualmente el eje y para incluir el 99% de los datos.

IL-10 With Manual Y axis

La razón por la que establece este manual es porque el grupo de casos tiene un extremo de las demás. With outlier

Mis colaboradores se atreven a realizar una eliminación de valores atípicos para nuestro conjunto de datos. Estoy de acuerdo, pero que preferiría no hacer. Eso sería la solución obvia. Pero si voy a mantener todos los datos y no eliminar este valor atípico, ¿cómo puedo presentar este boxplot de manera óptima? Split eje? Es aceptable utilizar sólo el primer gráfico y nota que fue construido para incluir todos los datos? (Esta opción se siente deshonesto para mí). Cualquier consejo sería genial.

30voto

Nick Cox Puntos 22819

Yo diría que con datos como estos, usted realmente necesita para mostrar los resultados en una escala transformada. Que es el primer imperativo y una cuestión más importante que precisamente cómo dibujar un diagrama de caja.

Pero me hago eco de Frank Harrell en la que instaba algo más informativo que un mínimo diagrama de caja, incluso con algunos puntos extremos identificados. Dispone de espacio suficiente para mostrar mucha más información. Aquí está uno de los muchos ejemplos, una caja híbrida y los cuantiles de la parcela. Como en sus datos, hay dos grupos que se comparan.

enter image description here

Voy a tomar estos dos puntos uno por uno y decir más.

Escala transformada

En el caso más simple, todos los valores pueden ser positivos y, a continuación, usted debe primero tratar de usar una escala logarítmica.

Si usted tiene exacto de ceros, una raíz cuadrada o una raíz cúbica escala todavía va a mejorar la extrema asimetría. Algunas personas son felices con registro(valor + constante), donde la constante es el más comúnmente 1, como una manera de lidiar con ceros.

Las implicaciones para los diagramas de caja de la utilización de una escala transformada son sutiles.

Si usted usa el común de Tukey convención de mostrar de forma individual todos los puntos de más allá del cuartil superior + 1.5 IQR o cuartil inferior - 1.5 IQR, entonces podría decirse que los límites deben ser calculados en la escala transformada. Que no es el mismo que el cálculo de los límites de la escala original, entonces la transformación.

En lugar de eso me gustaría apoyar lo que parece ser todavía una minoría convención de la selección de cuantiles para los extremos de los bigotes. Una de las varias ventajas de esto es que la transformación de los cuantiles = cuantil de transformar, al menos lo suficientemente cerca para gráfica de los efectos en la mayoría de los casos. (La letra pequeña es siempre cuantiles se calculan por interpolación lineal entre adyacente de estadísticas de orden.)

Este cuantil convención sugirió bastante prominente de la Cleveland (1985). Para el registro, mejorada diagramas de caja de las cajas a los cuartiles, diluyente de cajas para exterior octiles (12,5 y el 87,5% de los puntos) y tira de las parcelas de los datos fueron utilizados en la geografía y la climatología por (por ejemplo) Matthews (1936) y Grove (1956), bajo el nombre de "diagramas de dispersión".

Más de diagramas de caja

Diagramas de caja se re-inventado por Tukey alrededor de 1970 y más visiblemente promovidos, dentro de su libro, de 1977. Gran parte de su propósito era promover gráficos que podría ser rápidamente dibujado con lápiz(cil) y de papel en el sector informal de la exploración. Él también sugiere formas de identificar los posibles valores atípicos. Que estaba bien, pero ahora todos tenemos acceso a las computadoras es sin dolor para dibujar los gráficos que muestran, si no todos los datos, a continuación, al menos mucho más detalle. El resumen de la función de los diagramas de caja es valioso, pero el gráfico puede mostrar la estructura fina demasiado, sólo en caso de que sea interesante o importante. (Y lo que los investigadores piensan que es poco interesante o sin importancia, que podría ser más llamativo para sus lectores.)

Hay un montón de espacio para cortés, el desacuerdo sobre exactamente lo que funciona mejor, pero desnuda diagramas de caja han sido bastante exagerado, en mi opinión.

Stata los usuarios pueden encontrar más información sobre el programa que dibujó la figura en este Statalist post. Los usuarios de otros programas de software debe encontrar ninguna dificultad en la elaboración de algo tan bueno o mejor (otra cosa ¿por qué utilizar ese software?).

Cleveland, W. S. 1985. Elementos de representación gráfica de datos. Monterey, CA: Wadsworth.

Arboleda, A. T. 1956. La erosión del suelo en Nigeria. En Acero, R. W. y Fisher, C. A. (Eds) Geográfica ensayos sobre Británica tropical de tierras. Londres: George Philip, 79-111.

Matthews, H. A. 1936. Una nueva visión de algunos familiares de la India lluvias. Scottish Geographical Magazine 52: 84-97.

Tukey, J. W. 1977. Análisis exploratorio de datos. Reading, MA: Addison-Wesley.

20voto

AdamSane Puntos 1825

No quita nada a Nick excelente respuesta, que creo que es bien vale la pena una garrapata y un upvote - pero yo quería explorar algunas posibilidades.

Con tales fuertemente sesgado de datos a través de varios órdenes de magnitud, de trazado en un registro de escala, a menudo es bastante revelador; tenga en cuenta que usted todavía puede tener las marcas y etiquetas de marcas de graduación en los valores originales. (Estoy de acuerdo con Nick puntos relativos a las transformaciones, por lo que no voy a ampliar más sobre eso.)

Otra opción además de la transformación es hacer algo así como su segunda trama, pero incluir una indicación de todos los valores no se trazan:

$\ $ enter image description here

De esa manera usted no es la eliminación de valores atípicos, que lo muestra de una manera diferente.

Sin embargo, me gustaría unirse a Frank y a Nick en lo que sugiere el uso de un carácter más divulgativo mostrar que una simple boxplot - la combinación de un boxplot con los cuantiles de la parcela en el Nick del post me parece un muy buen concepto, a pesar de que uno podría trazar el cuantil de la parcela ligeramente por encima (o por debajo, como en este caso) la casilla correspondiente en lugar de a su lado:

$\ $ enter image description here

Si usted no está haciendo algo como esto (sólo se va con un simple boxplot, digamos), Te sugiero sustancialmente más estrecho cajas.

5voto

dan90266 Puntos 609

Yo prefiero extendido diagrama de caja de violín o parcelas, ya que contienen una gran cantidad de información. Yo escala ampliada diagramas de caja para el 0,01 y el 0,99% de cuantiles de las muestras combinadas. Ver http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf para obtener más detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X