5 votos

La interpretación de extraño diagrama de caja con invertida bigotes

Aunque soy bastante nuevo en diagramas de caja, pensé que había llegado el bloqueo de ellos, hasta que me encontré con este de hoy. No sé qué hacer que la parte inferior "bigote" dibujado en el interior de la caja.

enter image description here

Esta población está compuesta por sólo cuatro valores: 16.5, 17.14, 13.5, 16.75

Se concede, el pequeño tamaño de esta población es, probablemente, no es ideal para este tipo de diagrama. Pero este es sólo uno entre varios que estoy tramando, y los otros a hacer un poco más de sentido.

Mi pregunta es doble:

  1. Esto es incluso una representación válida o es el software que estoy usando para dibujar se porta mal? (Estoy usando python y matplotlib)
  2. Si es válido, ¿cómo ir sobre la interpretación?

Editar:

Incluyendo una figura creada con un whis=3 parámetro (ver las respuestas abajo):

enter image description here

12voto

BBlake Puntos 310

Es imposible saber sin saber más acerca de lo que el software cree que es la forma correcta de dibujar un cuadro y gráfica de frecuencias acumuladas. Es aún más difícil sin una escala numérica de anclaje de los resultados. Independientemente, hay un número de diferentes directrices en este sentido (en general). Sin embargo, siempre podemos recurrir a la lectura de la documentación

  • casillas: el cuerpo principal de la boxplot muestra los cuartiles y la la mediana de los intervalos de confianza si están habilitados.
  • medianas: horizonal líneas en la mediana de cada cuadro.
  • bigotes: las líneas verticales que se extiende a la más extremas, n-datos atípicos puntos.
  • tapas: las líneas horizontales en la los extremos de los bigotes.
  • volantes: los puntos que representan los datos que se extienden beyone (sic) los bigotes (outliers).

Dado que los valores de 16.5, 17.14, 13.5, y 16,75, el valor de 13,5 está siendo tratado como un 'viajero'. Las cajas se extiende desde Q1 a Q3. La línea horizontal es la mediana (aka Q2). El cálculo exacto de estos valores tiene un número de diferentes enfoques, pero sólo voy a agarrar la mano de los valores de R (quantile valores predeterminados) del 15.75 por Q1, 16.625 para la Q2, y 16.8475 para la Q3. Aunque la documentación antes citada no está claro, parece que los bigotes y las tapas de extender a las más extremas, n-datos atípicos puntos excluyendo el 'volantes' (más sobre esto más adelante). Por lo tanto, podemos esperar que ellos se extienden desde 16.50 a 17.14. Es decir, se extiende a un valor más cercano a la mediana de Q1 (en la parte inferior) y un poco más allá de la Q3 (en la parte superior)... que es exactamente lo que vemos.

Sin embargo, dada la circular definición de bigotes y volantes... usted tiene que mirar más hacia arriba en la documentación para ver que los bigotes son una "función del interior cuartil rango. Se extienden a las más extremas punto de datos dentro de los ( whis*(75%-25%) ) rango de datos" donde "whis' tiene un valor predeterminado de 1.5. La combinación de estas fuentes de información, podemos ver que los bigotes de los puntos de la trama sería 1,5 veces el rango intercuartil, pero se detienen en el más extremo de punto de datos en el interior de ese rango. Los puntos de datos más allá de ese rango son apodado volantes y se representa como tal.

Así que, en respuesta a la segunda pregunta es "válida" ...no es mi forma preferida de ver boxplots dibujado, pero eso no la hace inválida. Como ya he mencionado que no hay un convenio en este sentido. Siempre y cuando usted sabe lo que el boxplot es el dibujo, y se basa en que la forma - entonces es al menos confiable. Válido será un juicio de valor que usted tiene que hacer por sí mismo.

Mis descripciones anteriores, además de la documentación que debe ayudar a interpretar su boxplot, pero sólo en caso de:

  • Línea Central: Mediana
  • Los bordes de los Cuadros: Q1 y Q3
  • Los límites de Bigotes: Los valores máximo y mínimo dentro de la inflado inter-cuartil rango (por ejemplo, whis*(75%-25%), donde whis defecto 1.5)
  • Poco más signos: 'volantes', los datos de los puntos más allá de los límites de los bigotes

8voto

AdamSane Puntos 1825

En R que me he hecho el boxplot y se trazan los puntos individuales de modo que usted puede ver lo que está haciendo:

> x<-c(16.5, 17.14, 13.5, 16.75)
> boxplot(x,boxwex=.2)
> points(x~rep(1,4),pch="x",col=2)

boxplot of data

Como se puede ver, no es como el que tu tienes.

En particular, después de estirar el mapa de bits aproximadamente coincide con el rango (suponiendo que el rango de los dos partidos!), la caja es más corto, así como el bigote de estar dentro de la caja.

boxplot comnparison

Usted necesita comprobar cómo se ha definido el boxplot (las definiciones varían, pero creo que no se está usando de Tukey definición de cómo las bisagras o los bigotes de trabajo).

He jugado de varias formas pero no puedo trabajar fuera de seguro de cómo ellos están recibiendo sus bisagras. Ellos parecen ser la mitad de la distancia a partir de la mediana de los que deberían ser.

(Aparte de una definición diferente, puede ser que su código simplemente asume que siempre hay más de cuatro puntos en algún lugar en ella, y que tal vez ha causado un problema.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X