5 votos

Hay una manera mejor de lado-por-lado barplots para comparar binned datos de diferentes series

Tengo un número de histograma a partir de un origen de datos. Quiero comparar su distribución. Por ejemplo la serie 2 está más a la derecha que de la serie 1.

enter image description here

Hay una buena manera de contraste, además de que el trazado de la histograma de lado a lado. No puedo pensar en qqplot o diagrama de caja. Pero los datos ya desechado. Tendría sentido si me permito el percentil linealmente?

EDIT1:

Estoy explorando el gráfico en Excel. No hay una gran cantidad de flexibilidad para la creatividad. He hackeado Excel para hacer en demográficos gráfico de estilo. Lo bueno es que es un familiar de visualización para muchas personas.

enter image description here

EDIT2:

Yo interpolar los datos para obtener el 25 y el 75 percentil para hacer de este intercuartil, no muy boxplot gráfico. Se pierde una gran cantidad de detalles. Pero puede ser útil para comparar un montón de series.

enter image description here

EDIT3:

Lo siento por no publicar los datos en bruto inicialmente. El material es desorganizado, mientras que estoy experimentando.

16-19,0.0028826,0.031066407
20-24,0.05581761,0.094111701
25-34,0.278301887,0.215492493
35-44,0.289046122,0.214615109
45-54,0.228773585,0.230744934
55-64,0.120807128,0.163116187
65+,0.024633124,0.050853168

9voto

erik Puntos 3923

El problema con las barras es que no superposición de bien. Los puntos son una de las alternativas y líneas de otro. Si usted tiene los datos completos que hay otros (diagramas de caja, violín parcelas, ...). Nick Cox de la respuesta de la muestra de puntos, y es que vale la pena resaltar las líneas en este caso, puesto que una es tan similar a la frecuencia polígono uso.

enter image description here

No sé por qué se llama un "polígono" - es sólo la que se conectarán las cimas de las barras de histograma, que permite superponer sin mucho oscureciendo.

6voto

Nick Cox Puntos 22819

Estoy de acuerdo con el principio de que el uso de más de detalle, como en la contemplación de la totalidad de las distribuciones o conjuntos de cuantiles, sería mucho mejor si los datos estaban disponibles. Por el contrario, la conversión de lo que usted tiene que cuartiles sólo descarta, sin embargo, más información y no es una buena idea.

Tienes razón en que lado-por-lado o de espalda-a-espalda, los gráficos de barras son muy populares. En el caso de la edad distribución por sexo de este último a menudo se llama una pirámide de población, pero es una forma muy ineficiente de diseño para mostrar las diferencias (o ratios para el caso) de la distribución, ya que obliga a los lectores a hacer comparaciones entre las barras apuntan en diferentes direcciones. Sorprendentemente pocos textos que hacer este simple punto acerca de las limitaciones de las pirámides. La impresión es que el uso de este tipo de gráfica es una costumbre o ritual transmitido entre generaciones.

Para este tipo de sexo y edad de los datos, el contexto es que en lugar de pequeñas diferencias o relaciones son a menudo de interés e importancia, como si dicen que el número de personas en el más antiguo de la categoría es de 2% o 3%, por lo que usted quiere ser capaz de ver fácilmente. Para cualquier tipo de datos, de hecho, una característica útil.

Una alternativa es, por tanto, sólo una (Cleveland) punto de gráfico. Para este ejemplo me acaba de adivinar más o menos a sus datos desde su propia muestra.

enter image description here

Pequeños puntos de importancia:

  1. Símbolos como la o y + tolerar la superposición.

  2. Un punto del gráfico es compatible con, por ejemplo, la escala logarítmica cuando que en cierta forma tiene sentido que un gráfico de barras no lo es.

  3. Una variante de este diseño conecta los puntos de datos con el consentimiento explícito horizontal de los segmentos de línea o incluso flechas.

  4. Tenemos aquí sólo dos de la serie, pero el punto del gráfico se podía ver más. Naturalmente, el gráfico sería más lleno de gente y ser más difíciles de interpretar, pero que es verdad de cualquier alternativa de diseño.

  5. Se aceptan los valores predeterminados de Excel de la "Serie 1" y "Serie 2" y he copiado. No es tu pregunta, pero aún así es inmensamente mejor práctica para llegar y usar el texto informativo.

Para otro ejemplo, ver Cómo visualizar las diferencias existentes en muchos proporciones a través de tres grupos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X