19 votos

¿Cuál es la mejor manera de visualizar las diferencias en muchas proporciones entre tres grupos?

Intento comparar visualmente cómo tres publicaciones de noticias diferentes cubren temas distintos (determinados mediante un modelo temático LDA). Tengo dos métodos relacionados para hacerlo, pero he recibido muchos comentarios de colegas que esto no es muy intuitivo. Espero que alguien tenga una idea mejor para visualizar esto.

En el primer gráfico, muestro así las proporciones de cada tema en cada publicación:

Proportions for all topics and publications

Esto es bastante sencillo e intuitivo para casi todas las personas con las que he hablado. Sin embargo, es difícil ver las diferencias entre las publicaciones. ¿Qué periódico cubre más qué tema?

Para llegar a esto, he graficado la diferencia entre la publicación con la mayor y la segunda mayor proporción de temas, coloreada por la publicación con la mayor. Así:

Difference between first and second highest topics

Así, la enorme barra para el fútbol, por ejemplo, es en realidad la distancia entre al-Ahram English y Daily News Egypt (nº 2 en cobertura futbolística), y está coloreada en rojo porque al-Ahram es nº 1. Del mismo modo, los juicios son verdes porque Egypt Independent tiene la mayor proporción, y el tamaño de la barra es la distancia entre Egypt Independent y Daily News Egypt (#2 de nuevo).

El hecho de que tenga que explicar todo eso en dos párrafos es una señal bastante segura de que el gráfico no supera la prueba de autosuficiencia. Es difícil saber qué está pasando realmente con sólo mirarlo.

¿Alguna sugerencia general sobre cómo destacar visualmente la publicación dominante para cada tema de una manera más intuitiva?

Edición: Datos para jugar: Aquí está dput salida de R así como un Archivo CSV .

Edita 2: He aquí una versión preliminar del gráfico de puntos, con los diámetros de los puntos proporcionales a la proporción del tema en el corpus (que es como se clasificaron originalmente los temas). Aunque todavía tengo que ajustarlo un poco más, parece mucho más intuitivo que lo que estaba haciendo antes. Gracias a todos.

Dot plot

20voto

Nick Cox Puntos 22819

Gracias por hacer accesibles los datos y por un conjunto de datos y un reto gráfico tan interesantes.

Mi principal sugerencia es un gráfico de puntos (Cleveland).

enter image description here

Me gustaría destacar los detalles más importantes:

  1. La superposición permite y facilita la comparación.

  2. El orden de los temas en sus presentaciones parece bastante arbitrario. A falta de un orden natural (por ejemplo, tiempo, espacio, una variable ordenada), yo siempre ordenaría una de las variables para proporcionar un marco. La elección de una de ellas podría depender de si es especialmente interesante o importante, decisión del investigador. Otra posibilidad es ordenar en función de alguna medida de las diferencias entre los artículos, de modo que los temas que recibieran una cobertura similar estuvieran en un extremo y los que recibieran una cobertura diferente, en el otro.

  3. Los marcadores abiertos o los símbolos puntuales permiten resolver mejor el solapamiento o la identidad que los marcadores o símbolos cerrados o sólidos, que en el peor de los casos se oscurecen u ocluyen entre sí. (Una alternativa que podría funcionar bastante bien en este caso son letras como A, D e I para los tres periódicos).

Está claro que hay mucho margen para mejorar mi diseño. Por ejemplo, ¿la letra es demasiado grande y/o pesada? Por otra parte, los títulos deben ser fácilmente legibles, de lo contrario el gráfico es un fracaso.

Algunos puntos más pequeños y delicados:

a. El rojo y el verde en su gráfico es una combinación de colores que debe evitarse. Cuando se utilizan marcadores diferentes, la elección del color es un poco menos crucial.

b. Las marcas horizontales del gráfico distraen la atención. En cambio, en el mío, las líneas de la cuadrícula son necesarias, pero intento que no molesten utilizando líneas finas y claras.

c. Su gráfico muestra porcentajes y el total es aproximadamente 20 $\times$ 0,1% o 2%, ¿entonces el 98% de los papeles es otra cosa? Utilicé las proporciones directamente en el .csv proporcionado.

Los gráficos de puntos de Cleveland se deben sobre todo a

Cleveland, W.S. 1984. Graphical methods for data presentation: full scale breaks, dot charts, and multibased logging. Estadístico estadounidense 38: 270-80.

Cleveland, W.S. 1985. Elementos de la representación gráfica de datos. Monterey, CA: Wadsworth.

Cleveland, W.S. 1994. Elementos de la representación gráfica de datos. Summit, NJ: Hobart Press.

Un precursor (¡¡¡más famoso estadísticamente por un trabajo bastante diferente!!!) fue

Pearson, E.S. 1956. Some aspects of the geometry of statistics: the use of visual presentation in understanding the theory and application of mathematical statistics. Revista de la Real Sociedad Estadística A 119: 125-146.

Otro uso anterior de la misma idea principal se encuentra en

Snedecor, G.W. 1937. Métodos estadísticos aplicados a experimentos en agricultura y biología. Ames, IA: Collegiate Press. Véanse las figuras 2.1, 2.3 (pp.24, 39).

y en cada edición sucesiva hasta 1956. Obsérvese que el título y el editor cambian intermitentemente entre ediciones.

Para los interesados, el gráfico se preparó en Stata tras leer en el .csv con código

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color)

14voto

erik Puntos 3923

El gráfico de puntos de Nick Cox es probablemente el mejor para obtener una imagen completa. Si realmente quieres enfatizar la relación entre la primera y la segunda, aquí tienes una modificación de tu gráfico que compensa la barra de diferencia con la longitud de la segunda barra.

enter image description here

Y para obtener una visión general diferente, puedes probar con un gráfico de pendientes o de coordenadas paralelas. Puede que las líneas estén demasiado llenas aquí, pero puede funcionar si quieres destacar un subconjunto de temas.

enter image description here

También puede probar ayudameviz.com que está orientado a cuestiones muy específicas de visualización de datos como ésta.

3voto

AmeliaBR Puntos 348

Mi primer instinto fue sugerir un Mosaico El gráfico muestra cada subcategoría como un rectángulo, en el que una dimensión representa el recuento total de la categoría principal y la otra la parte proporcional de la subcategoría. Hay un paquete R para dibujarlos pero también es bastante sencillo hacerlo con herramientas gráficas de nivel inferior.

Sin embargo, los gráficos de mosaico (como los gráficos de barras apiladas basados en porcentajes) funcionan mejor si sólo hay 2 ó 3 categorías en la dimensión en la que desea comparar proporciones. Por tanto, funcionarían bien si quisiera comparar diferencias entre temas en la proporción de artículos que aparecían en cada uno de los tres periódicos pero no tanto para su uso previsto, comparando diferencias entre tres periódicos en la proporción de cobertura de cada tema . Una distinción sutil pero importante.

Para lo que se quiere destacar, creo que el gráfico más eficaz es uno de los más sencillos: un gráfico de barras agrupadas. Más gente entiende los gráficos de barras que los de puntos; de un vistazo, puedes ver que estás comparando cantidades de distinto tamaño, y los valores que quieres comparar están uno al lado del otro.

Sin embargo, si realmente quería hacer hincapié en las diferencias de proporción, podría crear un gráfico de barras agrupadas personalizado, modificado para colocar cada grupo de modo que el valor mediano por categoría se alinee con el eje, en lugar de los valores cero:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Obsérvese que las barras de cada grupo siguen alineadas para facilitar la comparación de tamaños, y que la línea de base de cada grupo se sitúa ahora en la posición izquierda del eje según el valor mediano de ese grupo, mientras que las barras que se proyectan hacia el derecha del eje equivalen a su segundo gráfico de barras que muestra la diferencia entre las dos categorías superiores.

Independientemente de si utiliza un gráfico de barras agrupadas estándar o un gráfico ajustado al desplazamiento como el anterior, podría tomar una idea de los gráficos de mosaico y hacer que el ancho de cada barra sea proporcional al recuento total de artículos de ese periódico (de modo que el tamaño de la barra sea proporcional al número de artículos de ese periódico en esa categoría).

Dado que su estadística de prueba es una propiedad de cada comparación no de valores individuales, no creo que sea útil escalar cada punto de datos en función de la importancia. En su lugar, yo pondría un icono junto a cada agrupación que representara la importancia. Para la publicación académica, la norma * / ** / *** tiene el beneficio de la familiaridad, pero podrías ser creativo si quisieras mostrar todo el continuo de la estadística.

1voto

user36539 Puntos 187

¿Has probado con un gráfico de burbujas? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Los temas individuales podrían ser círculos y cada círculo podría ser un gráfico circular del porcentaje en que cada medio de noticias cubre el tema. El tamaño del círculo podría indicar la cobertura relativa del tema. Por ejemplo, si se escriben más artículos sobre petróleo que sobre cultura, el círculo del petróleo tendría un diámetro mayor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X