Intento comparar visualmente cómo tres publicaciones de noticias diferentes cubren temas distintos (determinados mediante un modelo temático LDA). Tengo dos métodos relacionados para hacerlo, pero he recibido muchos comentarios de colegas que esto no es muy intuitivo. Espero que alguien tenga una idea mejor para visualizar esto.
En el primer gráfico, muestro así las proporciones de cada tema en cada publicación:
Esto es bastante sencillo e intuitivo para casi todas las personas con las que he hablado. Sin embargo, es difícil ver las diferencias entre las publicaciones. ¿Qué periódico cubre más qué tema?
Para llegar a esto, he graficado la diferencia entre la publicación con la mayor y la segunda mayor proporción de temas, coloreada por la publicación con la mayor. Así:
Así, la enorme barra para el fútbol, por ejemplo, es en realidad la distancia entre al-Ahram English y Daily News Egypt (nº 2 en cobertura futbolística), y está coloreada en rojo porque al-Ahram es nº 1. Del mismo modo, los juicios son verdes porque Egypt Independent tiene la mayor proporción, y el tamaño de la barra es la distancia entre Egypt Independent y Daily News Egypt (#2 de nuevo).
El hecho de que tenga que explicar todo eso en dos párrafos es una señal bastante segura de que el gráfico no supera la prueba de autosuficiencia. Es difícil saber qué está pasando realmente con sólo mirarlo.
¿Alguna sugerencia general sobre cómo destacar visualmente la publicación dominante para cada tema de una manera más intuitiva?
Edición: Datos para jugar: Aquí está dput
salida de R así como un Archivo CSV .
Edita 2: He aquí una versión preliminar del gráfico de puntos, con los diámetros de los puntos proporcionales a la proporción del tema en el corpus (que es como se clasificaron originalmente los temas). Aunque todavía tengo que ajustarlo un poco más, parece mucho más intuitivo que lo que estaba haciendo antes. Gracias a todos.