Estoy de acuerdo en que la mejor trama no existe independientemente del conjunto de datos, la audiencia y el propósito. Para dos variables medidas, los gráficos de dispersión son probablemente el diseño que deja a todos los demás atrás, excepto para propósitos específicos, pero no existe un líder del mercado evidente para datos categóricos.
Mi objetivo aquí es simplemente mencionar un método simple, a menudo redescubierto o reinventado, pero no obstante a menudo pasado por alto incluso en monografías o libros de texto que cubren gráficos estadísticos.
Por ejemplo, cubriendo los mismos datos publicados por xan:
Si se desea un nombre, como a menudo sucede, esto es un gráfico de barras bidireccional (en este caso). No catalogaré otros términos aquí, excepto que gráfico de barras múltiple es una alternativa común con un sabor similar. (Mi pequeña objeción al "gráfico de barras múltiple" es que "múltiple" no descarta los gráficos de barras apilados o lado a lado, que son muy comunes, mientras que "bidireccional" para mí implica más claramente un diseño de fila y columna, aunque a su vez puede tomar ejemplos para que eso quede claro.
Las ventajas y desventajas de este tipo de representación gráfica también son simples, pero mencionaré algunas. Como me encanta este diseño (que se remonta al menos a la década de 1930), otros pueden querer agregar críticas más afiladas.
+1. La idea es fácilmente entendible, incluso por grupos no técnicos. En este ejemplo, las alturas o longitudes de las barras codifican las frecuencias. En otros ejemplos, podrían codificar porcentajes calculados de cualquier manera que desee, residuos, etc.
+2. La estructura de fila y columna coincide con la de una tabla. También puede agregar valores numéricos. Las cantidades muy pequeñas e incluso ceros implícitos son claramente evidentes, lo cual no siempre es el caso con otros diseños (por ejemplo, gráficos de barras apilados, gráficos de mosaico). El etiquetado de filas y columnas suele ser más eficiente que agregar una clave o leyenda, con el "vaivén" mental que eso requiere. Así, este diseño hibrida ideas de gráficos y tablas, lo cual aparentemente molesta a algunos lectores; por el contrario, argumentaría que las fuertes distinciones entre Figuras y Tablas son solo vestigios históricos, obsoletos ahora que los investigadores pueden preparar sus propios documentos y no tienen que depender de diseñadores, compositores e impresoras.
+3. Las extensiones a diseños tridimensionales y superiores son fáciles en principio. Ponga dos o más variables como variables compuestas en uno o ambos ejes, o presente una serie de dichos gráficos. Naturalmente, cuanto más complicado sea el diseño, más complicada será la interpretación.
+4. El diseño permite claramente variables ordinales en ambos ejes. El orden se puede expresar (por ej.) por sombreado apropiado, así como por el orden de las categorías en ese eje. El orden de las categorías en los ejes puede estar determinado por su significado, o mejor determinado por las frecuencias; el orden alfabético según las etiquetas de texto puede ser un valor predeterminado, pero nunca debería ser la única elección considerada.
-1. Al ser general en diseño, el gráfico puede ser menos eficiente en mostrar ciertos tipos de relaciones. En particular, un gráfico de mosaico puede mostrar de manera clara las desviaciones de la independencia. Por otro lado, cuando las relaciones entre variables categóricas son complicadas o poco claras, entonces típicamente ningún gráfico es bueno para mostrar más que ese hecho débil.
-2. En ciertos aspectos, el diseño es ineficiente en el uso del espacio al dejar espacio para cada combinación cruzada, independientemente de si ocurre o no con qué frecuencia. Este es el vicio del mismo principio considerado como virtud. El diseño particular anterior espacia las categorías de manera equitativa independientemente de su frecuencia; sacrificar eso a menudo implica sacrificar etiquetas marginales legibles, las cuales valoro mucho. En este ejemplo, las etiquetas de texto resultan ser todas muy cortas, pero eso está lejos de ser típico.
Nota: Parece que los datos de xan son inventados, así que no intentaré una interpretación más allá de lo que se intenta en otras respuestas. Pero una sabiduría casera merece la última palabra aquí: el mejor diseño para ti es aquel que mejor transmite a ti y a tus lectores la estructura de algunos datos reales que te importan.
Otros ejemplos incluyen
¿Cómo se puede visualizar la relación entre 3 variables categóricas?
Gráfico para la relación entre dos variables ordinales
EDIT La idea general, y una implementación en Stata, están ahora escritas en este artículo.
4 votos
A veces, la tabla de datos es el mejor método de visualización en comparación con los gráficos. Las tablas de contingencia son un ejemplo clásico de esto.
1 votos
Punto importante, aunque no estoy de acuerdo en que siempre sea la mejor opción.
2 votos
Por eso dije "a veces". Recomendaría, el libro de Stephen Few Show me the numbers, que tiene una sección entera dedicada a las tablas.
0 votos
Pero hiciste un punto importante. Lo agregaré a mi pregunta anterior. Pero todos los gráficos de barras básicamente muestran tablas de contingencia solamente. El hecho de que se utilicen tanto significa que a menudo una tabla numérica no es suficiente, especialmente si es grande.
2 votos
Bueno, el mejor método depende de lo que quieras mostrar, qué tan grande es la tabla, ¡sin algunos detalles esto es demasiado amplio!
0 votos
No quería especificar los detalles de las tablas. ¿Puede haber una recomendación para una gran mayoría de tablas presentadas en revistas?
3 votos
La mayoría de stats.stackexchange.com/questions/56322/… parece pertinente aquí.