Hace poco me topé con un gráfico de líneas que mostraba una tabla de contingencia que me pareció una visualización muy potente. En mi opinión, es muy raro que los datos nominales se muestren de esta manera; normalmente se utilizan gráficos como el de barras, el de mosaico, etc. (véase aquí o aquí por ejemplo).
Para ilustrar, proporciono a) un gráfico de barras, b) un gráfico de mosaico y c) un gráfico de líneas para el mismo datos . Los datos del Titanic muestran las frecuencias de las variables Sobrevivió (sí frente a no), Sexo (hombres frente a mujeres) y clase (1ª, 2ª, 3ª y tripulación). Sólo he incluido a los adultos en los gráficos.
a) Diagrama de barras
b) Parcela de mosaico
c) Diagrama de líneas
El gráfico de líneas parece mostrar claramente lo que sucede, por ejemplo, más machos que hembras en total, la clase tiene un gran efecto en la supervivencia y también el sexo, etc. Los inconvenientes del gráfico lineal que se me ocurren:
- La línea pasa por zonas donde no existe ninguna categoría, por ejemplo, no hay nada entre la primera y la segunda clase. Pero: esto parece poner de relieve cuáles son los cambios entre las categorías. Es una especie de regresión a trozos que muestra la pendiente entre dos categorías adyacentes.
- Es confuso si incluimos aquí los intervalos de confianza porque los ci no deben seguir la línea. Pero: Los gráficos de mosaico tampoco pueden mostrar ci .
¿Qué otros inconvenientes tiene el gráfico lineal en este caso? Teniendo en cuenta el escaso uso del gráfico de líneas en este caso, supongo que debe haber más. ¿O me equivoco y los gráficos de líneas son una forma legítima/común de mostrar datos nominales?