3 votos

Visualización de datos nominales con un gráfico de líneas

Hace poco me topé con un gráfico de líneas que mostraba una tabla de contingencia que me pareció una visualización muy potente. En mi opinión, es muy raro que los datos nominales se muestren de esta manera; normalmente se utilizan gráficos como el de barras, el de mosaico, etc. (véase aquí o aquí por ejemplo).

Para ilustrar, proporciono a) un gráfico de barras, b) un gráfico de mosaico y c) un gráfico de líneas para el mismo datos . Los datos del Titanic muestran las frecuencias de las variables Sobrevivió (sí frente a no), Sexo (hombres frente a mujeres) y clase (1ª, 2ª, 3ª y tripulación). Sólo he incluido a los adultos en los gráficos.

a) Diagrama de barras

Bar plot

b) Parcela de mosaico

Mosaic plot

c) Diagrama de líneas

Line plot

El gráfico de líneas parece mostrar claramente lo que sucede, por ejemplo, más machos que hembras en total, la clase tiene un gran efecto en la supervivencia y también el sexo, etc. Los inconvenientes del gráfico lineal que se me ocurren:

  • La línea pasa por zonas donde no existe ninguna categoría, por ejemplo, no hay nada entre la primera y la segunda clase. Pero: esto parece poner de relieve cuáles son los cambios entre las categorías. Es una especie de regresión a trozos que muestra la pendiente entre dos categorías adyacentes.
  • Es confuso si incluimos aquí los intervalos de confianza porque los ci no deben seguir la línea. Pero: Los gráficos de mosaico tampoco pueden mostrar ci .

¿Qué otros inconvenientes tiene el gráfico lineal en este caso? Teniendo en cuenta el escaso uso del gráfico de líneas en este caso, supongo que debe haber más. ¿O me equivoco y los gráficos de líneas son una forma legítima/común de mostrar datos nominales?

1voto

PeterTG Puntos 8

De antemano: 2 grupos

En el caso de las variables nominales binarias, el gráfico de líneas proporciona una representación clara en la que la pendiente muestra cómo cambia la frecuencia si pasamos de un grupo a otro. Consideremos el siguiente gráfico de líneas para las frecuencias de sexo:

Binary variable

Aquí la pendiente muestra el cambio de la frecuencia entre machos y hembras.

El problema: >2 grupos

Considere el gráfico de líneas para la variable nominal color de pelo, que en los siguientes datos tiene cuatro grupos:

More than 2 groups, connecting only adjacent groups

Aquí, las líneas muestran los cambios entre dos grupos adyacentes, por ejemplo, la línea sube de negro a castaño, lo que significa que hay más personas con pelo negro que con castaño.

Para una variable nominal con k grupos hay (k^2 + k)/ 2 comparaciones posibles. Pero el gráfico de líneas sólo representa los cambios entre dos grupos adyacentes, es decir, k-1 pendientes. Como los datos nominales no tienen un orden natural, la colocación de los grupos en el eje x es arbitraria. Por lo tanto, representar los datos nominales con un gráfico de líneas significa resaltar los k-1 cambios que son elegidos arbitrariamente entre (k^2 +k)/ 2 posibles comparaciones de grupos. Podemos ver esto en el segundo gráfico: El gráfico muestra el aumento de la frecuencia cuando pasamos del color de pelo negro al castaño, pero el gráfico no muestra la pendiente entre el negro y el rojo, ni la pendiente entre el color de pelo negro y el rubio.

Nosotros puede conectar todas las posibles combinaciones de grupos con el gráfico de líneas para proporcionar una información completa de los datos, pero esto es bastante sobrecargado:

More than 2 groups, connecting all groups

En resumen

Para las variables ordinales, de intervalo y de razón, el gráfico de líneas tiene sentido porque muestra la tendencia de los datos. En el caso de los datos nominales, la ubicación de los grupos se sitúa arbitrariamente en el eje de las abscisas y las líneas del gráfico de líneas conectan sólo dos grupos adyacentes, es decir, grupos que por coincidencia están uno al lado del otro. Esto es engañoso. Por otro lado, si se conectan todas las comparaciones posibles de los grupos, se obtiene un diagrama de superposición.

0voto

ftkg Puntos 127

Si se eliminan las líneas y se agrandan las formas, se obtiene un "diagrama de puntos". Yo diría que es una forma común de visualizar este tipo de datos - utilizando los marcadores para mostrar los puntos sin que el "área" de un gráfico de barras pueda confundir al espectador - pero sin la interpolación innecesaria (y potencialmente engañosa) realizada al conectarlo con líneas.

A menudo, estos tendrían los ejes invertidos ( coord_flip() en ggplot2 ) y luego se ordenaría el eje de manera que los valores no ordinales se ordenaran en orden ascendente o descendente, dependiendo de lo que se esté destacando (poniendo los grupos "más interesantes" en la parte superior del eje Y).

Una versión de esto con más chispa es el gráfico "lollipop", que no es más que el gráfico de puntos con una fina línea dibujada desde el eje hasta el punto. Esas líneas no añaden nada, excepto valor estético. Añaden "basura al gráfico", disminuyen la "relación datos-tinta", pero a veces quedan bien. Para alguien que no haya visto mis gráficos además de los de barras, puede ayudarle a entender intuitivamente cómo leer los puntos. Aquí hay un ejemplo que se ve bien que se hizo en Excel enter image description here ( https://policyviz.com/2016/02/04/lollipop_graph_in_excel/ ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X