¿Cuál es un gráfico apropiado para ilustrar la relación entre dos variables ordinales?
Se me ocurren algunas opciones:
- Gráfico de dispersión con una fluctuación aleatoria añadida para evitar que los puntos se oculten entre sí. Aparentemente es un gráfico estándar - Minitab lo llama "gráfico de valores individuales". En mi opinión, puede ser engañoso, ya que fomenta visualmente una especie de interpolación lineal entre los niveles ordinales, como si los datos fueran de una escala de intervalo.
- Gráfico de dispersión adaptado para que el tamaño (área) del punto represente la frecuencia de esa combinación de niveles, en lugar de dibujar un punto para cada unidad de muestreo. A veces he visto este tipo de gráficos en la práctica. Pueden ser difíciles de leer, pero los puntos se sitúan en un entramado de espacios regulares, lo que supera en cierto modo la crítica al gráfico de dispersión con saltos, ya que visualmente "intervaliza" los datos.
- En particular, si una de las variables se trata como dependiente, un gráfico de caja agrupado por los niveles de la variable independiente. Es probable que tenga un aspecto terrible si el número de niveles de la variable dependiente no es lo suficientemente alto (muy "plano" con los bigotes ausentes o, peor aún, cuartiles colapsados que hacen imposible la identificación visual de la mediana), pero al menos llama la atención sobre la mediana y los cuartiles, que son estadísticas descriptivas relevantes para una variable ordinal.
- Tabla de valores o cuadrícula de celdas en blanco con mapa de calor para indicar la frecuencia. Visualmente diferente pero conceptualmente similar al gráfico de dispersión con área de puntos que muestra la frecuencia.
¿Existen otras ideas o pensamientos sobre qué gráficos son preferibles? ¿Hay algún campo de investigación en el que ciertos gráficos ordinales-vs-ordinales se consideren estándar? (Me parece recordar que los mapas de calor de frecuencias están muy extendidos en la genómica, pero sospecho que se trata más bien de nominal-vs-nominal). También serían muy bienvenidas las sugerencias de una buena referencia estándar, supongo que algo de Agresti.
Si alguien quiere ilustrar con un gráfico, el código R para los datos de la muestra falsa sigue.
"¿Qué importancia tiene el ejercicio para usted?" 1 = nada importante, 2 = algo sin importancia, 3 = ni importante ni sin importancia, 4 = algo importante, 5 = muy importante.
"¿Con qué regularidad hace una carrera de 10 minutos o más?" 1 = nunca, 2 = menos de una vez por quincena, 3 = una vez cada una o dos semanas, 4 = dos o tres veces por semana, 5 = cuatro o más veces por semana.
Si sería natural tratar "a menudo" como una variable dependiente y "importancia" como una variable independiente, si una trama distingue entre las dos.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Una pregunta relacionada con las variables continuas que encontré útil, tal vez un punto de partida útil: ¿Cuáles son las alternativas a los gráficos de dispersión cuando se estudia la relación entre dos variables numéricas?
1 votos
¿Y qué hay de un spineplot?
0 votos
Una pregunta relacionada para mostrar univariante Los datos ordinales entre varios grupos también pueden ser relevantes: Visualización de datos ordinales: medias, medianas y rangos de medias