9 votos

La visualización de múltiples "histogramas"

Estoy teniendo dificultades para seleccionar el camino correcto para visualizar los datos. Supongamos que tenemos las librerías que vende librosy cada libro tiene al menos una categoría.

Para una librería, si contamos todas las categorías de libros, adquirimos un histograma que muestra el número de libros que cae dentro de una categoría específica para que la librería.

Quiero visualizar la librería comportamiento, quiero ver si están a favor de una categoría por encima de otras categorías. No quiero ver si están favoreciendo la sci-fi de todos juntos, pero quiero ver si están tratando a cada categoría igual o no.

He ~1M librerías.

He pensado en 4 métodos:

  1. Ejemplo de los datos, mostrar sólo 500 librería histogramas. Mostrar en 5 páginas por separado, utilizando la cuadrícula de 10x10. Ejemplo de una cuadrícula de 4x4: multiple histograms 1

  2. Mismo como #1. Pero esta vez de tipo eje x los valores de acuerdo a su recuento de desc, así que si hay un favoreciendo va a ser visto con facilidad.

  3. Imagina poner los histogramas en #2, así como una terraza y mostrar en 3D. Algo como esto: 3D histogram

  4. En lugar de utilizar tercer eje demandando color para representar los colores, por lo que el uso de un mapa de calor (2D histograma): 2D histogram Si por lo general las librerías prefieren algunas categorías para otros será mostrado como un buen degradado de izquierda a derecha.

¿Tienes alguna otra visualización de ideas/herramientas para representar varios histogramas?

12voto

Eggs McLaren Puntos 945

Como ya lo han comprobado que no hay respuestas fáciles a tu pregunta!

Supongo que usted está interesado en la búsqueda de extraños o diferentes tiendas de libros? Si este es el caso, entonces usted podría intentar cosas como PCA (consulte la wikipedia análisis de clúster de la página para más detalles).

Para dar una idea, considere este ejemplo. Tiene 26 librerías (con los nombres a, B,..Z). Todas las librerías son similares, excepto:

  1. Tienda de Z se vende sólo un par de libros de Historia.
  2. Tiendas O-Y vender más libros de romance que el promedio.

Una de los componentes principales de la trama pone de relieve estas tiendas para una mayor investigación.

He aquí algunos ejemplos de código R:

> d = data.frame(Romance = rpois(26, 50), Horror = rpois(26, 100), 
               Science = rpois(26, 75), History = rpois(26, 125))
> rownames(d) = LETTERS
#Alter a few shops
> d[15:25,][1] = rpois(11,150)
> d[26,][4] = rpois(1, 10)
#look at the data
> head(d, 2)
       Romance Horror Science History
 A      36    107      62     139
 B      47     93      64     118
> books.PC.cov = prcomp(d)
> books.scores.cov = predict(books.PC.cov)
# Plot of PC1 vs PC2
> plot(books.scores.cov[,1],books.scores.cov[,2],
       xlab="PC 1",ylab="PC 2", pch=NA)
> text(books.scores.cov[,1],books.scores.cov[,2],labels=LETTERS)

Esto le da la siguiente trama:

PCA plot

Observe que:

  1. Tienda de z es un punto de la periferia.
  2. Las demás tiendas de formar dos grupos distintos.

Otras posibilidades

También se puede ver en GGobi, nunca la he utilizado, pero se ve interesante.

3voto

ESRogs Puntos 1381

Yo sugeriría algo que no tiene un nombre definido (probablemente "paralela de la trama") y se parece a esto:

alt text

Básicamente, la trama de todos los cargos por todas las librerías como los puntos sobre las categorías enumeradas en el eje x, y conectar los resultados de cada una librería con una línea. Todavía esto puede ser demasiado enredado para 1M líneas, aunque. El concepto viene de GGobi que ya fue mencionado por csgillespie.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X