5 votos

¿Cómo presentar datos en un conjunto de datos grande (x es categórico, y es cuantitativa)?

Estoy trabajando en un biología computacional proyecto, y mi profesor me ha dado los datos para más de 1.000 enzimas (representado por un índice numérico), es decir, el promedio de solubilidad, count (número de enzimas de cada tipo), y la desviación estándar.

Estoy teniendo algunos problemas para decidir la mejor manera de resumir gráficamente estos datos. Mi profesor me envió un histograma/barplot(?) que clasificó a la enzima promedio de los índices de solubilidad.

Así que supongo que tengo dos preguntas principales en el momento:

  1. ¿Cuál es la mejor manera de presentar el promedio de la solubilidad de un gran número de los índices? Mi pensamiento es que un diagrama de puntos sería una mejor opción, ya que se utilizan menos "tinta".

  2. Mi profesor quiere incluir información sobre la desviación estándar. Sin embargo, debido a que hay muchos puntos de datos, la inclusión de barras de error sólo los resultados en una misa negra en el gráfico (si es un punto de la trama o un barplot). Mi profesor hizo un diagrama de dispersión de media solubilidad en contra de la desviación estándar, pero soy escéptico de que una gráfica es muy significativa.

Edit: Sólo para una mejor visual de la situación, aquí están las iniciales barplot y punto gráfico, ambos representan el promedio de solubilidad por la enzima índice:

solplot1 solplot2

2voto

Brian Cauthon Puntos 4031

Su profesor sugerencia suena razonable para mí. Usted podría incluir los histogramas de la solubilidad y de la desviación estándar en una faceta de la cuadrícula.

Me gusta gráficos polares en el momento, así que si quieres algo un poco más elegante, ¿qué tal una circular, diagrama de puntos de colores y de tamaño por la desviación estándar:

df <- data.frame(Enzyme = 1:1000, Solubility = rgamma(1000,10,1), sd = 
      rgamma(1000,2,5))

ggplot(data = df, aes(x = Enzyme, y = Solubility)) + 
    geom_point(alpha = 0.5, aes(colour = sd, size = sd)) + 
    coord_polar() + 
    theme_bw() + 
    scale_size_continuous(range = c(0.5, 3), guide = F) + 
    scale_color_gradient(low = "blue", high = "red", name = "SD")

que te lleva

Circular dot plot

Si mi diagrama polar obsesión es demasiado, acaba de quitar coord_polar() para obtener

Dot plot

2voto

Kam Puntos 1

Ad 1) Ordenar las enzimas de media solubilidad en orden descendente es una sugerencia razonable, a menos que la enzima índice tiene un significado en sí mismo.

Ad 2) Tratar de ordenar las enzimas en el descenso del coeficiente de variación, pero muestran el promedio de solubilidad en el eje y.

Alternativamente, el fin de las enzimas como en 1), pero mostrando ya sea la desviación estándar o CV. De manera más general, organizar las parcelas pequeñas múltiploscomún, el eje de las enzimas ordenado como en 1), pero mostrando cada vez una variable en el eje y.

Como para la codificación de marcas de uso, nada demasiado complicado. Sólo se adhieren con cualquiera de los puntos, delgadas barras, guiones, etc. No hay necesidad de barras de error a menos que usted desea mostrar un error de muestreo - incluso entonces, simple, pequeño enfoque múltiple de ser menos contaminante y por lo tanto más eficaz.

Si la enzima índice tiene un significado, por ejemplo, se ponía de pie para una clasificación jerárquica número, entonces usted debe organizar las enzimas por parte de dichos grupos. Si el índice es sólo un hash, entonces estas recomendaciones se aplican.

Finalmente, se enfrentará el reto de llenar el eje x con útiles las etiquetas. La solución más fácil es hacer que su trama interactiva, lo que permite un zoom del eje y la información sobre herramientas. Ausente de la interactividad, usted probablemente tiene que comprometer en la etiqueta detalle.

1voto

user164014 Puntos 28

Si usted tiene una gran base de datos junto con un gran número de variables, usted podría considerar usar correlación, así como el análisis factorial para determinar las relaciones entre variables y grupos de variables. Al no ser un biólogo, luego enfoque de fregadero de cocina de autovectores podría recoger algunas ideas del conocimiento ocultado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X