8 votos

Visualizar sistemas y sus conexiones

He recogido un conjuntos de datos que probado por muchos usuarios (>100.000) que de cada diez características de un software de producto que utilizan. Se pueden utilizar varias funciones, pero para cada característica no es sólo "uso" o "no usar". Así que en términos de desarrollo de software, tengo muchos conjuntos de características en una longitud de cero a diez.

Quiero visualizar los datos de tal manera, que responde a dos preguntas:

  1. Que las características del software son las más populares; ¿cuántos por ciento de los usuarios utilizan FeatureX?
  2. Que características son las más utilizadas? De modo que los conjuntos de características son las más populares. Por ejemplo, si la mayoría de las personas tienden a utilizar Feature1 junto con Feature2 (no importa qué otras características que el uso o no uso), quiero ver esto de alguna manera en mi visualización.

Para aclarar: Los datos ya recogidos, estoy buscando una buena manera de mostrar estos datos.

No estoy seguro de si puede (y debe) visualizar esto en una gráfica o si usted debe elegir para mostrar varios gráficos.

Se me ocurrió una solución sencilla para 1.: Creación de una barra-gráfica que muestra para cada función de cómo muchas personas seleccionadas se resuelve este problema. Pero no ayuda para los 2.

5voto

Carl McTague Puntos 111

Deje $C$ por una tabla y $C[i,j]$ es el número de usuarios que utilizan tanto el $i$-th y $j$-ésima característica. $C[i,i]$ es el número de usuarios que utilizan $i$-ésima característica. Por $N$ se denota el número total de usuarios.

Una posibilidad es la trama de la mesa, y (abajo hay algunas sugerencias):

  • sólo su izquierda parte triangular (como $C[i,j]=C[j,i]$),
  • con entradas ordenadas en un camino donde, con frecuencia co-utilizan características en conjunto,
  • con colorear/brillo más o menos proporcional a $\log C[i,j]$.

Otra posibilidad es construir una gráfica de los datos. Los nodos son las características y los bordes de la conexión de ellos - la indicación de co-uso.

Para obtenerlo se puede calcular la relación de co-uso de la $$c[i,j]= \frac{C[i,j]}{\sqrt{C[i,i] C[j,j]}}$$

  • Para que no se correlaciona características es $$c_{non-corr}[i,j]= \frac{N \frac{C[i,i]}{N} \frac{C[j,j]}{N}}{\sqrt{C[i,i] C[j,j]}} = \frac{\sqrt{C[i,i] C[j,j]}}{N}.$$
  • Si es mucho mayor (hasta $1$), a continuación, las características son co-usa.
  • Si es mucho menor (abajo a $0$) - las características son anti-correlación (es decir, las personas tienden a utilizar cualquiera de las $i$ o $j$), que puede ser un fenómeno común también.

Usted necesita para establecer umbrales $t_c$ (y, opcionalmente,$t_a<t_c$ ):

  • Si $\frac{c[i,j]}{c_{non-corr}[i,j]}>t_c$ conectar $i$$j$, para marcarlos como el co-características de uso.
  • Opcionalmente, si $\frac{c[i,j]}{c_{non-corr}[i,j]}<t_a$ conectar $i$ $j$ con un tipo diferente de líneas, para marcar como anti-correlacionadas.

La visualización de los números reales en la parcela (o/punto de tamaños de línea) puede ser útil.

EDIT: Solucionado un error.

4voto

DavLink Puntos 101

Creo que usted puede estar interesado en la circular de la muestra para datos tabulares (en su caso, de un camino de mesa que denota la co-ocurrencia de cada binario características), como se propone a través de Circos; véase el ejemplo y en la línea de demostración aquí.

Nota al margen: Como alternativa, también puede echar un vistazo a las series Paralelas que se han desarrollado por Robert Kosara. Véase también,

Robert Kosara, convertir una Tabla en un Árbol: Crecimiento Paralelo de los Conjuntos de a Propósito del Proyecto, en Steele, Iliinsky (eds), Hermoso Visualización, pp 193-204, O'Reilly Media, 2010.

2voto

Alistair Puntos 41

El enfoque simple para el #2 sería una tabulación cruzada: la lista de 10 características en la parte superior y el lado, con la intersección de uso de cada función que se muestra como un recuento, o como en diversos porcentajes. Los porcentajes son increíblemente flexible: usted puede base de los porcentajes de la columna o de la tabla de conteo, y esas cuentas pueden ser usuarios únicos o singulares de usuario-función de los pares. Por esa razón me gustaría empezar con la cuenta. Los recuentos agradable y sencilla y cercana a los datos originales. Pero, tu pregunta original suena como que usted necesitará hacer un porcentaje en algún momento.

Con el formato condicional en Excel es una forma rápida y sucia, a continuación, ver la magnitud relativa de conjunto a una escala de color.

0voto

Knut H Puntos 41

Un par ideas fáciles:

  • gráfico de barras de pares (o conjuntos) de características
  • un gráfico de barras separado, para cada característica, de cómo muchas veces mutuamente característica aparece con él

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X