8 votos

Mostrar la serie de decaimiento exponencial de distribuciones en un gráfico

Cada semana tenemos nuevos clientes registrarse, y algunos de ellos enviar solicitudes de soporte técnico. Me gustaría gráfico de la variación en el número de tickets de soporte al cliente a través del tiempo. Estoy haciendo esto por la creación de depósitos de clientes en una semana de cohortes, y luego graficar cada una distribución como un Tufte diagrama de caja, como en esta imagen. La gráfica que tengo ahora se ve algo como esto:

tufte graph

El problema es que la distribución de los datos reales, en lugar de los datos falsos que estoy usando aquí, se asemeja a un decaimiento exponencial con sólo valores enteros, y es por lo tanto sesgada hacia cero "entradas". Así tenemos 52 cohorte de distribuciones que se parecen a esto:

exponential decay

(donde el eje X es el número de entradas, y el eje y es el número de clientes que envían en que muchos tickets), lo que es difícil conseguir que la distribución real de la caja de la parcela. En general, la mediana no nos dice mucho acerca de la distribución.

¿Cómo podría mostrar mejor la serie de decaimiento exponencial de distribuciones, para tener una idea de cómo es la forma está cambiando con el tiempo?

Gracias, Kevin

6voto

Judioo Puntos 625

Un simple ajuste a su actual producción gráfica sería, en lugar de producir todos los elementos de la box-plot (incluso el minimalista Tufte estilo de uno), sería producir un gráfico de línea que conecta el resumen de las estadísticas que el diagrama de caja muestra (mediana, cuartiles, significa, en el exterior de las bisagras, lo que sea). A continuación un ejemplo de la visualización de los 90 y el percentil 99 de la simulación de una distribución de 50 observaciones más de 100 semanas.

enter image description here

Esta conexión de la línea te permite hacer el temporal de las conexiones entre el resumen de las estadísticas entre las semanas mucho más fácil, y reduce los datos a la tinta de relación de la trama. Incluso Tufte en la presentación Visual de la Información Cuantitativa tiene un ejemplo en la conexión de las líneas en una pantalla que permite discernir la periodicidad de una serie temporal, que sería muy difícil de ver en un diagrama de dispersión de la pantalla (y supongo que el mismo problema se extendería hasta el box-plot de la pantalla).

Qué es exactamente lo que debe mostrar en las líneas creo que tendría más penetración en la naturaleza de los datos y lo que te interesa (y podría cambiar a medida que la naturaleza de los datos de los cambios a lo largo del tiempo). Para obtener un sentido amplio de la distribución creo diferentes cuantiles (incluyendo la mediana) puede ser de carácter informativo. Aunque puede tomar un poco de experimentación para ver donde informativo de cuantiles de la mentira de la semana a la semana (en esta pantalla el percentil 99, es bastante ruidoso).

Los gráficos de líneas como esta también podría ser extendida a diferentes resúmenes estadísticos (como el sesgo de la distribución), aunque creo que los cuantiles como una primera ejecución son los más informativos. También si usted está interesado en la identificación de valores atípicos puede que desee considerar la inclusión de los puntos de los valores atípicos (definido en cualquier forma que se adapte a su fantasía) en estos mismos gráficos de línea. Hubo una interesante discusión de valores atípicos para sesgada de los datos de esta pregunta en el sitio, hay un boxplot variante de Poisson distribución de datos?, y las preguntas marcadas con un que yo creo que sería aplicable.

Aunque desde un solo esto probablemente puede imaginar la generación de una multitud de diferentes líneas en una parcela, es bastante fácil de trazar demasiada información en una gráfica. Una regla-de-pulgar trato de cumplir es que una trama no debe tener más de 4 ó 5 elementos de datos (donde aquí un elemento de datos sería una línea). Incluso que es con frecuencia demasiado. Para intentar solucionar este problema, intente hacer una plantilla consistente, en el que el eje de las parcelas son consistentes, por lo que usted puede hacer comparaciones exactas entre las parcelas. O si el software lo permite, hacer una serie de pequeños lotes múltiples (de nuevo, con el mismo eje para todas las parcelas). Entonces, incluso si usted dice que tiene el exterior de las bisagras y los valores atípicos en una parcela y la mediana y los cuartiles en otro, usted puede ser capaz de discernir patrones entre las dos parcelas. Y entonces usted puede combinar los valores atípicos y los cuartiles en una parcela de más de escrutinio si usted piensa que usted ve un patrón entre ellos.

EDIT: Como un ejemplo de suavizado que @whuber está hablando aquí es de una similar de la trama anterior (generados por la simulación de un proceso en la misma forma), excepto que un loess más suave se aplica a las líneas.

enter image description here

Yo no podía llevar a mi no complot de los datos originales, pero acabo de hacer el alisado de las líneas más gruesas (y les dio color) para traer al primer plano de la imagen, y a la izquierda el original líneas más delgadas y de un color gris claro así que simplemente están en el fondo de la imagen (y por lo tanto no son como distracción). El más suave permite evaluar las tendencias generales que pueden ser ofuscado por la varianza de la serie.

Tukey tiene otras sugerencias que no aparece aquí, tales como el trazado de la alfa casco de todas las observaciones (y etiquetado de esas observaciones que conforman los vértices). Algunos de los más alimento para el pensamiento.

1voto

Daniel Papasian Puntos 10206

Han considerado que tal vez centrándose en tener un gráfico 2D de número de entradas en el eje x vs número de personas que han presentado que muchas entradas en el eje de las y, y la proyección de cada cohorte en una parcela de por sí? Entonces usted puede voltear a partir de la cohorte a cohorte (como un Rolodex) para obtener un sentido de cambio en el tiempo, utilizando la animación, o dejar que el tiempo sea el eje z en un gráfico 3D.

(edit: arreglado el eje de "número en cohorte" a "número de los que han presentado que el precio de las entradas")

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X