IMHO, quien primero omitió el momento preciso de los cambios en number of cars
es el primer responsable de cualquier resultado engañoso. Si tuviera esta información (incluso si se mide con error), time
sería una variable continua propiamente dicha, no una variable continua agrupada (véase Anderson, 1984) necesariamente. Tendría libertad para agrupar las observaciones en hour
-si realmente quisiera, en cuyo caso asumiría la responsabilidad de obtener resultados erróneos. De lo contrario, conservando las horas exactas de llegada, podría representar gráficamente su number of cars
series temporales sobre continuo time
con exactitud.
De todos modos, suponiendo que usted está atascado con number of cars
por hour
Estoy de acuerdo con @John, deberías trazar una línea que conecte tus observaciones horarias. Si careces de información sobre cuándo se produjo cada cambio incremental, es bastante difícil decir que estás engañando a nadie, a menos que no describas los límites de la información graficada. Del mismo modo, si grafica sus datos horarios con un simple diagrama de barras sin una línea que conecte los intervalos, no es realmente culpable de engañar a nadie si no afirma que los cambios entre las observaciones horarias se producen precisamente como se representa, cada hora, de una vez. Si alguien lo malinterpreta (como probablemente ocurrirá con cualquier estadística o dato al que se le dé suficiente publicidad), no se dará el caso de que le hayas engañado, especialmente si describes tus datos y el procedimiento de recogida con suficiente detalle. Esto no debería ser difícil de hacer.
Dada la claridad y minuciosidad básicas de los datos y las descripciones de los gráficos, no debería haber ningún inconveniente en trazar una línea para conectar los intervalos. En ventajas de conectar las papeleras es de hecho lo que usted parece pensar que es la desventaja: dibujar esas líneas imita una ecuación medianamente decente para el number of cars
en función de time
aunque se base en observaciones discretas cada hora. Puede utilizar una línea recta entre las observaciones para representar una suposición bastante razonable de que el cambio se produce linealmente a lo largo de cada hora. hour
no todos a la vez. Basándose en esta suposición, cualquier lector puede hacer una conjetura decente de qué minute
después de hour
verá llegar o salir el siguiente coche mediante este procedimiento de cuatro pasos de sentido común:
- Encuentra el punto de la recta donde
number of cars
$=1+$ el anterior hour
La observación de
- Dibuje una línea recta hacia abajo desde este punto para encontrar el punto de intersección con el
hour
eje
- Mida el
distance
de este punto en el hour
eje desde el punto de la observación anterior
distance
$\div$ distance between observations
$\times60=$ minute
después del hour
de la llegada del siguiente coche.
Por supuesto, también se puede estimar la llegada del siguiente coche hasta el segundo exacto, y no se puede evitar que los lectores lo hagan no proporcionando la línea: trazar la línea se convierte en el primero de cinco pasos. Así, si alguien quiere saber cuántos coches han llegado mientras tanto... no puede, porque la información no está disponible, pero puede hacer una estimación. Si les quitas un paso del proceso, imagino que te lo agradecerán.
Hacer esto para sus lectores con simples líneas rectas sólo implica su comodidad con la suposición de que el cambio se produce linealmente entre observaciones horarias, o dicho de forma más peyorativa, su desinterés por cualquier inexactitud en esta suposición. Las imprecisiones no son difíciles de imaginar. En primer lugar, el cambio se produce necesariamente como una función no lineal y cero-inflada de time
. Es no lineal porque el evento de cambio es ternario o llega un coche, o se va, o ninguna de las dos cosas - los coches no llegan ni se van en incrementos fraccionarios. La inflación es cero porque en la mayoría de los momentos no llega ni se va ningún coche. Se puede evitar tratando la línea como si describiera el probability
que coches llegarán o saldrán en un momento dado para llegar al número entero más próximo.
Sigue habiendo otra inexactitud en la suposición de líneas rectas entre observaciones horarias. Cabría esperar que la tasa de cambio (en términos de probability
como en el caso anterior) para cambiar más suavemente con el tiempo de lo que suponen sus líneas rectas trazadas por separado entre puntos. En términos más matemáticos, es posible que desee la derivada de su number of cars
( hour
) sea continua a través de hour
s. Es posible que pueda hacer esto ajustando una función polinómica a sus datos, pero si su propósito es predictivo, tenga cuidado con sobreajuste .
Otra ventaja de las líneas sobre las barras de histograma (es decir, sin espaciado intermedio para valores adyacentes de hour
...y mucho menos gráficos con barras que no se "tocan" entre sí) surge de su politómica lot
variable. Puede superponer sus series temporales separadas para cada lote en el mismo gráfico para facilitar las comparaciones, lo que le ayudará a ver si su lot
variable es interesante. He aquí una demostración con algunos datos inventados:
Felicitaciones a McCown ¡!
Ni siquiera voy a intentar averiguar cómo hacerlo de forma coherente con barras; se lo dejaré a @ChristianStade-Schuldt ;) Para ser justos, es incluso más fácil no conectar estos puntos como él sugirió, pero añadir las líneas ayuda a desambiguar los puntos correspondientes a series temporales separadas entre sí. Al final, seguirá siendo un poco subjetivo, así que juzga por ti mismo:
De todos modos, yo mismo dibujo las líneas en mi mente. Por cierto, si crees que las líneas de la primera figura restan algo de impacto visual a los puntos exactos, no olvides que siempre puedes aumentar el tamaño de los puntos, cambiar su forma o presentar sus valores numéricamente en una tabla aparte.
Referencia
Anderson, J. A. (1984). Regresión y variables categóricas ordenadas. Revista de la Real Sociedad Estadística B, 46 , 1-30.