8 votos

La comprensión de la productividad o de los gastos en el tiempo sin caer víctima de la estocástico interrupciones

Ayúdame aquí, por favor. Tal vez incluso antes de darme una respuesta que puede necesitar para que me ayude a hacer la pregunta. Nunca he aprendido acerca de los análisis de series de tiempo y no sé si eso es realmente lo que necesito. Nunca he aprendido sobre el tiempo de alisado promedios y no sé si eso es realmente lo que necesito. Mis estadísticas de fondo: tengo 12 créditos en bioestadística (regresión lineal múltiple, regresión logística múltiple, análisis de supervivencia, multifactorial anova, pero nunca anova de medidas repetidas).

Así que por favor, mira mi escenarios a continuación. ¿Cuáles son las palabras que yo debería de estar buscando y puede sugerir un recurso para aprender lo que necesitan aprender?

Quiero ver a varios conjuntos de datos diferentes para propósitos totalmente distintos, pero común a todos ellos es que hay fechas como una variable. Así que un par de ejemplos vienen a la mente: clínica de la productividad a lo largo del tiempo (como en cuántas cirugías o cuántas visitas de la oficina) o factura eléctrica a lo largo del tiempo (como en el dinero que se paga a la compañía de electricidad por mes).

Para ambos por encima de la cerca de universal manera de hacerlo es crear una hoja de cálculo de mes o trimestre en una columna y en la otra columna sería algo como el de la electricidad de pago o número de pacientes atendidos en la clínica. Sin embargo, contando por mes conduce a una gran cantidad de ruido que no tiene ningún significado. Por ejemplo, si yo por lo general pagan la factura de la luz el 28 de cada mes, pero en una ocasión se me olvida y solo pago 5 días más tarde, el 3 del mes próximo, luego de un mes aparecerá como si hubo cero de gastos y al mes siguiente se muestran descomunal gasto. Desde que uno tiene las fechas de pago ¿por qué iba uno a propósito de tirar la muy granular de datos por el boxeo en los gastos por mes calendario.

Del mismo modo, si estoy fuera de la ciudad durante 6 días, en una conferencia de ese mes se parecen ser muy improductivo y si esos 6 días cayó cerca de fin de mes, el próximo mes será uncharacteristicaly ocupado ya que habrá una lista de espera de personas que me querían ver, pero tuvo que esperar hasta que regresé.

Luego, por supuesto, son las obvias variaciones estacionales. Acondicionadores de aire que utilizan una gran cantidad de electricidad, por lo que obviamente uno tiene que ajustar para el calor del verano. Miles de millones de niños se refiere a mí por recurrentes de otitis media aguda en el invierno, y casi nada en el verano y principios del otoño. Ningún niño en edad escolar se presenta programados para cirugía electiva en las primeras 6 semanas de que las escuelas volver a consecuencia de las largas vacaciones de verano. La estacionalidad es sólo una variable independiente que afecta a la variable dependiente. Debe haber otras variables independientes, algunas de las cuales pueden ser adivinadas y otros que no son conocidos.

Un montón de diferentes problemas surgen cuando se busca en la inscripción en un antiguo estudio clínico.

¿Qué rama de la estadística nos permite mirar a través del tiempo simplemente observando los acontecimientos y sus fechas reales pero sin la creación artificial de casillas (meses/trimestres/años) que en realidad no existen.

Pensé en hacer la media ponderada contar para cualquier evento. Por ejemplo, el número de pacientes vistos de esta semana es igual a 0.5*nr visto esta semana + 0.25*nr visto la semana pasada + 0.25*nr visto la próxima semana.

Quiero aprender más sobre esto. ¿Qué palabras debo estar buscando?

1voto

Akira Puntos 1061

He oído hablar de 'basado en el tiempo de vagón de las funciones que podría resolver su problema. Sobre la base del tiempo de boxcar suma de 'tamaño de la ventana' $\Delta t$ se define en tiempo de $t$ a ser la suma de todos los valores entre a$t - \Delta t$$t$. Esto estará sujeto a las discontinuidades que pueden o no quieren. Si desea mayores valores para ser downweighted, puede emplear un simple o media móvil exponencial dentro de su tiempo basada en la ventana.

editar:

Yo interpreto la pregunta de la siguiente manera: supongamos que algunos eventos se producen a veces $t_i$ con las magnitudes $x_i$. (por ejemplo, $x_i$ podría ser la cantidad de un proyecto de ley de pago.) Encontrar alguna función $f(t)$ que se estima que la suma de las magnitudes de la $x_i$ para los tiempos de "cerca" $t$. Para uno de los ejemplos planteados por el OP, $f(t)$ representaría "¿cuánto pago por la electricidad" todo el tiempo $t$.

Similar a este problema es el de estimar el valor "promedio" en torno a tiempo $t$. Por ejemplo: regresión, la interpolación(no generalmente se aplica a datos ruidosos), y el filtrado. Usted podría pasar toda una vida el estudio de uno de estos tres problemas.

Aparentemente no relacionados problema, de naturaleza estadística, es la Densidad de La estimación. Aquí el objetivo es que, dadas las observaciones de magnitudes $y_i$ generado por algún proceso, para calcular, aproximadamente, la probabilidad de que proceso de generación de un evento de magnitud $y$. Una aproximación a la densidad de la estimación es a través de un núcleo de la función. Mi sugerencia es que el abuso del kernel el enfoque para este problema.

Deje $w(t)$ ser una función tal que $w(t) \ge 0$ para todos los $t$, $w(0) = 1$ (ordinaria del núcleo no todos comparten esta propiedad), y $w'(t) \le 0$. Deje $h$ ser el ancho de banda, que controla el grado de influencia de cada punto de datos. Dado los datos de $t_i, x_i$, definir la suma de la estimación por $$f(t) = \sum_{i=1}^n x_i w(|t - t_i|/h).$$ Algunos de los posibles valores de la función $w(t)$ son de la siguiente manera:

  • un uniforme (o 'vagón') núcleo: $w(t) = 1$ $t \le 1$ $0$ lo contrario;
  • un triangular kernel: $w(t) = \max{(0,1-t)}$;
  • una ecuación cuadrática kernel: $w(t) = \max{(0,1-t^2)}$;
  • un tricube kernel: $w(t) = \max{(0,(1-t^2)^3)}$;
  • un núcleo Gaussiano: $w(t) = \exp{(-t^2 / 2)}$;

Yo llamo a estos núcleos, pero están fuera por un factor constante de aquí y allá; ver también una lista completa de los núcleos.

Algunos ejemplo de código en Matlab:

%%kernels
ker0 = @(t)(max(0,ceil(1-t))); %uniform
ker1 = @(t)(max(0,1-t)); %triangular
ker2 = @(t)(max(0,1-t.^2)); %quadratic
ker3 = @(t)(max(0,(1-t.^2).^3)); %tricube
ker4 = @(t)(exp(-0.5 * t.^2)); %Gaussian

%%compute f(t) given x_i,t_i,kernel,h
ff = @(x_i,t_i,t,kerf,h)(sum(x_i .* kerf(abs(t - t_i) / h)));

%%some sample data: irregular electric bills
sdata = [
datenum(2009,12,30),141.73;...
datenum(2010,01,25),100.45;...
datenum(2010,02,23),98.34;...
datenum(2010,03,30),83.92;...
datenum(2010,05,01),56.21;...       %late this month;
datenum(2010,05,22),47.33;...       
datenum(2010,06,14),62.84;...       
datenum(2010,07,30),83.34;...       
datenum(2010,09,10),93.34;...       %really late this month
datenum(2010,09,22),78.34;...
datenum(2010,10,22),93.25;...
datenum(2010,11,14),83.39;...       %early this month;
datenum(2010,12,30),133.82];

%%some irregular observation times at which to sample the filtered version;
t_obs  = sort(datenum(2009,12,01) + 400 * rand(1,400));

t_i = sdata(:,1);x_i = sdata(:,2);

%%compute f(t) for each of the kernel functions;
h   = 60;    %bandwidth of 60 days;

fx0 = arrayfun(@(t)(ff(x_i,t_i,t,ker0,h)),t_obs);
fx1 = arrayfun(@(t)(ff(x_i,t_i,t,ker1,h)),t_obs);
fx2 = arrayfun(@(t)(ff(x_i,t_i,t,ker2,h)),t_obs);
fx3 = arrayfun(@(t)(ff(x_i,t_i,t,ker3,h)),t_obs);
fx4 = arrayfun(@(t)(ff(x_i,t_i,t,ker4,0.5*h)),t_obs);   %!!use smaller bandwidth

%%plot them;
lhand = plot(t_i,x_i,'--rs',t_obs,fx0,'m-+',t_obs,fx1,'b-+',t_obs,fx2,'k-+',...
t_obs,fx3,'g-+',t_obs,fx4,'c-+');
set(lhand(1),'MarkerSize',12);
set(lhand(2:end),'MarkerSize',4);
datetick(gca());
legend(lhand,{'data','uniform','triangular','quadratic','tricube','gaussian'});

El gráfico muestra el uso de algunos núcleos en una muestra de la factura eléctrica de los datos. alt text

Nota que el uniforme del núcleo está sujeto a la 'estocástico choques" que el OP es tratando de evitar. El tricube y granos de Gauss dar mucho más suave aproximaciones. Si este enfoque es aceptable, uno solo tiene que elegir la el kernel y el ancho de banda (que en general es un problema difícil, pero teniendo en cuenta algunos el conocimiento de un dominio, y el código de la prueba-recode bucles, no debería ser demasiado complicado).

1voto

alexp206 Puntos 899

Una solución simple que no requiere de la adquisición de conocimiento especializado es el uso de gráficos de control. Son muy fáciles de crear y hacer que sea fácil para decirle a causa especial de variación (por ejemplo, cuando usted está fuera de la ciudad) de la variación de causa común (como cuando se tiene una real baja productividad mes), lo que parece ser el tipo de información que desea.

También conservar los datos. Ya que usted dice que usted va a utilizar los gráficos para muchos propósitos diferentes, te aconsejo en contra de la realización de las transformaciones en los datos.

Aquí es una introducción suave. Si usted decide que le gusta los gráficos de control, puede que desee profundizar más en el tema. Los beneficios para su negocio será enorme. Los gráficos de Control son considerados han sido un importante contribuyente a la post-guerra Japonés auge económico.

Hay incluso un paquete de R.

1voto

jldugger Puntos 7490

Palabras de moda: la interpolación, remuestreo, suavizado.

Su problema es similar a la encontrada con frecuencia en la demografía: la gente podría censo de cuenta desglosado en la edad de los intervalos, por ejemplo, y a intervalos que no siempre son de anchura constante. Desea interpolar la distribución por edad. Lo que este comparte con su problema, aparte de la variable anchura (= variable intervalos de tiempo), es que los datos tienden a ser no negativo. Además, muchos de estos conjuntos de datos pueden tener ruido, pero tiene una forma particular de correlación negativa: un número que aparece en una bandeja de no aparecer en la vecina papeleras, pero podría haber sido asignado para el mal de reciclaje. Por ejemplo, las personas mayores tienden a redondear sus edades más cercana a la de cinco años. No son pasadas por alto, pero que podrían contribuir a la equivocada grupo de edad. Por lo general, sin embargo, los datos son completos y confiables. En términos de esta analogía estamos hablando de un completo censo; en sus conjuntos de datos que tienen real de las facturas de electricidad, real inscripciones, y así sucesivamente. Así que es sólo una cuestión de reparto de los datos razonablemente a un conjunto de intervalos útil para su posterior análisis (tales como igualmente espaciados veces para el análisis de series de tiempo): que es donde interpolación y de remuestreo están involucrados.

Hay muchas técnicas de interpolación. Las alteraciones más frecuentes en la demografía fueron desarrollados para el cálculo simple y se basa en el polinomio de splines. Muchas compartir un truco que vale la pena conocer, independientemente de cómo va a procesar tus datos: no intento de interpolar los datos en bruto; en lugar de interpolar su suma acumulativa. La última va a ser monótona creciente debido a la no negatividad de los valores originales, y por lo tanto tienden a ser relativamente suave. Esta es la razón por la polinomio splines pueden trabajar en absoluto. Otra ventaja de este enfoque es que, aunque el ajuste puede desviarse de los puntos de datos (ligeramente, se espera), en general se reproduce correctamente los totales, por lo que nada es neto perdido o ganado. Por supuesto, después de la colocación de los valores acumulativos (como una función del tiempo o la edad), de tomar primeras diferencias para estimar los totales dentro de cualquier bin que te gusta.

El ejemplo más sencillo de este enfoque es un spline lineal: sólo tiene que conectar puntos sucesivos en la parcela de acumulado $x$ frente al acumulado $t$ por segmentos de línea. La estimación de la cuenta en cualquier intervalo de tiempo $[t_0, t_1]$ por la lectura de los valores de $x_0$ $x_1$ de la estriado de la curva de a $t_0$$t_1$, respectivamente, y el uso de $x_1 - x_0$. Mejor splines (cúbica en algunas áreas; quintic en muchos demográfica apps) a veces, para mejorar las estimaciones. Esto es equivalente a su intuición de la ponderación de los datos y le da una agradable interpretación gráfica.

1voto

Patrick Puntos 183

Me gustaría empezar con una robusta serie de tiempo de los filtros (es decir, la variable de tiempo medianas) debido a que estos son más sencilla e intuitiva.

Básicamente, el robusto filtro de tiempo es el tiempo de la serie suavizadores lo que la mediana es la media; un resumen de las medidas (en este caso una variable de tiempo de uno) que no es sensible a la 'wired' observaciones tan largo como ellos no representan a la mayoría de los datos. Para un resumen ver aquí.

Si usted necesita más sofisticados suavizadores (es decir, no lineales), se podría hacer con una robusta de Kalman filtrado (aunque esto requiere un nivel ligeramente más alto de sofisticación matemática)

Este documento contiene el siguiente ejemplo ( un código para que se ejecute en R, open source software stat):

library(robfilter)
data(Nile)
nile <- as.numeric(Nile)
obj <- wrm.filter(nile, width=11)
plot(obj)

where the orginal time series is in black and the filtered version (filtered by repeated median) is overploted in red. Los últimos documentos que contiene un gran número de referencias de los artículos y libros. Otros tipos de filtros son implementados en el paquete, pero las repetidas mediana es muy sencillo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X