24 votos

Las series de tiempo para datos de conteo, con recuentos de < 20

Recientemente he comenzado a trabajar para una clínica de la tuberculosis. Nos reunimos periódicamente para analizar el número de casos de TB estamos tratando actualmente, el número de pruebas administradas, etc. Me gustaría empezar a modelar estos recuentos, de modo que no sólo estamos adivinando que algo sea inusual o no. Por desgracia, he tenido muy poco entrenamiento en series de tiempo, y la mayor parte de mi exposición ha sido modelos para muy continua de datos (los precios de las acciones) o muy grandes números de cuenta (influenza). Pero tratamos de 0 a 18 casos por mes (media 6.68, la mediana de 7, var 12.3), que se distribuyen así:

[imagen perdido a la noche de los tiempos]

[imagen comido por un grue]

He encontrado un par de artículos que tratan de los modelos como este, pero me gustaría mucho encantaría escuchar sus sugerencias, tanto de los planteamientos y por R los paquetes que podría utilizar para implementar esas estrategias.

EDIT: mbq la respuesta que me ha obligado a pensar más detenidamente acerca de lo que les estoy pidiendo aquí; tengo demasiado colgado en la cuenta mensual y perdido en el centro de la cuestión. Lo que me gustaría saber es: ¿el (bastante visible) la disminución de, digamos, de 2008 en adelante reflejan una tendencia a la baja en el número total de casos? A mí me parece que el número de casos mensuales de 2001 a 2007 refleja un proceso estable; tal vez algunos de la estacionalidad, pero en general estable. Desde el 2008 hasta el presente, parece que el proceso está cambiando: el número total de casos está disminuyendo, aunque la cuenta mensual podría mueva hacia arriba y hacia abajo debido a la aleatoriedad y la estacionalidad. ¿Cómo puedo comprobar si hay un cambio real en el proceso? Y si yo puedo identificar un descenso, ¿cómo podría yo uso esa tendencia y lo que la estacionalidad no se podría estimar el número de casos que podríamos ver en los próximos meses?

¡Uf. Gracias por dar conmigo.

15voto

Senseful Puntos 116

Para evaluar la tendencia histórica, que haría uso de un gam con tendencia y estacionalidad. Por ejemplo

require(mgcv)
require(forecast)
x <- ts(rpois(100,1+sin(seq(0,3*pi,l=100))),f=12)
tt <- 1:100
season <- seasonaldummy(x)
fit <- gam(x ~ s(tt,k=5) + season, family="poisson")
plot(fit)

A continuación, summary(fit) te dará una prueba de la importancia del cambio en la tendencia y la trama te daré algunos intervalos de confianza. La hipótesis aquí es que las observaciones son independientes y el condicional distribución de Poisson. Debido a que la media es permitido cambiar sin problemas a lo largo del tiempo, estos no son particularmente fuertes supuestos.

Para pronóstico es más difícil, ya que necesita proyectar la tendencia en el futuro. Si usted está dispuesto a aceptar una extrapolación lineal de la tendencia en la final de los datos (que sin duda es cutre pero probablemente bien para un par de meses), a continuación, utilizar

fcast <- predict(fit,se.fit=TRUE,
               newdata=list(tt=101:112,season=seasonaldummyf(x,h=12)))

Para ver las previsiones en el mismo gráfico:

plot(x,xlim=c(0,10.5))
lines(ts(exp(fcast$fit),f=12,s=112/12),col=2)
lines(ts(exp(fcast$fit-2*fcast$se),f=12,s=112/12),col=2,lty=2)
lines(ts(exp(fcast$fit+2*fcast$se),f=12,s=112/12),col=2,lty=2)

Usted puede ver la inusual meses buscando los valores atípicos en la (desviación) de los residuos del ajuste.

7voto

Sven Puntos 7277

Puede que desee echar un vistazo a strucchange:

Las pruebas, seguimiento y citas cambios estructurales en (lineal) de los modelos de regresión. strucchange características de las pruebas y métodos a partir de la generalización de la prueba de fluctuación de marco, así como de la prueba de F (Chow prueba) marco. Esto incluye los métodos de ajuste, la trama y la prueba de la fluctuación de los procesos (por ejemplo, CUSUM, MOSUM, recursivo/movimiento estimaciones) y F estadísticas, respectivamente. Es posible monitorear la entrada de datos en línea, utilizando la fluctuación de los procesos. Finalmente, los puntos de ruptura en los modelos de regresión con cambios estructurales pueden ser estimados, junto con los intervalos de confianza. El énfasis se da siempre a los métodos para la visualización de los datos."

PS. Buenos gráficos ;)

6voto

ESRogs Puntos 1381

¿Realmente necesita un modelo avanzado? Basado en lo que sé acerca de la TB, en caso de que no hay epidemia de infecciones estocástico actos y así la cuenta de formulario mes N no debe estar correlacionado con el número de mes N-1. (Usted puede comprobar esta hipótesis con autocorrelación). Si es así, analizando sólo la distribución mensual de la cuenta puede ser suficiente para decidir si algunos de recuento es significativamente superior a la normal.
Por otra parte se puede buscar correlaciones con otras variables, como la temporada de viajes de tráfico, o cualquier cosa que usted puede imaginar que puede estar correlacionada. Si usted quiere encontrar algo como esto, que puede ser utilizado para algunas de normalización de datos.

5voto

Brettski Puntos 5485

A menudo, la enfermedad de los datos, como se realiza con un modelo lineal generalizado, ya que no es necesariamente una gran aplicación de análisis de series de tiempo - meses, a menudo, no son todos los que se correlaciona con cada uno de los otros.

Si yo fuera teniendo en cuenta estos datos, aquí es lo que yo haría (y, de hecho, se han hecho con datos similares):

Crear un "tiempo" de la variable que se describe más exactamente como "Meses desde el 1/1/2000" si estoy echando un vistazo a sus datos correctamente. A continuación, me gustaría ejecutar un modelo lineal general en R utilizando la distribución de Poisson (o Binomial Negativa) y un registro de enlace con aproximadamente de la siguiente forma:

log(Counts) = b0 + b1*t + b2*(t^2) + b3*cos(2pi*w*t) + b4*sin(2pi*w*t)

Donde t es el tiempo descrito anteriormente, y w es 1/365 anual de la enfermedad, como la gripe. En general, sus 1/n, donde n es la longitud de su enfermedad del ciclo. No sé de improviso ¿qué es la TUBERCULOSIS.

Las dos tendencias en el tiempo le mostrará - exterior estacional normal de variación - si usted tiene variación significativa a lo largo del tiempo.

4voto

Usted puede considerar la aplicación de un Tukey gráfico de Control para los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X