7 votos

Predecir proporciones de tiempo con una discontinuidad

Imaginar

  • tener una variable dependiente $Y$ que es una proporción (es decir, la proporción de las observaciones hechas en el punto de tiempo dado que cumplir una condición, donde cada punto de tiempo consiste de 50 a 250 observaciones)
  • $Y$ se mide en una serie de tiempo de tiempo de los puntos de $X$ donde $X = 1, 2, 3, ...$, típicamente alrededor de 400.
  • En el momento inicial de puntos, $Y$ normalmente es igual a cero o cerca de cero
  • Después de un período prolongado de tiempo $Y$ normalmente es igual a uno, o cerca de uno
  • En algún punto entre los dos se produce una transición donde los valores de $Y$ de aumento
  • En todo hay un tiempo considerable de punto a punto de tiempo de variabilidad y dado que Y es una proporción, la distribución de los errores no es normal. Tenga en cuenta también que los valores de cero y uno son comunes.

Propiedades de los datos varían entre los estudios, tales como:

  • el valor inicial de $Y$
  • el punto en el tiempo cuando el valor de $Y$ comienza a aumentar
  • la duración de la transición de valores, principalmente alrededor de los 0 a principalmente alrededor de 1

Preguntas

  • ¿Cuál sería un buen enfoque de modelado para estos datos?
  • ¿Cómo podría el inicio de la transición desde valores cercanos a cero para valores cercanos a uno ser detectado, especialmente dada la no normalidad de los errores?

4voto

Danny Whitt Puntos 111

Suena a mí que Y(X) es un sigmiodal proceso. Así, la regresión logística debe ser adecuado para este tipo de datos. Si el modelo esta en R con:

glm(Y~X,family=binomial)

usted encontrará que la "nitidez" de la transición está determinado por la magnitud del coeficiente de la X, y el punto de transición (técnicamente el punto medio) está en la relación de interceptar al coeficiente de la X coeficiente de -1 veces. Hice una imagen para ilustrar esto, pero no parece subir por alguna razón.

3voto

palmsey Puntos 3799

Ignorando el "punto de cambio" tu descripción me sugiere una (no lineal) de efectos mixtos modelo de la siguiente forma:

g(E(Yi)) = Xi*beta + Zi*U

Donde Las betas son efectos fijos, la U son los efectos aleatorios, g(E(yi)) es el (logit) enlace a un binomio decir.

Esto se ocupan con logitudinal de correlación de los datos y la no-Guassian problemas de distribución.

Este debe estar junto con alguna forma de cambiar el modelo de punto, probablemente un Modelo Oculto de Markov (HMM).

http://en.wikipedia.org/wiki/Hidden_markov_model

Puede ser necesario ajustar el modelo como un Gráfico Acíclico Dirigido (DAG) en MCMC formato, o incluso especificar plenamente en un marco Bayesiano utilizando software como WinBUGS.

Ver:

http://en.wikipedia.org/wiki/Directed_Acyclic_Graph

http://en.wikipedia.org/wiki/MCMC

http://en.wikipedia.org/wiki/WinBUGS

2voto

jldugger Puntos 7490

James enfoque se ve bien: cada observación, de acuerdo a su descripción, podría tener una Binomial(n[i], p[i]) distribución donde n[i] es conocido y, para ser completamente general: p[i] es un completo desconocido de la función, que se eleva de cerca de 0 a cerca de 1 como i aumenta. Una regresión logística (GLM con el binomio de respuesta y logística link) contra X[i]==yo solo me como la variable explicativa podría incluso trabajar. Si se trata de un mal ajuste, usted puede introducir los términos adicionales, tales como los poderes superiores o (mejor aún, dado que el test no paramétrico de espíritu) splines. Esta facilidad permite la incorporación de cualquier covariables en el modelo.

En efecto, lo que parece ser un cambio brusco en la respuesta que realmente podría ser simplemente una natural lineal (o casi lineal) la progresión de logit(p) sobre el que se superpone un Binomio de la variabilidad. Es esta posibilidad que me lleva un poco lejos de la dirección indicada por el Thylacoleo, cuyo enfoque es claramente válido y que pueden ser eficaces. Sólo estoy sospechando (esperando?) que su situación podría ser susceptible de un poco más sencillo el análisis.

Un complicando la posibilidad refiere a la posible autocorrelación de las respuestas, sino que tendría que ser investigado sólo si la logística de los residuos mirada fuertemente de más o de menos dispersos.

Como una cuestión de EDA, usted podría suave sucesivas observaciones de una manera natural y de la trama de sus logits contra el yo. Por ejemplo, para suavizar las observaciones y[i] y[i+1] construiría (n[i]*y[i] + n[i+1]*y[i+1])/(n[i] + n[i+1]), de manera efectiva, la agrupación de dos sucesivos lotes; más suavizado de windows pueden ser construidos de la misma manera. (Esto automáticamente cancelar cualquier negativo a corto plazo correlación temporal, también.) El ajuste a la suave no sería del todo bien ... sería menos inclinada que la de ser pertinente, pero se podría sugerir opciones para la forma general de las covariables (es decir, las funciones de i) a utilizar en la regresión.

Este es, por supuesto, sólo uno de los muchos modelos posibles. Por ejemplo, las observaciones en cada punto de tiempo podría ser un binomio de la mezcla, lo que permitiría que tanto para la sobredispersión y otra manera de conseguir no lineal se ajusta a la escala logit.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X