Resumen de mi respuesta. Me gusta el de la cadena de Markov de modelado, pero se echa de menos el "temporal" de aspecto. En el otro extremo, centrándose en el aspecto temporal (por ejemplo, el tiempo promedio en $-1$) pierde la "transición" de aspecto. Me gustaría entrar en el siguiente generales de modelado (que con la adecuada asunción puede conducir a [proceso de markov][1]). También hay un montón de "censurado" estadística detrás de este problema (que sin duda es un problema clásico de la confiabilidad del Software ? ). La última ecuación de mi respuesta da el estimador de máxima verosimilitud de la votación de la intensidad (con "+" y el dow con "-") para un estado dado de voto. Como podemos ver en la ecuación, es un intermedio de la caja cuando sólo estimar la probabilidad de la transición y el caso cuando sólo medir el tiempo transcurrido en un estado determinado. Espero que esta ayuda.
General de Modelización (a reformular la pregunta y la hipótesis).
Vamos $(VD_i)_{i\geq 1}$ y $(S_{i})_{i\geq 1}$ ser variables aleatorias modelado, respectivamente, el voto de las fechas y los asociados voto signo (+1 para upvote, -1 para downvote). El proceso de votación es simplemente
$$Y_{t}=Y^+_t-Y^-_t$$ donde
$$Y^+_t=\sum_{i=0}^{\infty}1_{VD_i\leq t,S_i=1} \;\text{ y } \;Y^-_t=\sum_{i=0}^{\infty}1_{VD_i\leq t,S_i=-1}$$
La cantidad importante aquí es la intentity de $\epsilon$-salto
$$\lambda^{\epsilon}_t=\lim_{dt\rightarrow 0} \frac{1}{dt} P(Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1|\mathcal{F}_t) $$
donde $\epsilon$ puede $-$ o $+$ y $\mathcal{F}_t$ es una buena filtración, en los géneros caso, sin otros conocimientos que sería:
$$\mathcal{F}_t=\sigma \left (Y^+_t,Y^-_t,VD_1,\dots,VD_{Y^+_t+Y^-_t},S_{1},\dots,S_{Y^+_t+Y^-_t} \right )$$.
pero a lo largo de las líneas de tu pregunta, creo que se supone implícitamente que
$ P $ \left ( Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1 | \mathcal{F}_t \right )= P \left (Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1| Y_t \right ) $$
Esto significa que $\epsilon=+,-$ existe una secuencia determinista $(\mu^{\epsilon}_i)_{i\in \mathbb{Z}}$ tal que $\lambda^{\epsilon}_t=\mu^{\epsilon}_{Y_t}$.
Dentro de este formalismo, la pregunta puede ser reformulada como: "es probable que $ \mu^{+}_{-1} -\mu^{+}_{0}>0$" (o al menos es la diferencia mayor que un determinado umbral).
Bajo este supuesto, es fácil demostrar que $Y_t$ es un [homogéneo de markov del proceso][3] en $\mathbb{Z}$ con generador de $P$ dada por
$$\forall (i,j \in \mathbb{Z}\;\;\; Q_{i,i+1}=\mu^{+}_{i}\;\; Q_{i,i-1}=\mu^{-}_{i}\;\; Q_{ii}=1-(\mu^{+}_{i}+\mu^{-}_{i}) \;\; Q_{ij}=0 \text{ si } |i-j|>1$$
Respondiendo a la pregunta (a través de proponer una máxima verosimilitud estimatior para el problema estadístico)
A partir de esta reformulación, la resolución del problema se realiza mediante la estimación de $(\mu^{+}_i)$ y la construcción de un test en sus valores. Volvamos a fijar y olvidar el $i$ índice sin pérdida de generalidad. Estimación de $\mu^+$ (e $\mu^-$) se puede hacer en la observación de
$(T^{1},\eta^1),\dots,(T^{p},\eta^p)$ donde $T^j$ son las longitudes de los $j^{th}$ de la $p$ períodos en el estado $i$ (es decir, las sucesivas veces con $Y_t=i$) y $\eta^j$ es $+1$ si la pregunta era upvoted, $-1$ si fue votada abajo y $0$ si fue el último estado de observación.
Si olvida el caso con el último estado de la observación, el mencionado parejas son iid a partir de una distribución que depende de $\mu_i^+$ y $\mu_i^-$: se distribuye como $(\min(Exp(\mu_i^+),Exp(\mu_i^-)),\eta)$ (donde Exp es un var aleatorio de una distribución exponencial y $\eta$ es + o -1 dependiendo de quién la realiza el máximo).
A continuación, puede utilizar el siguiente lema (la prueba es sencilla):
Lema Si $X_+\leadsto Exp(\mu_+)$ y $X_{-} \leadsto Exp(\mu_ { -})$, $T=\min(X+,X-)\leadsto Exp(\mu_++\mu_-)$ y $P(X+1<X-)=\frac{\mu_+}{\mu_++\mu_-}$.
Esto implica que la densidad de $f(t,\epsilon)$ $(T,\eta)$ es dada por:
$$ f(t,\epsilon)=g_{\mu_++\mu_-}\left ( \frac{1(\epsilon=+1)*\mu_++1(\epsilon=-1)*\mu_-}{\mu_++\mu_-}\right )$$
donde $g_a$ para $a>0$ es la función de densidad de una exponencial de la variable aleatoria con el parámetro $a$. A partir de esta expresión, es fácil derivar el estimador de máxima verosimilitud de $\mu_+$ y $\mu_-$:
$$(\hat{\mu}_+,\hat{\mu}_-)=argmin \ln (\mu_-+\mu_+)\left ( (\mu_-+\mu_+)\sum_{i=1}^p T^i+p\right )- p_-\ln\left (\mu_-\right ) -p_+ \ln \left (\mu_+\right )$$
donde $p_-=|{i:\delta_i=-1}|$ y $p_+=|{i:\delta_i=+1}|$.
Comentarios para obtener más avanzados enfoques
Si usted quiere tomar en cuenta los casos cuando $i$ es el último estado observado (sin duda más inteligente, porque cuando usted va a través de $-1$, a menudo, es su última puntuación...) tiene que modificar un poco el reasonning. La correspondiente censura es relativamente clásica...
Otras posibles approache puede incluir la posibilidad de
- Tener una intensidad disminuye con el tiempo
- Tener una intensidad disminuye con el tiempo pasó desde la última votación (yo prefiero esta. En este caso hay manera clásica de modelar cómo la densidad disminuye...
- Puede que desee asumir que $\mu_i^+$ es una función suave de $i$
- .... usted puede proponer otras ideas !