53 votos

¿Tenemos un problema de "piedad upvotes"?

Yo sé que esto puede sonar como que es off-topic, pero me escuches.

En Stack Overflow y aquí tenemos los votos en los postes, todo esto se almacena en un formato tabular.

E. g.:

id del post de identificación del votante votar tipo datetime
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... y así sucesivamente. Votar tipo 2 es una upvote, votar el tipo 3 es un downvote. Usted puede consultar a un anónimos versión de este tipo de datos en http://data.stackexchange.com

Hay una percepción de que si el post llega a la puntuación de -1 o inferior es más probable que se upvoted. Esto puede ser simplemente sesgo de confirmación o puede estar arraigada en la realidad.

¿Cómo podemos analizar estos datos para confirmar o rechazar esta hipótesis? ¿Cómo podemos medir el efecto de este sesgo?

34voto

Eero Puntos 1612

Puede utilizar un modelo multi-estado o cadena de Markov (el paquete de msm en R es una manera de adaptarse a estos). Entonces podría mirar para ver si la probabilidad de transición de -1 a 0 es mayor que de 0 a 1, 1 y 2, etc.. También puedes mirar el tiempo medio a -1 en comparación con los otros para ver si es más corto.

13voto

David Pokluda Puntos 4284

Resumen de mi respuesta. Me gusta el de la cadena de Markov de modelado, pero se echa de menos el "temporal" de aspecto. En el otro extremo, centrándose en el aspecto temporal (por ejemplo, el tiempo promedio en $-1$) pierde la "transición" de aspecto. Me gustaría entrar en el siguiente generales de modelado (que con la adecuada asunción puede conducir a [proceso de markov][1]). También hay un montón de "censurado" estadística detrás de este problema (que sin duda es un problema clásico de la confiabilidad del Software ? ). La última ecuación de mi respuesta da el estimador de máxima verosimilitud de la votación de la intensidad (con "+" y el dow con "-") para un estado dado de voto. Como podemos ver en la ecuación, es un intermedio de la caja cuando sólo estimar la probabilidad de la transición y el caso cuando sólo medir el tiempo transcurrido en un estado determinado. Espero que esta ayuda.

General de Modelización (a reformular la pregunta y la hipótesis). Vamos $(VD_i)_{i\geq 1}$ y $(S_{i})_{i\geq 1}$ ser variables aleatorias modelado, respectivamente, el voto de las fechas y los asociados voto signo (+1 para upvote, -1 para downvote). El proceso de votación es simplemente

$$Y_{t}=Y^+_t-Y^-_t$$ donde

$$Y^+_t=\sum_{i=0}^{\infty}1_{VD_i\leq t,S_i=1} \;\text{ y } \;Y^-_t=\sum_{i=0}^{\infty}1_{VD_i\leq t,S_i=-1}$$

La cantidad importante aquí es la intentity de $\epsilon$-salto $$\lambda^{\epsilon}_t=\lim_{dt\rightarrow 0} \frac{1}{dt} P(Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1|\mathcal{F}_t) $$ donde $\epsilon$ puede $-$ o $+$ y $\mathcal{F}_t$ es una buena filtración, en los géneros caso, sin otros conocimientos que sería: $$\mathcal{F}_t=\sigma \left (Y^+_t,Y^-_t,VD_1,\dots,VD_{Y^+_t+Y^-_t},S_{1},\dots,S_{Y^+_t+Y^-_t} \right )$$.

pero a lo largo de las líneas de tu pregunta, creo que se supone implícitamente que $ P $ \left ( Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1 | \mathcal{F}_t \right )= P \left (Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1| Y_t \right ) $$ Esto significa que $\epsilon=+,-$ existe una secuencia determinista $(\mu^{\epsilon}_i)_{i\in \mathbb{Z}}$ tal que $\lambda^{\epsilon}_t=\mu^{\epsilon}_{Y_t}$.

Dentro de este formalismo, la pregunta puede ser reformulada como: "es probable que $ \mu^{+}_{-1} -\mu^{+}_{0}>0$" (o al menos es la diferencia mayor que un determinado umbral).

Bajo este supuesto, es fácil demostrar que $Y_t$ es un [homogéneo de markov del proceso][3] en $\mathbb{Z}$ con generador de $P$ dada por

$$\forall (i,j \in \mathbb{Z}\;\;\; Q_{i,i+1}=\mu^{+}_{i}\;\; Q_{i,i-1}=\mu^{-}_{i}\;\; Q_{ii}=1-(\mu^{+}_{i}+\mu^{-}_{i}) \;\; Q_{ij}=0 \text{ si } |i-j|>1$$

Respondiendo a la pregunta (a través de proponer una máxima verosimilitud estimatior para el problema estadístico) A partir de esta reformulación, la resolución del problema se realiza mediante la estimación de $(\mu^{+}_i)$ y la construcción de un test en sus valores. Volvamos a fijar y olvidar el $i$ índice sin pérdida de generalidad. Estimación de $\mu^+$ (e $\mu^-$) se puede hacer en la observación de

$(T^{1},\eta^1),\dots,(T^{p},\eta^p)$ donde $T^j$ son las longitudes de los $j^{th}$ de la $p$ períodos en el estado $i$ (es decir, las sucesivas veces con $Y_t=i$) y $\eta^j$ es $+1$ si la pregunta era upvoted, $-1$ si fue votada abajo y $0$ si fue el último estado de observación.

Si olvida el caso con el último estado de la observación, el mencionado parejas son iid a partir de una distribución que depende de $\mu_i^+$ y $\mu_i^-$: se distribuye como $(\min(Exp(\mu_i^+),Exp(\mu_i^-)),\eta)$ (donde Exp es un var aleatorio de una distribución exponencial y $\eta$ es + o -1 dependiendo de quién la realiza el máximo). A continuación, puede utilizar el siguiente lema (la prueba es sencilla):

Lema Si $X_+\leadsto Exp(\mu_+)$ y $X_{-} \leadsto Exp(\mu_ { -})$, $T=\min(X+,X-)\leadsto Exp(\mu_++\mu_-)$ y $P(X+1<X-)=\frac{\mu_+}{\mu_++\mu_-}$.

Esto implica que la densidad de $f(t,\epsilon)$ $(T,\eta)$ es dada por: $$ f(t,\epsilon)=g_{\mu_++\mu_-}\left ( \frac{1(\epsilon=+1)*\mu_++1(\epsilon=-1)*\mu_-}{\mu_++\mu_-}\right )$$ donde $g_a$ para $a>0$ es la función de densidad de una exponencial de la variable aleatoria con el parámetro $a$. A partir de esta expresión, es fácil derivar el estimador de máxima verosimilitud de $\mu_+$ y $\mu_-$:

$$(\hat{\mu}_+,\hat{\mu}_-)=argmin \ln (\mu_-+\mu_+)\left ( (\mu_-+\mu_+)\sum_{i=1}^p T^i+p\right )- p_-\ln\left (\mu_-\right ) -p_+ \ln \left (\mu_+\right )$$ donde $p_-=|{i:\delta_i=-1}|$ y $p_+=|{i:\delta_i=+1}|$.

Comentarios para obtener más avanzados enfoques

Si usted quiere tomar en cuenta los casos cuando $i$ es el último estado observado (sin duda más inteligente, porque cuando usted va a través de $-1$, a menudo, es su última puntuación...) tiene que modificar un poco el reasonning. La correspondiente censura es relativamente clásica...

Otras posibles approache puede incluir la posibilidad de

  • Tener una intensidad disminuye con el tiempo
  • Tener una intensidad disminuye con el tiempo pasó desde la última votación (yo prefiero esta. En este caso hay manera clásica de modelar cómo la densidad disminuye...
  • Puede que desee asumir que $\mu_i^+$ es una función suave de $i$
  • .... usted puede proponer otras ideas !

13voto

Eran Medan Puntos 193

Realizar un experimento. Al azar downvote la mitad de los nuevos puestos en un momento determinado todos los días.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X