Estoy tratando de armar una extracción de datos de paquete para StackExchange sitios y, en particular, yo estoy atrapado en el intento de determinar el "más interesantes" preguntas. Me gustaría usar la puntuación de la pregunta, pero eliminar el sesgo debido a la cantidad de puntos de vista, pero no sé cómo acercarse a este rigor.
En el mundo ideal, yo podría ordenar las preguntas mediante el cálculo de $\frac{v}{n}$ donde $v$ es el total de votos y $n$ es el número de puntos de vista. Después de todo lo que iba a medir el porcentaje de personas que upvote la pregunta, menos el porcentaje de personas que downvote la pregunta.
Por desgracia, la votación patrón es mucho más complicado. Votos tienden a "meseta" a un cierto nivel, y esto tiene el efecto de drásticamente subestimar muy popular en las preguntas. En la práctica, una pregunta con 1 vista y 1 upvote sería sin duda la puntuación y ser ordenados mayor que el de cualquier otra pregunta, con 10.000 puntos de vista, pero menos de 10.000 votos.
Actualmente estoy usando $\frac{v}{\log{n}+1}$ como una fórmula empírica, pero me gustaría ser más exactos. ¿Cómo puedo abordar este problema con rigurosidad matemática?
Con el fin de abordar algunos de los comentarios, voy a tratar de replantear el problema de una mejor manera:
Digamos que tengo una pregunta con $v_0$ de los votos totales y $n_0$ vistas. Me gustaría ser capaz de estimar lo votos total $v_1$ es más probable cuando las opiniones de llegar a $n_1$.
De esta manera yo podría simplemente elegir un valor nominal de $n_1$ y el fin de todo, la cuestión de acuerdo a la esperada $v_1$ total.
He creado dos consultas en la datadump para mostrar mejor el efecto de que estoy hablando:
Promedio de las Vistas de la Puntuación
Resultado:
Puntuación media de puntos de vista (100-vistas cubos)
Resultado:
Las dos fórmulas de comparación
Los resultados, no estoy seguro si la recta es mejor: ($\frac{v}{n}$ en azul, $\frac{v}{log{n}+1}$ en rojo)