20 votos

"Interés" de la función de StackExchange preguntas

Estoy tratando de armar una extracción de datos de paquete para StackExchange sitios y, en particular, yo estoy atrapado en el intento de determinar el "más interesantes" preguntas. Me gustaría usar la puntuación de la pregunta, pero eliminar el sesgo debido a la cantidad de puntos de vista, pero no sé cómo acercarse a este rigor.

En el mundo ideal, yo podría ordenar las preguntas mediante el cálculo de $\frac{v}{n}$ donde $v$ es el total de votos y $n$ es el número de puntos de vista. Después de todo lo que iba a medir el porcentaje de personas que upvote la pregunta, menos el porcentaje de personas que downvote la pregunta.

Por desgracia, la votación patrón es mucho más complicado. Votos tienden a "meseta" a un cierto nivel, y esto tiene el efecto de drásticamente subestimar muy popular en las preguntas. En la práctica, una pregunta con 1 vista y 1 upvote sería sin duda la puntuación y ser ordenados mayor que el de cualquier otra pregunta, con 10.000 puntos de vista, pero menos de 10.000 votos.

Actualmente estoy usando $\frac{v}{\log{n}+1}$ como una fórmula empírica, pero me gustaría ser más exactos. ¿Cómo puedo abordar este problema con rigurosidad matemática?

Con el fin de abordar algunos de los comentarios, voy a tratar de replantear el problema de una mejor manera:

Digamos que tengo una pregunta con $v_0$ de los votos totales y $n_0$ vistas. Me gustaría ser capaz de estimar lo votos total $v_1$ es más probable cuando las opiniones de llegar a $n_1$.

De esta manera yo podría simplemente elegir un valor nominal de $n_1$ y el fin de todo, la cuestión de acuerdo a la esperada $v_1$ total.


He creado dos consultas en la datadump para mostrar mejor el efecto de que estoy hablando:

Promedio de las Vistas de la Puntuación

Resultado:

Views by Score

Puntuación media de puntos de vista (100-vistas cubos)

Resultado:

Score by Views


Las dos fórmulas de comparación

Los resultados, no estoy seguro si la recta es mejor: ($\frac{v}{n}$ en azul, $\frac{v}{log{n}+1}$ en rojo)

Formulas

11voto

Laurent K Puntos 2064

Esta es mi teoría. Creo que hay dos tipos de preguntas: las que en su mayoría permanecen dentro de SÍ (que por lo general tienen menos puntos de vista), y aquellos que son vistos por los de afuera porque estaba vinculado de algún otro lugar (por lo general tienen más puntos de vista).

Para las preguntas que en su mayoría permanecen dentro de SÍ, los votos son una buena medida de preguntas interesantes. Este es el punto de votos.

Cuando una cuestión está vinculada a fuera del sitio de los votos dejar de significado como mucho. Algunos sitios vinculados pueden tener muy pocos SE miembros, otros pueden tener más. La varianza del número de votos para estas preguntas es probablemente alta (como se evidencia por su puntaje vs vista de la trama, donde el lado derecho de la curva de flores). Estas preguntas tendrán más opiniones y puntos de vista PUEDE ser un mejor indicador de preguntas interesantes. O preguntas que una comunidad más grande ocurrió para encontrar más interesante. Hay muchas variables en esta situación, y creo que valdría la pena tratar de encontrar más información para diferenciar estos casos. No SE dar a conocer la información de referencia?

0voto

dlinsin Puntos 5863

Uno podría definir una pregunta interesante como el que ha recibido comparativamente muchos votos, dado el número de puntos de vista. Para este fin, puede crear una línea de base de la curva que refleja el número esperado de votos dados los puntos de vista. Las curvas que atrajo a muchos más votos que la línea de base se considera especialmente interesante.

Para la construcción de la línea base, es posible que desee para calcular la mediana del número de votos por 100 de vista de reciclaje. Además, se podría calcular la mediana de la desviación absoluta (MAD) como un sólido medida por la desviación estándar por bin. Entonces, "interés" puede ser calculado como

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views) 

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X