32 votos

StackExchange incendios de un moderador, y ahora, en respuesta a cientos de moderadores renunciar: es el aumento de las renuncias estadísticamente significativa?

Estoy haciendo un estudio sobre StackExchange. La gestión de StackExchange ha demodded (por razones poco claras) un moderador, y ahora la red está en el fuego.

Actualmente, muchos de los moderadores renunciar o suspender sus actividades debido a que se encuentra satisfecho. Quiero recopilar y analizar datos acerca de estas renuncias. Me gustaría saber si hay un aumento o una disminución de la insatisfacción y si esto es estadísticamente significativo.

  • Qué tipo de prueba puedo hacer para averiguarlo? En particular, necesito un poco de orientación sobre cómo analizar/modelo/definir este aumento (el problema es que no tengo lineal simple el modelo que me puede caber para el momento de los acontecimientos, podría ser no lineal, entonces, ¿cómo lidiar con eso).
  • Estoy planeando utilizar esta petición carta y esta listade renuncias a la definición de eventos. ¿Cómo puedo combinar todo esto en un modelo único?

    Para los datos de sellos estoy pensando en usar los postes de meta-sitios en lugar de buscar en el texto.

    Los tipos de eventos deseo recoger porque posiblemente más datos me permiten tener más poder en mi prueba?

    Estoy pensando en crear algo así como una tabla en la que se ve como:

    Id     Moderator          Event-Type            Date-stamp       
    
    1      Monica Cellio      Fired                 Sep 27 
    2      Glen_b             diamond removed       Oct 9 at 0:53
    3      Gung               suspending activity   Oct 18 at 1:32
    4      whuber             weekly strike         Oct 18, 25, ...
    

    Idealmente, yo no estoy haciendo la tabla completa, porque eso es un montón de trabajo para los cientos de eventos, pero en lugar de hacer algo como un muestreo al azar (por ejemplo, cavar a través de mensajes como Gung s o GlenB del o comentarios como Whuber s). Así que esto debe ser una consideración para el modelo de prueba/que voy a aplicar.


Resultado parcial/trabajo

Basado en los comentarios que hicieron algunos de los primeros análisis de la petición de la carta de que los resultados en la siguiente imagen:

library(XML)
u <- 'https://dearstackexchange.com/'
html = htmlTreeParse(readLines(u), useInternal = TRUE)
dates = unlist(xpathApply(html, '//small', xmlValue))
dates <- text[-length(text)]  # remove final value
times <- 5+(as.numeric(strptime(dates, "%b %d")) - as.numeric(strptime("Oct 5", "%b %d")) )/24/3600
t <- table(times)
plot(t, xlab = "date (month October)", ylab = "number of signatures")

signatures as function of time

Vemos este pico de firmas en el 7 de octubre y, a continuación, una disminución. Esto no es ninguna sorpresa y se refiere a lo que gridAlien describe en su/su/su puesto como un intital de disparo. Pero todavía hay un número restante de las firmas hacia el final del mes. Este número es creciente o decreciente?

10voto

mnmakrets Puntos 121

Esta es una interesante investigación por el flash-pan naturaleza del evento. No es lo mismo como, por ejemplo, la instalación de una valla y tratando de ver si el número de intrusos se redujo. En ese caso, después de que la valla estaba instalado, podemos esperar ver un impacto permanente (si la hubo) en la tasa de intrusos.

En este caso, un montón de mods renunciar a/ser despedido/ser suspendida sobre el tema en un curso de un par de días, y luego la tasa de estos va a disminuir. Sólo hay tantas moderadores dispuestos a/obligados a hacer estas cosas, y una vez que lo hagan ellos se hace. Cabe esperar que la tasa de leavings a disminuir con el tiempo.

Gráficamente, se puede representar esto con un gráfico de líneas. Si se toma el número de moderadores de salir por el día y la gráfica, se esperaría ver relativamente consistente leavings hasta la cocción (vamos a llamarlo $D_0$) después de la cual se espera ver un aumento, y una caída de volver a la velocidad original.

Numéricamente, si usted quería mostrar que este aumento no está dentro de la variación normal del proceso, me gustaría probar para tratar esta casi como si se tratase de control de calidad. Tomar algunos datos de antes de $D_0$. Calcular una estimación de la media leavings por día, una estimación de la varianza y, a continuación, construir un intervalo de confianza para que decir en su nivel preferido de importancia. Si $D_0$ (y otros días en las secuelas) están fuera de este intervalo, entonces se puede concluir que estos puntos representan un cambio en el promedio de leavings por día.

De todos modos, ese es mi enfoque. Estoy seguro de que hay otros.

7voto

Aaron Puntos 36

El análisis que se propone suena interesante, pero el proceso de recolección de datos va a ser muy complicado. Hay un par de cuestiones que va a tener que lidiar con:

  1. Determinar el alcance de los eventos de interés: Idealmente, usted debe determinar el ámbito de los eventos de interés para usted (incluso sólo en un amplio sentido) antes de comenzar la recogida de los datos. Esto podría ser un amplio estipulación de todos los eventos con la participación intencional de la disminución en la actividad.

  2. Determinar el marco de muestreo y método de muestreo: Usted necesitará determinar su "marco de muestreo" para asegurarse de que tienes un buen método de muestreo. La forma más sencilla sería estipular algunas de usuario de criterios en un punto determinado en el tiempo (por ejemplo, todos los moderadores, todos los usuarios con 5000+ rep, etc.). Entonces, tendrá que decidir cómo va a muestra --- por ejemplo, el muestreo aleatorio simple o ponderado de muestreo (por ejemplo, por la reputación de usuario).

  3. Encontrar una línea de base para la comparación: Obviamente el otro elemento importante será obtener datos de línea de base sobre cómo los usuarios se comportan antes de que el problema surgió. Yo recomendaría que usted se examine cada uno de sus muestreados usuarios y obtener algunas de las métricas de sus actividades antes de que el escándalo (por ejemplo, la actividad sobre año anterior).

Puedo ofrecer una sugerencia para un simple análisis que se podría hacer con mucho menos esfuerzo en la recopilación de datos. Ahora, un gran número de usuarios que han convertido sus fotos a la "Reincorporar a Mónica" de la imagen, y muchos también han cambiado sus nombres de usuario. No debe ser demasiado onerosa para ir a través de las tablas de clasificación de cada sitio, y hacer una lista de todos los usuarios por encima de cierto nivel (por ejemplo, el top 10, 20, 50), y la lista si el usuario ha convertido su nombre y la insignia, y obtener una medida del nivel de actividad del usuario desde el inicio de escándalo. Entonces, usted puede hacer un "análisis de supervivencia" estimación de la tasa de conversión en los diferentes sitios. Por supuesto, esto sólo demuestra que hay algunos simbólico de solidaridad en la pantalla, pero sería un simple análisis de su propuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X