15 votos

¿Cómo puedo mejorar mi análisis de los efectos de la reputación en el voto?

Recientemente había hecho un análisis de los efectos de la reputación en los upvotes (ver el blog-post ), y posteriormente tuve algunas preguntas sobre análisis y gráficos posiblemente más esclarecedores (o más apropiados).

Así que algunas preguntas (y siéntanse libres de responder a alguien en particular e ignorar a los demás):

  1. En su encarnación actual, no me refería a centrar el número de puesto. Creo que lo que esto hace es dar la falsa apariencia de una correlación negativa en el gráfico de dispersión, ya que hay más mensajes hacia el extremo inferior del número de mensajes (se ve que esto no sucede en el panel de Jon Skeet, sólo en el panel de usuarios mortales). ¿Es inapropiado no centrar el número de mensajes (ya que me refiero a centrar la puntuación media por usuario)?

  2. Debería ser obvio, a partir de los gráficos, que la puntuación está muy sesgada hacia la derecha (y el centrado de la media no cambió nada). Al ajustar una línea de regresión, ajusté tanto los modelos lineales como un modelo que utiliza los errores de Huber-White sandwhich (a través de rlm en el paquete MASS R ) y no supuso ninguna diferencia en las estimaciones de la pendiente. ¿Debería haber considerado una transformación de los datos en lugar de una regresión robusta? Tenga en cuenta que cualquier transformación tendría que tener en cuenta la posibilidad de 0 y las puntuaciones negativas. ¿O debería haber utilizado algún otro tipo de modelo para datos de recuento en lugar de MCO?

  3. Creo que los dos últimos gráficos, en general, podrían mejorarse (y está relacionado con la mejora de las estrategias de modelado también). En mi (harta) opinión, sospecharía que si los efectos de la reputación son reales, se darían a conocer bastante pronto en la historia de un cartel (supongo que si es cierto, estos pueden ser reconsiderados "diste algunas respuestas excelentes, así que ahora voy a upvote todos tus mensajes" en lugar de los efectos de "reputación por puntuación total"). ¿Cómo puedo crear un gráfico que demuestre si esto es cierto, teniendo en cuenta el exceso de puntuación? He pensado que una buena manera de demostrarlo sería ajustando un modelo de la forma

$$Y = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon $$

donde $Y$ es el score - (mean score per user) (la misma que aparece en los gráficos de dispersión actuales), $X_1$ es el post number y el $Z_1 \cdots Z_k$ son variables ficticias que representan algún rango arbitrario de números de puesto (por ejemplo $Z_1$ es igual a 1 si el número de puesto es 1 through 25 , $Z_2$ es igual a 1 si el número de puesto es 26 through 50 etc.). $\beta_0$ y $\epsilon$ son el gran intercepto y el término de error, respectivamente. Entonces sólo examinaría la estimación de $\gamma$ pendientes para determinar si los efectos de la reputación aparecieron al principio del historial de un cartel (o mostrarlos gráficamente). ¿Es este un enfoque razonable (y apropiado)?

Parece popular ajustar algún tipo de línea de suavización no paramétrica a gráficos de dispersión como estos (como loess o splines), pero mi experimentación con splines no reveló nada esclarecedor (cualquier evidencia de efectos positivos al principio de la historia del póster fue leve y temperamental al número de splines que incluí). Dado que tengo la hipótesis de que los efectos se producen al principio, ¿es mi enfoque de modelización anterior más razonable que los splines?

También hay que tener en cuenta que, aunque he extraído prácticamente todos estos datos, todavía hay muchas otras comunidades que examinar (y algunas, como superuser y serverfault, tienen muestras igualmente grandes de las que sacar provecho), por lo que es muy razonable sugerir en futuros análisis que utilice una muestra retenida para examinar cualquier relación.

14voto

jldugger Puntos 7490

Es un intento valiente, pero sólo con estos datos, será difícil o imposible responder a su pregunta de investigación sobre el "efecto de la reputación en los upvotes". El problema radica en separar los efectos de otros fenómenos, que enumero junto con breves indicaciones de cómo podrían abordarse.

  • Efectos del aprendizaje . A medida que aumenta la reputación, aumenta la experiencia; a medida que aumenta la experiencia, esperamos que una persona publique mejores preguntas y respuestas; a medida que mejora su calidad, esperamos más votos por publicación. Es concebible, una forma de manejar esto en un análisis sería identificar a las personas que están activas en más de un sitio SE . En un sitio determinado, su reputación aumentaría más lentamente que la cantidad de su experiencia, proporcionando así un asidero para separar los efectos de la reputación y el aprendizaje.

  • Cambios temporales en el contexto. Son innumerables, pero las más obvias son

    • Cambios en el número de votantes a lo largo del tiempo La tendencia general es al alza, las tendencias estacionales (a menudo asociadas a los ciclos académicos) y los valores atípicos (derivados de la publicidad externa, como los enlaces a hilos específicos). Cualquier análisis tendría que tener en cuenta este factor a la hora de evaluar las tendencias de la reputación de cualquier individuo .

    • Cambios en las costumbres de una comunidad a lo largo del tiempo . Las comunidades, y cómo interactúan, evolucionan y se desarrollan. Con el tiempo pueden tender a votar más o menos a menudo. Cualquier análisis tendría que evaluar este efecto y tenerlo en cuenta .

    • El tiempo mismo. A medida que pasa el tiempo, los mensajes anteriores siguen estando disponibles para su búsqueda y continúan acumulando votos. Así, caeteris paribus , más antiguo Los puestos más antiguos deberían producir más votos que los más nuevos. (Esto es una fuerte efecto: algunas personas que ocupan sistemáticamente los primeros puestos en las ligas de reputación mensual no han visitado este sitio en todo el año) Esto enmascararía o incluso invertiría cualquier efecto positivo real de la reputación. Cualquier análisis debe tener en cuenta el tiempo que cada puesto ha estado presente en el sitio .

  • La popularidad del sujeto. Algunas etiquetas (por ejemplo r ) son mucho más populares que otros. Así, los cambios en el tipo de preguntas que responde una persona pueden confundirse con los cambios temporales, como un efecto de reputación. Por lo tanto, cualquier análisis debe tener en cuenta la naturaleza de las preguntas a las que se responde.

  • Vistas [añadido como edición]. Las preguntas son vistas por un número diferente de personas por diversas razones (filtros, enlaces, etc.). Es posible que el número de votos recibidos por las respuestas esté relacionado con el número de vistas, aunque cabría esperar una proporción decreciente a medida que aumenta el número de vistas. (Es una cuestión de cuántas personas realmente interesadas en la pregunta la ven, no el número en bruto. Mi propia experiencia -anecdótica- es que aproximadamente la mitad de los upvotes que recibo en muchas preguntas se producen en las primeras 5-15 visualizaciones, aunque finalmente las preguntas son vistas cientos de veces). Por lo tanto, cualquier análisis debe tener en cuenta el número de visitas, pero probablemente no de forma lineal.

  • Dificultades de medición. "Reputación" es la suma de los votos recibidos por diferentes actividades: reputación inicial, respuestas, preguntas, aprobación de preguntas, edición de wikis de etiquetas, downvoting, y ser downvoted (en orden descendente de valor). Porque estos componentes valoran cosas diferentes, y no todos están bajo el control de los votantes de la comunidad, deben separarse para su análisis . Un "efecto de reputación" se asocia presumiblemente a los upvotes en las respuestas y, quizás, en las preguntas, pero no debería afectar a otras fuentes de reputación. La reputación inicial definitivamente debería restarse (pero tal vez podría usarse como un sustituto de alguna cantidad inicial de experiencia).

  • Factores ocultos. Puede haber muchos otros factores de confusión que son imposibles de medir. Por ejemplo, hay varias formas de "agotamiento" en la participación en foros. ¿Qué hace la gente después de unas primeras semanas, meses o años de entusiasmo? Algunas posibilidades son centrarse en las preguntas raras, inusuales o difíciles; dar respuestas sólo a las preguntas sin respuesta; dar menos respuestas pero de mayor calidad; etc. Algunas de ellas podrían enmascarar un efecto de reputación, mientras que otras podrían confundirse erróneamente con uno. Un indicador de estos factores podría ser la evolución de los índices de participación de un individuo podrían señalar cambios en la naturaleza de los puestos de esa persona.

  • Fenómenos subcomunitarios. Si se observan las estadísticas, incluso en páginas de SE muy activas, se observa que un número relativamente pequeño de personas realiza la mayor parte de las respuestas y votaciones. Una camarilla tan pequeña como dos o tres personas puede tener una profunda influencia en el crecimiento de la reputación. Una camarilla de dos personas será detectada por los monitores incorporados al sitio (y uno de estos grupos existe en este sitio), pero las camarillas más grandes probablemente no lo serán. (No me refiero a la colusión formal: las personas pueden ser miembros de tales camarillas sin siquiera ser conscientes de ello). ¿Cómo podríamos separar un aparente efecto de reputación de las actividades de estas camarillas informales invisibles y no detectadas? Los datos detallados de las votaciones podrían utilizarse para el diagnóstico, pero no creo que tengamos acceso a estos datos.

  • Datos limitados. Para detectar un efecto de reputación, es probable que tenga que centrarse en personas con docenas o cientos de publicaciones (como mínimo). Eso reduce la población actual a menos de 50 individuos. Con toda la posibilidad de variación y confusión, esto es demasiado pequeño para detectar efectos significativos a menos que sean muy fuertes. El remedio es aumentar el conjunto de datos con registros de otros sitios SE .

Teniendo en cuenta todas estas complicaciones, debe quedar claro que los gráficos exploratorios del artículo del blog tienen pocas posibilidades de revelar algo, a menos que sea evidente. Nada salta a la vista: como era de esperar, los datos son desordenados y complicados. Es prematuro recomendar mejoras en los gráficos o en el análisis que se ha presentado: Los cambios graduales y los análisis adicionales no servirán de nada hasta que se aborden estas cuestiones fundamentales .

6voto

Nikos Alexandris Puntos 764

Vaya. (Y lo digo en el buen sentido ;-)) Antes de seguir adelante con los modelos, hay que abordar lo que ocurre con los datos.

No veo una explicación para la curva tan peculiar en el centro de esta parcela: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Ver esa curva me hace pensar que hay algo muy raro en esos puntos: que no son independientes entre sí y que, en cambio, reflejan alguna secuencia de observaciones de la misma fuente.

(Nota menor: titular esa trama "Correlación..." es engañoso).

5voto

StasK Puntos 19497

Los econometristas han estudiado cuestiones similares en el marco de Causalidad de Granger . Si tiene dos series, $Y_t$ y $Z_t$ puede ejecutar modelos autorregresivos vectoriales que en la forma más simple con un solo retardo se ven como $Y_t = a_0 + a_1 Y_{t-1} + a_2 Z_{t-1} + \epsilon_t$ , $Z_t = b_0 + b_1 Y_{t-1} + b_2 Z_{t-1} + \delta_t$ . Si ves que dices $a_2$ es significativo, entonces se puede afirmar que $Z$ (Granger-)causa $Y$ : añadiendo información sobre $Z$ mejora la precisión de su modelo para $Y$ . Aquí, su tiempo $t$ sería el número de puesto, y las variables son obviamente la reputación y la puntuación. Ambas son no estacionarias, así que una manipulación más seria de los datos, como tomar los incrementos $\Delta Y_t = Y_t - Y_{t-1}$ en lugar de $Y_t$ en las ecuaciones anteriores. (Tenga en cuenta que puede perder la normalidad y la $F$ o $\chi^2$ distribuciones con datos no estacionarios, y la tasa de convergencia con variables de tendencia, si se incluyen en el análisis, puede ser $T^{-1}$ o incluso más rápido, en lugar de $T^{-1/2}$ que la mayoría de nosotros estamos acostumbrados al Teorema Central del Límite. Hay que tener mucho cuidado con esto). Así que supongo que si $Y_t$ es la puntuación de la respuesta, y $Z_t$ es la reputación, entonces claramente $a_0$ es la puntuación media, $a_1$ es como la persona aprende a escribir mejores respuestas, y $a_2$ es cómo su reputación precede a su palabra (siempre que se cumplan los supuestos del modelo, etc.)

En cuanto al punto 1: si estaba haciendo efectos fijos a mano, debería haber centrado tanto la variable de respuesta como las variables explicativas. El paquete de regresión de datos de panel lo habría hecho por usted, pero la forma econométrica oficial de ver las cosas es restar la regresión "entre" de la regresión "agrupada" (véase El libro negro de Wooldridge No he revisado la segunda edición, pero en general considero que la primera edición es la mejor descripción tipo libro de texto de los datos de panel econométricos).

En cuanto a su punto 2: por supuesto, los errores estándar de Eicker/White no afectarán a sus estimaciones puntuales; si lo hicieran, eso indicaría una implementación incorrecta. En el contexto de las series temporales, un estimador aún más apropiado es el debido a Newey y West (1987) . Probar las transformaciones puede ayudar. Personalmente soy un gran fan del Transformación Box-Cox Pero en el contexto del análisis que estás realizando, es difícil hacerlo de forma limpia. En primer lugar, se necesitaría un parámetro de desplazamiento sobre el parámetro de forma, y los parámetros de desplazamiento son notoriamente difíciles de identificar en modelos como éste. En segundo lugar, probablemente se necesitarían diferentes parámetros de desplazamiento/forma para diferentes personas, y/o diferentes puestos, y/o... (todo el infierno se desata). Los datos de recuento también son una opción, pero en el contexto de la modelización de la media, una regresión de Poisson es tan buena como la transformación logarítmica, aunque impone una suposición poco manejable de varianza = media.

P.D. Probablemente podría etiquetar esto con "datos longitudinales" y "series temporales".

3voto

Nikos Alexandris Puntos 764

Otros cambios en las parcelas:

  1. Bandas de cuantiles para la puntuación de la respuesta frente a la reputación anterior. (Gráficos 1 y 3)
  2. Gráficos de densidad para Skeet versus otros, estratificados por número de puesto (Gráfico 3)
  3. Considere la posibilidad de estratificar por el número de puestos en competencia
  4. Estratificar por tiempo (se puede seguir ganando puntos mucho tiempo después de la pregunta)

Modelar esto será más difícil. Podría considerar la regresión de Poisson. Sin embargo, francamente, el desarrollo de buenos gráficos es un método mucho mejor para desarrollar conocimientos y habilidades. Comienza a modelar cuando tengas una mejor comprensión de los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X