6 votos

¿Cómo puedo saber si un subconjunto de pila intercambio usuarios aumentar o disminuir su tasa de correos basada en divisas ganado?

Estoy tratando de mina que de Intercambio de la Pila volcado de datos para averiguar si hay un grupo de usuarios que puede ser positiva o negativamente afectado por el número de insignias que ha sido galardonado. La teoría de la que estoy trabajando es que para algunas personas que estaban motivados por las insignias, que acaban por perder su atractivo y que deje de publicar.

En la actualidad, me he filtrado de los datos en crudo reducido a un conjunto de:

  • ID de usuario
  • Año y Mes
  • Las publicaciones realizadas durante ese mes
  • Total de insignias que el usuario ha ganado hasta ese mes

No estoy seguro de cómo proceder con el fin de encontrar a estos usuarios. Ni siquiera estoy seguro de cómo formular esta pregunta en algo que pueda tomar medidas. Si visualizo en mi cabeza, lo que estoy pensando es ver un gráfico de un eje x de insignias de ganado, un eje y de las publicaciones realizadas por mes, y luego ver la línea chapuzón después de un cierto número de insignias. Pero esto sólo funciona para cada nivel de usuario. Quiero encontrar el grupo de usuarios para los cuales el gráfico se mantenga.

Alguna idea?

Gracias!

5voto

ctcherry Puntos 15112

En el fin de entender plenamente mi respuesta y las referencias que voy a ofrecer, en primer lugar (de manera informal), introducir algunos conceptos relacionados con la biología de la mayoría de las técnicas que me voy a referir a se utilizan en biología computacional y por lo tanto la mayoría de la referencia que se va a encontrar va a asumir una familiaridad básica con los términos.

Un gen es una unidad de un organismo vivo que puede ser "expresa" cuando sea necesario, es decir, el gen que va a realizar la acción que se asocia con (a menudo mediante la codificación de las proteínas que representa lo que va a realizar la acción deseada). por ejemplo, una célula puede construir una variable cantidad de proteínas a partir de un gen que regulan su metabolismo.

Los biólogos están interesados en el seguimiento de estos genes y/o sus expresiones a través del tiempo o de la evolución.

En su caso, usted está interesado en la comprensión de cómo las acciones individuales de los usuarios (similar a un gen) se expresan a través de la actividad a lo largo del tiempo. Un usuario (similar a la del organismo) tiene diferentes acciones que puede realizar y estamos suponiendo que el tipo de usuario y su situación actual tiene algún tipo de correlación con las acciones que va a realizar.

Me gustaría considerar el mirar en dos o tres técnicas diferentes que están disponibles - biclustering (a veces de fila y columna de la agrupación, consulte la figura 1 en el enlace), y tal vez algún tipo de árbol de la evolución (que es tomado de este artículo) o un Modelo Oculto de Markov.


En el caso de biclustering, la idea es la siguiente, en lugar de los usuarios en un eje y las acciones en otro eje de la matriz. Los valores de esta matriz representan el número de acciones que dicho usuario ha hecho del tipo correspondiente. Reordenar los usuarios y las acciones de manera que los grupos de elementos similares cerca de 1, 2 y, a continuación, utilizar algún tipo de agrupación en clústeres para agrupar a los usuarios automáticamente (algunos de los algoritmos se puede encontrar aquí).

El resultado de biclustering es que puede agrupar a los usuarios en subgrupos e identificar sus características en términos de acciones. Tenga en cuenta que en este caso, sólo tendrá una "instantánea" de los usuarios y sus acciones - con el fin de comprender mejor las tendencias a través de la cual las acciones de los usuarios evolucionan, usted puede ser que necesite para llevar a cabo varias biclusters para diferentes escenarios. Quizás se podría crear biclusters para los usuarios que han pasado una determinada cantidad de tiempo de uso de Intercambio de la Pila (digamos 1 mes, 3 meses, 6 meses, 1 año) o a los usuarios que han sufrido un evento particular (es decir solo se han otorgado una insignia del día de ayer). Esto permitirá que usted para analizar las tendencias de la mejor - aunque las estadísticas exactas e interpretación debe ser correctamente interpretado.

Como @AndyW señaló en su vínculo con ¿Cómo puedo mejorar mi análisis de los efectos de la reputación de la votación? hay varios problemas que pueden surgir a partir de los datos. Falsedad, falta de datos, la inexactitud de los datos y una pequeña cantidad de datos, pero algunos de los problemas que pueden surgir. Baldi y Brunak explicar algunos de los problemas que se suelen encontrar en los datos encontrados en bases de datos biológicas. En particular, tenga en cuenta que no puede ser no trivial redundancias en los datos que usted puede ser que necesite para normalizar de alguna manera (por ejemplo, el mismo usuario en diferentes pila de foros de intercambio).


La técnica alternativa que podría sugerir es la base de la evolución de los árboles y/o Modelos de Markov (HMM) - he agrupado el debate sobre estas técnicas debido a que usted podría utilizar en una manera similar. En este caso, podríamos visualizar un punto de partida desde el que inicio de todos los usuarios y los usuarios de "evolucionar" o "cambio de estado", debido a diferentes fenómenos. Después de cada cambio de estado, que son propensos a realizar un volumen diferente y/o la proporción de las acciones.

El principal problema aquí será la creación de la taxonomía ideal o HMM topología. Si (tal vez a través de biclustering como arriba) podemos identificar cuatro diferentes tipos de usuario, el usuario tendrá que empezar por ser asignada a uno de estos estados y en cada uno de estos estatal se llevará a cabo un diferente volumen y la proporción de las acciones. A partir de este punto me voy a centrar en el uso de Hmm evolutivos como los árboles no están diseñadas para el modelo de ciclos o transferencias de un grupo a otro - lo que podría hacerlos más adecuados.

El trabajo a ser hecho en este caso es entrenar a los HMM a partir de los datos e identificar la probabilidad de un usuario es pasar de un estado a otro, en particular de un estado para el usuario inactivo estado final, donde un usuario ya no está activa. Esto le permitirá crear un modelo de comportamiento del usuario.

Ahora, una vez que tenga esta HMM capacitado, todo lo que necesita hacer es obtener la lista de acciones del usuario y de seguimiento de este usuario a través de la más probable ruta de acceso - mientras que en un estado particular de un usuario será considerado "de ese tipo".

HTH

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X