En el fin de entender plenamente mi respuesta y las referencias que voy a ofrecer, en primer lugar (de manera informal), introducir algunos conceptos relacionados con la biología de la mayoría de las técnicas que me voy a referir a se utilizan en biología computacional y por lo tanto la mayoría de la referencia que se va a encontrar va a asumir una familiaridad básica con los términos.
Un gen es una unidad de un organismo vivo que puede ser "expresa" cuando sea necesario, es decir, el gen que va a realizar la acción que se asocia con (a menudo mediante la codificación de las proteínas que representa lo que va a realizar la acción deseada). por ejemplo, una célula puede construir una variable cantidad de proteínas a partir de un gen que regulan su metabolismo.
Los biólogos están interesados en el seguimiento de estos genes y/o sus expresiones a través del tiempo o de la evolución.
En su caso, usted está interesado en la comprensión de cómo las acciones individuales de los usuarios (similar a un gen) se expresan a través de la actividad a lo largo del tiempo. Un usuario (similar a la del organismo) tiene diferentes acciones que puede realizar y estamos suponiendo que el tipo de usuario y su situación actual tiene algún tipo de correlación con las acciones que va a realizar.
Me gustaría considerar el mirar en dos o tres técnicas diferentes que están disponibles - biclustering (a veces de fila y columna de la agrupación, consulte la figura 1 en el enlace), y tal vez algún tipo de árbol de la evolución (que es tomado de este artículo) o un Modelo Oculto de Markov.
En el caso de biclustering, la idea es la siguiente, en lugar de los usuarios en un eje y las acciones en otro eje de la matriz. Los valores de esta matriz representan el número de acciones que dicho usuario ha hecho del tipo correspondiente. Reordenar los usuarios y las acciones de manera que los grupos de elementos similares cerca de 1, 2 y, a continuación, utilizar algún tipo de agrupación en clústeres para agrupar a los usuarios automáticamente (algunos de los algoritmos se puede encontrar aquí).
El resultado de biclustering es que puede agrupar a los usuarios en subgrupos e identificar sus características en términos de acciones. Tenga en cuenta que en este caso, sólo tendrá una "instantánea" de los usuarios y sus acciones - con el fin de comprender mejor las tendencias a través de la cual las acciones de los usuarios evolucionan, usted puede ser que necesite para llevar a cabo varias biclusters para diferentes escenarios. Quizás se podría crear biclusters para los usuarios que han pasado una determinada cantidad de tiempo de uso de Intercambio de la Pila (digamos 1 mes, 3 meses, 6 meses, 1 año) o a los usuarios que han sufrido un evento particular (es decir solo se han otorgado una insignia del día de ayer). Esto permitirá que usted para analizar las tendencias de la mejor - aunque las estadísticas exactas e interpretación debe ser correctamente interpretado.
Como @AndyW señaló en su vínculo con ¿Cómo puedo mejorar mi análisis de los efectos de la reputación de la votación? hay varios problemas que pueden surgir a partir de los datos. Falsedad, falta de datos, la inexactitud de los datos y una pequeña cantidad de datos, pero algunos de los problemas que pueden surgir. Baldi y Brunak explicar algunos de los problemas que se suelen encontrar en los datos encontrados en bases de datos biológicas. En particular, tenga en cuenta que no puede ser no trivial redundancias en los datos que usted puede ser que necesite para normalizar de alguna manera (por ejemplo, el mismo usuario en diferentes pila de foros de intercambio).
La técnica alternativa que podría sugerir es la base de la evolución de los árboles y/o Modelos de Markov (HMM) - he agrupado el debate sobre estas técnicas debido a que usted podría utilizar en una manera similar. En este caso, podríamos visualizar un punto de partida desde el que inicio de todos los usuarios y los usuarios de "evolucionar" o "cambio de estado", debido a diferentes fenómenos. Después de cada cambio de estado, que son propensos a realizar un volumen diferente y/o la proporción de las acciones.
El principal problema aquí será la creación de la taxonomía ideal o HMM topología. Si (tal vez a través de biclustering como arriba) podemos identificar cuatro diferentes tipos de usuario, el usuario tendrá que empezar por ser asignada a uno de estos estados y en cada uno de estos estatal se llevará a cabo un diferente volumen y la proporción de las acciones. A partir de este punto me voy a centrar en el uso de Hmm evolutivos como los árboles no están diseñadas para el modelo de ciclos o transferencias de un grupo a otro - lo que podría hacerlos más adecuados.
El trabajo a ser hecho en este caso es entrenar a los HMM a partir de los datos e identificar la probabilidad de un usuario es pasar de un estado a otro, en particular de un estado para el usuario inactivo estado final, donde un usuario ya no está activa. Esto le permitirá crear un modelo de comportamiento del usuario.
Ahora, una vez que tenga esta HMM capacitado, todo lo que necesita hacer es obtener la lista de acciones del usuario y de seguimiento de este usuario a través de la más probable ruta de acceso - mientras que en un estado particular de un usuario será considerado "de ese tipo".
HTH