Estoy haciendo un módulo de investigación para mi grado de la informática, y para mi tema, me han recogido más de 500.000 tweets usando el Streaming API de Twitter, usando un script en ruby para almacenarlos en una base de datos Mongo (HIJO/JSON). Empecé a grabar los tweets martes 7 de Febrero, y detuvo el martes siguiente, por lo que hay una semana de sus tweets.
Aquí es lo que la hoja de cálculo.
He exportado con éxito alrededor de 300.000 tweets a una hoja de cálculo de excel (puedo oír los gemidos ya).
Me gustaría hacer un poco de tiempo de la serie de gráficos, por ejemplo el volumen de tweets a lo largo del tiempo y, finalmente, incluir followers_count como ponderaciones. Pero estoy seguro de cómo iba a calcular esto. Yo creo que es necesario hacer que la columna created_at más significativo para el excel, pero su conversión a una fecha/hora se puede entender.
También he tenido un ir con Rapid miner y logró importar una hoja de cálculo y convertir el created_at
de campo en algo el programa puede entender, pero realmente no tienen idea de lo que estaba haciendo después de eso!
Agradecería algunos consejos de como estoy un poco pegado a la derecha ahora.