4 votos

El análisis de más de 300.000 filas en Excel para hacer bonito gráficos

Estoy haciendo un módulo de investigación para mi grado de la informática, y para mi tema, me han recogido más de 500.000 tweets usando el Streaming API de Twitter, usando un script en ruby para almacenarlos en una base de datos Mongo (HIJO/JSON). Empecé a grabar los tweets martes 7 de Febrero, y detuvo el martes siguiente, por lo que hay una semana de sus tweets.

Aquí es lo que la hoja de cálculo.

He exportado con éxito alrededor de 300.000 tweets a una hoja de cálculo de excel (puedo oír los gemidos ya).

Me gustaría hacer un poco de tiempo de la serie de gráficos, por ejemplo el volumen de tweets a lo largo del tiempo y, finalmente, incluir followers_count como ponderaciones. Pero estoy seguro de cómo iba a calcular esto. Yo creo que es necesario hacer que la columna created_at más significativo para el excel, pero su conversión a una fecha/hora se puede entender.

También he tenido un ir con Rapid miner y logró importar una hoja de cálculo y convertir el created_at de campo en algo el programa puede entender, pero realmente no tienen idea de lo que estaba haciendo después de eso!

Agradecería algunos consejos de como estoy un poco pegado a la derecha ahora.

9voto

alexp206 Puntos 899

Usted puede importar la hoja de cálculo en R.

A continuación, puede utilizar la función qplot, de la ggplot2 paquete. No se puede pedir mucho más fácil que eso.

4voto

Boris Tsirelson Puntos 191

Es absolutamente necesario para hacer esto en R. he Aquí por qué:

#Pull last 500 tweets for a given topic. Based on:
#http://blog.ouseful.info/2011/11/09/getting-started-with-twitter-analysis-in-r/
require(twitteR)
rdmTweets <- searchTwitter('#R ', n=500)
df <- do.call("rbind", lapply(rdmTweets, as.data.frame))
head(df)

#Calculate tweets per minute
library(data.table)
library(lubridate)
DT <- data.table(hour=hour(df$created), minute=minute(df$created), n=1)
DT <- DT[,list(n=sum(n)),by=c('hour', 'minute')]

#Plot 
library(ggplot2)
DT$time <- ISOdatetime(year(today()), month(today()), day(today()), DT$hour, DT$minute, 0)
p <- ggplot(DT, aes(time, n)) + geom_line()
print(p)

tweets

11 líneas de código para crear el tipo de maquina que usted desea. Si importar los datos directamente desde la hoja de cálculo, va a ser muy, muy fácil trabajar con ellos. data.table puede agregado resumen de las estadísticas de alrededor de 10 millones de tweets en mi laptop antes de que se ahoga, y escala hasta mucho más que eso en el mejor hardware.

0voto

JornC Puntos 81

whuber es correcto-en particular dada su experiencia en ciencias de la computación-pero ...

La función DATEVALUE va a convertir muchos tipos de cadenas de texto en Excel fecha numérica. De lo contrario, puede que tenga que jugar con la búsqueda y MEDIADOS de funciones para obtener las subcadenas que usted necesita. Definitivamente puedo ver que el ENCONTRAR y MEDIADOS de enfoque en el fragmento de código que se envía.

A continuación, su mejor apuesta es usar una tabla dinámica para organizar los datos en algunos significativos trozos de gráfico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X