En mis intentos de luchar contra el caos de las hojas de cálculo, a menudo soy evangélico en la promoción de herramientas más robustas, como el verdadero software estadístico (R, Stata y similares). Recientemente, alguien me desafió en este punto de vista al afirmar rotundamente que simplemente no va a aprender a programar. Me gustaría proporcionarles herramientas de análisis de datos que no requieran programación (pero que, idealmente, se extiendan a la programación si deciden sumergirse en el agua más adelante). ¿Qué paquetes existen para la exploración de datos que pueda recomendar sin temor a equivocarme?
Respuestas
¿Demasiados anuncios?Como dijo John, la exploración de datos no requiere mucha programación en R. Aquí hay una lista de comandos de exploración de datos que puedes dar a la gente. (Se me acaba de ocurrir; seguramente puedes ampliarla).
Exporta los datos desde cualquier paquete en el que se encuentre. (Es conveniente exportar los datos numéricos sin comillas.) A continuación, lea los datos en R.
ChickWeight=read.csv('chickweight.csv')
Haz una mesa.
table(ChickWeight$Diet)
Deja que R adivine qué tipo de gráfico darte. A veces funciona muy bien.
plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)
Un montón de funciones de trazado específicas funcionan de forma bastante sencilla en variables individuales.
hist(ChickWeight$weight)
Tomar subconjuntos
plot(subset(ChickWeight,Diet=='2'))
Sintaxis tipo SQL en caso de que la gente esté acostumbrada a eso (más aquí )
library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))
PCA (Por supuesto, tendría más de dos variables.)
princomp(~ ChickWeight$weight + ChickWeight$Time)
Esto es más un lamento que una respuesta...
El mejor software que he visto para esto es Arco que está construido sobre Xlisp-Stat. Es un software fantástico para la exploración de datos con muchos gráficos interactivos incorporados, así como muchas capacidades de inferencia estadística. En mi opinión, no hay nada que se acerque a su facilidad de uso para la exploración de datos y la capacidad de ampliarla con la programación Lisp. En mi opinión, la interactividad en R apenas está empezando a poder usarse de manera como Arc, diez largos años después. Y hasta donde yo sé, nadie ha utilizado todavía estas capacidades para construir una interfaz interactiva que se acerque a la utilidad de Arc.
Desgraciadamente, nunca se puso de moda, por lo que los desarrolladores han cambiado casi todos a trabajar en R; la última actualización fue en julio de 2004. Las versiones para PC y Linux/Unix siguen funcionando y puede valer la pena probarlas, dependiendo de tus necesidades; para los Mac la mejor opción es probar la versión Linux/Unix bajo X11, yo he conseguido que funcione en un par de sistemas de esa manera. La versión para Mac mencionada en el sitio sólo funciona en Macs "clásicos".
También mencionaré brevemente Mondrian que sólo he probado brevemente, pero parece tener una excelente interactividad gráfica para la exploración de datos, aunque (según recuerdo) no hay una manera fácil de ampliar las capacidades o hacer inferencia estadística.
Un nuevo sistema de software que parece prometedor para este propósito es Deducer Desgraciadamente, al ser nuevo, sospecho que aún no cubre la amplitud de las preguntas que la gente podría plantear, pero cumple con el criterio de llevar a la gente hacia un verdadero paquete si así lo deciden más adelante.
También he utilizado JMP en el pasado, que tenía una agradable interactividad. Me preocupa que parte de la interfaz sea demasiado complicada para estos fines. Y no es libre, lo que hace más difícil para los potenciales refugiados de la hoja de cálculo para probar en un capricho.
También hay Sonajero que parece algo prometedor.
Para la exploración de lo que contienen los datos y su limpieza el antiguo Google Refine, ahora Abrir el refinamiento , es una interfaz gráfica de usuario bastante buena. Es mucho más potente para la preparación y limpieza que algo como Excel. Luego cambie a algo como R-Commander para sus análisis.
Cualquiera que responda a R, o a cualquiera de sus "GUIs", no ha leído la pregunta.
Hay un programa específicamente diseñado para esto y se llama JMP. Sí, es caro, aunque tiene una prueba gratuita, y es increíblemente barato para estudiantes o personal universitario (como 50 dólares baratos).
También existe RapidMiner, que es una interfaz gráfica de usuario basada en el flujo de trabajo para la minería de datos y el análisis estadístico. Es gratuito y de código abierto.