En mis intentos de luchar contra el caos de las hojas de cálculo, a menudo soy evangélico en la promoción de herramientas más robustas, como el verdadero software estadístico (R, Stata y similares). Recientemente, alguien me desafió en este punto de vista al afirmar rotundamente que simplemente no va a aprender a programar. Me gustaría proporcionarles herramientas de análisis de datos que no requieran programación (pero que, idealmente, se extiendan a la programación si deciden sumergirse en el agua más adelante). ¿Qué paquetes existen para la exploración de datos que pueda recomendar sin temor a equivocarme?
Respuestas
¿Demasiados anuncios?Algunas personas piensan que programar es simplemente introducir una declaración en la línea de comandos. En ese caso, tal vez esté un poco perdido a la hora de animarles. Sin embargo, si ya utilizan hojas de cálculo, ya tienen que introducir fórmulas. Éstas son similares a las instrucciones de la línea de comandos. Si realmente quieren decir que no quieren hacer ninguna programación en el sentido de un análisis lógico y automatizado, entonces puede decirles que pueden hacer los análisis en R o Stata sin ninguna programación.
Si pueden hacer sus estadísticas en la hoja de cálculo... todo lo que quieran hacer... entonces todos los análisis estadísticos que deseen realizar pueden hacerse también sin "programar" en R o Stata. Podrían arreglar y organizar los datos en la hoja de cálculo y luego simplemente exportarlos como texto. Entonces el análisis se lleva a cabo sin ningún tipo de programación.
Así es como hago la introducción a R a veces. No es necesario programar para hacer el análisis de datos que podrías hacer en una hoja de cálculo.
Si consigues que se enganchen de esa manera, entonces simplemente enrolla el pez lentamente... :) En un par de años felicítalos por lo buenos programadores que se han convertido.
También es posible que quiera mostrar este documento a sus colegas o, al menos, léalo usted mismo para exponer mejor sus argumentos.
Voy a poner un lanzamiento aquí para JMP. Tengo un par de razones por las que es mi herramienta preferida de exploración de datos sin programación:
- Muy buenas herramientas de visualización. Para la mayoría de los gráficos básicos de tipo EDA, es tan bueno como R, y considerablemente más fácil de usar para producir algo que se acerque a un gráfico listo para la publicación. También tiene algunas herramientas de visualización extremadamente flexibles, por lo que puede girar y doblar sus datos para obtener la historia completa.
- Sorprendentemente potente. Me tomó hasta mi... cuarto año de la escuela de posgrado para encontrar algo que JMP no pudiera hacer desde el principio. Eso no es malo.
- Capacidad de escritura. Esto es algo importante para mí. La principal debilidad de los GUIs es que es muy difícil replicar lo que has hecho. JMP te permite script la GUI - y generar esos scripts es bastante fácil.
En lo que respecta al análisis exploratorio (posiblemente interactivo) de datos, le sugiero que eche un vistazo a
- Weka se dirige originalmente a aplicaciones de minería de datos, pero puede utilizarse para resúmenes de datos.
- Mondrian para la visualización interactiva de datos.
- KNIME que se basa en la idea de construir flujos de datos y es compatible con Weka y R.
Los tres aceptan datos en arff
o csv
formato.
En mi opinión, Stata no requiere tantos conocimientos de programación. Esto es incluso parte de su atractivo, de hecho: la mayor parte del análisis básico se puede hacer mediante acciones de usuario de apuntar y hacer clic, con cuadros de diálogo para personalizar parámetros específicos, por ejemplo, para la predicción en un modelo lineal. Lo mismo se aplica, aunque en menor medida, a R cuando se utilizan interfaces gráficas externas como Rcmdr , Deducer, etc. como dice @gsk3.
Programo en Python para el 95% de mi trabajo y el resto en R o MATLAB o IDL/PV-WAVE (y pronto SAS). Sin embargo, estoy en un entorno en el que el tiempo de obtención de resultados es a menudo un factor importante en el análisis elegido, por lo que a menudo utilizo también herramientas de apuntar y hacer clic. Según mi experiencia, no existe una única herramienta de interfaz gráfica de usuario robusta y flexible para realizar análisis, al igual que no existe un único lenguaje. Suelo reunir una colección de los siguientes programas gratuitos y comerciales
- Weka
- KNIME
- Excel y sus plugins (como Solver)
- Alteryx
- Estadísticas del MVP
No he utilizado JMP, Stata, Statistica, etc., pero me gustaría hacerlo.
El uso de estas herramientas implica el aprendizaje de diferentes interfaces gráficas de usuario y múltiples abstracciones de modelado, lo que es un dolor en el momento, pero me permite obtener resultados ad hoc más rápido después. Estoy en el mismo barco que el OP porque, aunque la mayoría de la gente con la que trabajo es realmente inteligente, no les interesa aprender un lenguaje, ni múltiples GUIs y terminología específica de la aplicación. Por lo tanto, me he resignado a aceptar que Excel impulsa el 90% de los análisis en el mundo empresarial. En consecuencia, estoy estudiando el uso de cosas como pyinex para permitirme proporcionar mejores análisis a la misma capa de presentación de Excel que la gran mayoría de mis colegas esperan.
ACTUALIZACIÓN: Siguiendo con el tema de modelar con programación pero hacer de Excel la capa de presentación, acabo de encontrarme con el sitio web de este tipo que ofrece gráficos al estilo de Tufte para incrustar en las celdas de Excel. Sencillamente impresionante y gratuito.
Puedo recomendar Tableau como una buena herramienta para la exploración y visualización de datos, simplemente por las diferentes formas en que se pueden explorar y ver los datos, simplemente arrastrando y soltando. Los gráficos son bastante nítidos y puedes pasarlos fácilmente a PDF para su presentación. Si quieres puedes ampliarlo con algo de "programación". Yo utilizo regularmente esta herramienta junto con "R" y SAS y todos funcionan bien juntos.
- Ver respuestas anteriores
- Ver más respuestas