En mis intentos de luchar contra el caos de las hojas de cálculo, a menudo soy evangélico en la promoción de herramientas más robustas, como el verdadero software estadístico (R, Stata y similares). Recientemente, alguien me desafió en este punto de vista al afirmar rotundamente que simplemente no va a aprender a programar. Me gustaría proporcionarles herramientas de análisis de datos que no requieran programación (pero que, idealmente, se extiendan a la programación si deciden sumergirse en el agua más adelante). ¿Qué paquetes existen para la exploración de datos que pueda recomendar sin temor a equivocarme?
Respuestas
¿Demasiados anuncios?Pues bien, esta herramienta en concreto es muy popular en mi sector (aunque no es específica del sector por su diseño): http://www.umetrics.com/simca
Permite realizar análisis multivariantes de tipo variable latente (PCA y PLS), e incluye todos los gráficos / cálculos interpretativos y herramientas de interrogación que los acompañan, como los gráficos de contribución, los gráficos de importancia de las variables, los cálculos de Q2, etc.
A menudo se utiliza en conjuntos de datos industriales de alta dimensión (y a menudo muy correlacionados/colineales) en los que los métodos de tipo OLS/MLR no son adecuados (por ejemplo, información de un montón de sensores, información de registro, etc.).
Funciona en un entorno totalmente GUI, y el usuario no tiene que escribir ni una sola línea de código. Por desgracia, no es gratuito y no puede ampliarse mediante programación.
En mi opinión, si no codificas tú mismo la prueba, eres propenso a cometer errores y a malinterpretar los resultados.
Creo que deberías recomendarles que contraten a un estadístico que tenga conocimientos de informática.
Si se trata de hacer siempre lo mismo, entonces sí se puede utilizar una pequeña herramienta (caja negra) que haga las cosas. Pero no estoy seguro de que esto se siga llamando exploración de datos.
Yo recomendaría el paquete R de John Fox llamado R commander:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Crea una interfaz de usuario similar a la de SPSS (o similares) que es ideal para los principiantes y no requiere que el usuario introduzca ningún código. Todo se hace a través de cuadros desplegables (incluso se puede minimizar la consola de R mientras se trabaja).
Para mí, la ventaja de este paquete es que se puede aprovechar toda la gran capacidad de cálculo de R al tiempo que se dispone de una interfaz de usuario completamente operativa para los principiantes.
Otra herramienta útil, aunque sólo para Windows, es Spotfire -- Me ha resultado bastante útil para ver rápidamente varios histogramas y gráficos de dispersión para variables individuales y pares de variables. Una herramienta de investigación que le ayuda a clasificar variables individuales así como pares basados en estadísticas simples -- Explorador de agrupaciones jerárquicas de HCIL. Es bueno para encontrar las variables/pares de variables más interesantes.
- Ver respuestas anteriores
- Ver más respuestas