Subrayo todas las respuestas ya dadas, pero llamemos al gato gato: en muchos espacios de trabajo es casi imposible convencer a la dirección de que la inversión en herramientas de software "exóticas" (exóticas para ellos, es decir) es necesaria, por no hablar de la contratación de alguien que pueda configurarlo y mantenerlo. He dicho a bastantes clientes que se beneficiarían enormemente de la contratación de un estadístico con una amplia experiencia en software y bases de datos, pero la respuesta general es "no se puede".
Así que mientras eso no ocurra, hay algunas cosas sencillas que puedes hacer con Excel que te facilitarán la vida. Y la primera de ellas es, sin duda, el control de versiones. Puedes encontrar más información sobre el control de versiones con Excel aquí .
Algunas cosas sobre el uso de Excel
A la gente que utiliza EXCEL le suelen gustar las funciones de las fórmulas de EXCEL. Sin embargo, esta es la fuente más importante de errores dentro de las hojas de EXCEL, y de problemas al tratar de leer en los archivos de EXCEL hasta donde llega mi experiencia. Me niego a trabajar con hojas que contengan fórmulas.
También obligo a todas las personas con las que trabajo a entregar las hojas de EXCEL en un formato sencillo, es decir, que:
- La primera fila contiene los nombres de las diferentes variables
- La hoja de cálculo comienza en la celda A1
- Todos los datos se colocan en columnas, sin interrupciones y sin formato.
- Si es posible, los datos se guardan también en formato .csv. No es difícil escribir un script VBA que extraiga los datos, los reformatee y los ponga en un archivo .csv. Esto también permite un mejor control de las versiones, ya que puedes hacer un volcado de los datos en .csv cada día.
Si hay una estructura general que los datos siempre tienen, entonces podría ser bueno desarrollar una plantilla con macros VB subyacentes para añadir datos y generar el conjunto de datos para el análisis. Esto, en general, evitará que cada empleado venga con su propio sistema "genial" de almacenamiento de datos, y le permite escribir su código en función de éste.
Dicho esto, si puedes convencer a todo el mundo de que use SQL (y un front-end para introducir datos), puedes vincular R directamente a ese. Esto aumentará en gran medida el rendimiento.
Estructura y gestión de datos
Como regla general, los datos almacenados en las bases de datos (o en las hojas de EXCEL, si insisten) deben ser los mínimos imprescindibles, lo que significa que cualquier variable que pueda ser calculada a partir de otras variables no debe estar contenida en la base de datos. Eso sí, a veces puede ser beneficioso almacenar también esas variables derivadas o transformadas, si los cálculos son tediosos y llevan mucho tiempo. Pero estas deben ser almacenadas en una base de datos separada, si es necesario vinculada a la original.
También hay que pensar en lo que se considera un caso (y, por tanto, una fila). Como ejemplo, la gente tiende a producir series de tiempo haciendo una nueva variable para cada punto de tiempo. Si bien esto tiene sentido en un EXCEL, la lectura de estos datos exige que se dé la vuelta a la matriz de datos. Lo mismo ocurre con la comparación de grupos: Debería haber un indicador de grupo y una variable de respuesta, no una variable de respuesta para cada grupo. De esta manera, las estructuras de datos también pueden ser estandarizadas.
Una última cosa que me encuentro con frecuencia es el uso de diferentes métricas. Las longitudes se dan en metros o centímetros, las temperaturas en Celcius, Kelvin o Farenheit, ... Hay que indicar en cualquier frontal o en cualquier plantilla cuál es la unidad en la que se mide la variable.
E incluso después de todas estas cosas, todavía se quiere tener un paso de control de los datos antes de empezar realmente con el análisis. Una vez más, puede tratarse de cualquier script que se ejecute diariamente (por ejemplo, durante la noche) en las nuevas entradas, y que señale los problemas inmediatamente (fuera de rango, tipo incorrecto, campos que faltan, ...) para que puedan ser corregidos lo más rápidamente posible. Si tienes que volver a una entrada que se hizo hace 2 meses para averiguar qué es lo que está mal y por qué, será mejor que adquieras algunas buenas "habilidades de Sherlock" para corregirlo.
mis dos centavos