Mi lugar de trabajo tiene empleados de una gran variedad de disciplinas, por lo que generamos datos en muchas formas diferentes. Por ello, cada equipo ha desarrollado su propio sistema de almacenamiento de datos. Algunos utilizan bases de datos Access o SQL; otros equipos (para mi horror) dependen casi exclusivamente de hojas de cálculo Excel. A menudo, los formatos de los datos cambian de un proyecto a otro. En algunos casos, llamar a esto "sistema" es demasiado amable.
Los problemas que esto conlleva son que tengo que escribir un nuevo código para limpiar los datos de cada proyecto, lo cual es caro; las personas que editan manualmente las hojas de cálculo hacen que la reproducibilidad y la auditoría de los datos sean casi imposibles; y lo que es peor, existe la posibilidad de que los datos se pierdan o sean incorrectos.
Me han dado la oportunidad de discutir estos problemas con un miembro del consejo de administración de la empresa y tengo que pensar qué decirle. Creo que ya le he convencido de que tenemos un problema y de que si lo solucionamos conseguiremos mejorar la ciencia y ahorrar dinero. La cuestión es: ¿a qué deberíamos aspirar y cómo llegar a ello?
Más concretamente:
¿Cómo debemos almacenar los datos, de forma que nos permita seguirlos desde su creación hasta su publicación en un artículo? (¿Bases de datos almacenadas en un servidor central?)
¿Cómo se normalizan los formatos de las bases de datos?
¿Existen buenos recursos para educar a la gente sobre cómo cuidar los datos? (Por regla general, los higienistas ocupacionales y los ingenieros de explosivos no son aficionados a los datos; así que es preferible el contenido no técnico).