43 votos

¿Cómo consigo que la gente cuide mejor los datos?

Mi lugar de trabajo tiene empleados de una gran variedad de disciplinas, por lo que generamos datos en muchas formas diferentes. Por ello, cada equipo ha desarrollado su propio sistema de almacenamiento de datos. Algunos utilizan bases de datos Access o SQL; otros equipos (para mi horror) dependen casi exclusivamente de hojas de cálculo Excel. A menudo, los formatos de los datos cambian de un proyecto a otro. En algunos casos, llamar a esto "sistema" es demasiado amable.

Los problemas que esto conlleva son que tengo que escribir un nuevo código para limpiar los datos de cada proyecto, lo cual es caro; las personas que editan manualmente las hojas de cálculo hacen que la reproducibilidad y la auditoría de los datos sean casi imposibles; y lo que es peor, existe la posibilidad de que los datos se pierdan o sean incorrectos.

Me han dado la oportunidad de discutir estos problemas con un miembro del consejo de administración de la empresa y tengo que pensar qué decirle. Creo que ya le he convencido de que tenemos un problema y de que si lo solucionamos conseguiremos mejorar la ciencia y ahorrar dinero. La cuestión es: ¿a qué deberíamos aspirar y cómo llegar a ello?

Más concretamente:

¿Cómo debemos almacenar los datos, de forma que nos permita seguirlos desde su creación hasta su publicación en un artículo? (¿Bases de datos almacenadas en un servidor central?)

¿Cómo se normalizan los formatos de las bases de datos?

¿Existen buenos recursos para educar a la gente sobre cómo cuidar los datos? (Por regla general, los higienistas ocupacionales y los ingenieros de explosivos no son aficionados a los datos; así que es preferible el contenido no técnico).

2voto

Judioo Puntos 625

Acabo de encontrar esta página web alojada en el ICPSR sobre planes de gestión de datos . Aunque creo que los objetivos del ICPSR serán algo diferentes a los de su empresa (por ejemplo, están muy interesados en que los datos puedan difundirse fácilmente sin violar la confidencialidad), imagino que tienen información útil para las empresas. En particular, los consejos sobre la creación de metadatos me parecen universales.

2voto

Scott Cowan Puntos 1564

En el caso de escalas mucho más pequeñas, experimenté el uso de Dropbox para compartir/sincronizar una copia de los archivos de datos (y guiones y resultados) con otros investigadores/colaboradores (escribí sobre ello aquí ).

La otra herramienta que he utilizado es google docs para recopilar y compartir datos (sobre la que escribió aquí )

0voto

Joseph Sturtevant Puntos 6597

Dropbox + rata de carga está bien para compartir archivos con copia de seguridad/versión.

A continuación, se cargan esos archivos (tras la canonización/masaje automatizado) en una base de datos y se realizan los análisis a partir de los datos depurados. Poner los scripts para automatizar el ciclo Extraer-Transformar-Cargar bajo el control de versiones (o al menos en una carpeta de dropbox separada con la opción packrat...).

Cuando el servidor de la base de datos se estropea (o necesita ser fragmentado o lo que sea), se tiene un proceso para mover los datos desde el punto de vista de las personas (Excel, formularios web, etc.) al punto de vista del análisis (normalmente normalizado y restringido, siempre limpiado).

Esa fase "E-T-L" es de almacenamiento de datos. Y si no está construyendo un sistema de procesamiento de transacciones en línea, probablemente esté construyendo un almacén de datos. Así que abrázalo y aprovecha lo que la gente ha aprendido construyendo esos durante los últimos 30 años.

Diviértete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X