De fondo
Yo soy la supervisión de la entrada de datos de literatura primaria en una base de datos. El proceso de entrada de datos es propensa a errores, especialmente porque los usuarios deben interpretar el diseño experimental, extraer los datos de los gráficos y las tablas, y transformar los resultados a las unidades estándar.
Los datos son ingresados en una base de datos MySQL a través de una interfaz web. Más de 10k de puntos de datos de > 20 variables, > 100 especies, y > 500 citas se han incluido hasta la fecha. Necesito para ejecutar comprobaciones de la calidad no sólo de los datos de la variable, sino también los datos contenidos en las tablas de búsqueda, tales como las especies asociadas con cada punto de datos, la ubicación del estudio, etc.
La entrada de datos es continuo, por lo QA/QC se deben ejecutar de forma intermitente. Los datos no han sido revelada públicamente, pero estamos planeando lanzar en los próximos meses.
Actualmente, mi QA/QC implica tres pasos:
- un segundo usuario comprueba cada punto de datos,
- inspeccione visualmente el histograma de cada una de las variables para los valores atípicos
- los usuarios informan de datos cuestionable después de espurias que se obtienen los resultados
Preguntas
Hay pautas que os pueden utilizar para el desarrollo de una sólida QA/QC procedimiento para esta base de datos?
El primer paso es el que más tiempo; no hay nada que yo pueda hacer para que este sea más eficiente?