18 votos

Aseguramiento de la calidad y control de calidad (QA/QC) directrices para una base de datos

De fondo

Yo soy la supervisión de la entrada de datos de literatura primaria en una base de datos. El proceso de entrada de datos es propensa a errores, especialmente porque los usuarios deben interpretar el diseño experimental, extraer los datos de los gráficos y las tablas, y transformar los resultados a las unidades estándar.

Los datos son ingresados en una base de datos MySQL a través de una interfaz web. Más de 10k de puntos de datos de > 20 variables, > 100 especies, y > 500 citas se han incluido hasta la fecha. Necesito para ejecutar comprobaciones de la calidad no sólo de los datos de la variable, sino también los datos contenidos en las tablas de búsqueda, tales como las especies asociadas con cada punto de datos, la ubicación del estudio, etc.

La entrada de datos es continuo, por lo QA/QC se deben ejecutar de forma intermitente. Los datos no han sido revelada públicamente, pero estamos planeando lanzar en los próximos meses.

Actualmente, mi QA/QC implica tres pasos:

  1. un segundo usuario comprueba cada punto de datos,
  2. inspeccione visualmente el histograma de cada una de las variables para los valores atípicos
  3. los usuarios informan de datos cuestionable después de espurias que se obtienen los resultados

Preguntas

  1. Hay pautas que os pueden utilizar para el desarrollo de una sólida QA/QC procedimiento para esta base de datos?

  2. El primer paso es el que más tiempo; no hay nada que yo pueda hacer para que este sea más eficiente?

25voto

jldugger Puntos 7490

Esta respuesta se centra en la segunda pregunta, pero en el proceso de una respuesta parcial a la primera pregunta (directrices para un QA/QC procedimiento) surgirá.

Por mucho, lo mejor que puede hacer es controlar la calidad de los datos en el momento de la entrada se intenta. El usuario cheques e informes son de trabajo intensivo y así debe ser reservado para más adelante en el proceso, tan tarde como sea posible.

Aquí están algunos de los principios, directrices y sugerencias, derivado de la amplia experiencia (con el diseño y creación de bases de datos comparables y mucho más grande que el tuyo). No son reglas, usted no tiene que seguir para ser exitoso y eficiente; pero todos ellos están aquí por excelentes razones y usted debe pensar acerca de desviarse de ellos.

  1. Aparte de la entrada de datos de todos los intelectualmente exigentes actividades. No pregunte operadores de entrada de datos de forma simultánea a comprobar nada, contar nada, etc. Restringir su trabajo a la creación de un formato legible por computadora facsímil de la de datos, nada más. En particular, este principio implica que los formularios de entrada de datos debe reflejar el formato en el que originalmente la obtención de los datos, no el formato en el que va a almacenar los datos. Es relativamente fácil para transformar de un formato a otro más adelante, pero es un proceso propenso a errores para intentar la transformación sobre la marcha, mientras que la introducción de datos.

  2. Crear una pista de auditoría: cada vez que nada se hace a los datos, a partir de los datos de entrada de la etapa, este documento y registrar el procedimiento en una manera que hace que sea fácil volver atrás y comprobar lo que salió mal (porque las cosas van mal). Considere la posibilidad de llenar los campos para las marcas de tiempo, los identificadores de los operadores de entrada de datos, identificadores de las fuentes de los datos originales (tales como los informes y sus números de página), etc. El almacenamiento es barato, pero el tiempo para la pista de un error es caro.

  3. Automatizar todo. Asumir cualquier paso tendrá que ser hecho de nuevo (en el peor momento posible, de acuerdo a la Ley de Murphy), y planificar en consecuencia. No trate de ahorrar tiempo ahora de hacer un par de "simples pasos" con la mano.

  4. En particular, crear apoyo para la entrada de datos: hacer un front-end para cada tabla (incluso una hoja de cálculo puede hacer muy bien) que proporciona una forma clara, sencilla, de manera uniforme para obtener datos. Al mismo tiempo, el extremo delantero debe hacer valer sus "reglas de negocio:" es decir, se deben de realizar como muchos simples comprobaciones de validez, ya que puede. (E. g., el pH debe estar entre 0 y 14 años; cuenta debe ser positivo.) Lo ideal es usar un DBMS para hacer cumplir relacional comprobaciones de integridad (por ejemplo, todas las especies asociadas con una medida realmente existe en la base de datos).

  5. Constantemente cuentan las cosas y comprobar que cuenta exactamente de acuerdo. E. g., si un estudio se supone que debe medir atributos de 10 especies, asegúrese de que (tan pronto como la entrada de datos es completa) que 10 especies realmente se informó. Aunque la comprobación de la cuenta es simple y poco informativo, es ideal para la detección de duplicados y los datos omitidos.

  6. Si los datos son valiosos e importantes, considerar de forma independiente de doble entrando en el conjunto de datos completo. Esto significa que cada elemento será introducido en momentos separados por dos diferentes que no interactúan las personas. Esta es una gran manera de coger los errores tipográficos, falta de datos, y así sucesivamente. La verificación cruzada puede ser totalmente automatizado. Esto es más rápido, mejor en la captura de los errores, y más eficiente que el 100% manual de doble comprobación. (Los datos de entrada de "la gente" puede incluir dispositivos como escáneres con OCR.)

  7. El uso de un gestor de base de datos para almacenar y gestionar los datos. Las hojas de cálculo son grandes para apoyar la entrada de datos, sino de obtener los datos de las hojas de cálculo o archivos de texto y en una verdadera base de datos, tan pronto como sea posible. Esto evita todo tipo de insidioso errores mientras que la adición de gran cantidad de apoyo para automático comprobaciones de integridad de datos. Si es necesario, use su software de estadística para administración y almacenamiento de datos, pero en serio, considere el uso de un dedicado DBMS: va a hacer un mejor trabajo.

  8. Después de que todos los datos se escriben y se comprueba automáticamente, dibujar imágenes: hacer ordenados tablas, histogramas, diagramas de dispersión, etc., y mirar a todos ellos. Estos son fácilmente automatizadas con cualquiera de pleno derecho del paquete estadístico.

  9. No pido a la gente a hacer las tareas repetitivas de que el equipo puede hacer. El equipo es mucho más rápido y más fiable en estos. Conseguir en el hábito de la escritura (y documentación) poco scripts y programas pequeños a hacer cualquier tarea que no puede ser terminado inmediatamente. Estos pasarán a formar parte de su pista de auditoría y que va a permitir que el trabajo se pueden repetir fácilmente. El uso de cualquier plataforma esté cómodo y que es adecuado a la tarea. (A través de los años, dependiendo de lo que estaba disponible, he utilizado una amplia gama de plataformas de este tipo y todos han sido eficaces en su camino, que van desde C y Fortran a través de programas AWK y SED de secuencias de comandos, scripts VBA para Excel y Word, y la costumbre de los programas escritos para relacionales sistemas de bases de datos, SIG y análisis estadístico de plataformas como R y Stata.)

Si usted sigue la mayoría de estas directrices, aproximadamente el 50%-80% de la obra en la obtención de datos en la base de datos diseño de base de datos y escribir el apoyo de secuencias de comandos. No es extraño que para obtener un 90% a través de un proyecto de ese tipo y menos de 50%, y aún así terminar en el tiempo: una vez que todo está configurado y ha sido probado, la entrada de datos y la comprobación puede ser increíblemente eficiente.

3voto

Hertanto Lie Puntos 965

DataOne proporciona un útil conjunto de datos de las mejores prácticas de gestión que puede ser filtrado por la etiqueta. Las mejores prácticas de etiquetado con "calidad", que se encuentra en http://www.dataone.org/best-practices/quality, reiterando y ampliando en muchos de los puntos planteados por @whuber. Aquí está una lista de los temas tratados allí (en orden alfabético):

  • Comunicar la calidad de los datos
  • Confirmar una coincidencia entre los datos y su descripción en los metadatos
  • Considerar la compatibilidad de los datos que se están integrando
  • Desarrollar una garantía de calidad y plan de control de calidad
  • Compruebe los datos introducidos por usted
  • Asegurar el control de calidad básico
  • Garantizar la integridad y accesibilidad al realizar copias de seguridad de datos
  • Identificar los valores atípicos
  • Identificar los valores que se estiman
  • Proporcionar la información de la versión para el uso y descubrimiento

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X