10 votos

Son datos control de errores ya 'precio' a análisis estadístico?

Ok, feria de advertencia-esta es una pregunta filosófica que no implica números. He estado pensando mucho acerca de cómo aparecer errores en los conjuntos de datos a lo largo del tiempo y cómo es que deben ser tratados por los analistas (o si lo que realmente debería importar en absoluto?

Para el fondo, estoy haciendo el análisis en un estudio a largo plazo que involucra a muchos conjuntos de datos recopilados probablemente por 25 personas de más de 7-8 años, nadie ha tenido todos los datos en una estructura coherente (es mi trabajo). He estado haciendo un montón de datos de entrada (la transcripción a partir de fotocopias de los viejos cuadernos de laboratorio) y sigo encontrando pequeños errores de transcripción que otras personas hicieron, además de encontrar entradas de datos que son difíciles o imposibles de leer, sobre todo porque la tinta se ha desvanecido con el tiempo. Estoy usando el contexto para hacer las mejores conjeturas " sobre lo que los datos que dice y dejando el punto de datos por completo si no estoy bastante seguro. Pero no dejo de pensar en el hecho de que cada vez que se copian los datos, la frecuencia de los errores que inevitablemente aumentará hasta los datos originales, se ha perdido completamente. (Esto es similar a la copia de una película en una cinta de VHS, a continuación, utilizar la copia para hacer otra copia, y repitiendo el proceso una y otra vez hasta que todo lo que obtiene es el ruido aleatorio y la estática en la pantalla.)

Así que, esto me lleva a una reflexión: además de los instrumentos/medición de errores, y los errores de grabación, hay una fundamental "para el manejo de datos de error' componente que aumentará con el tiempo y con más manejo de los datos (nota: este es, probablemente, sólo otra forma de establecer la 2ª ley de la Termodinámica, a la derecha? Datos de la entropía siempre aumenta). En consecuencia, me pregunto si hay algún tipo de corrección introducido para explicar la historia de vida de conjuntos de datos (algo parecido a una corrección de Bonferroni)? En otras palabras, debemos asumir que los mayores o de los más copiados conjuntos de datos son menos precisos, y si es así, debemos ajustar los hallazgos en consecuencia?

Pero luego, mi pensamiento es que los errores son una parte inherente de la recolección de datos y manejo de datos, y dado que todas las pruebas estadísticas se han desarrollado con los datos del mundo real, tal vez estas fuentes de error son ya 'precio' el análisis?

También, otro punto a destacar es que dado que los datos que los errores son aleatorios, que son mucho más propensos a reducir la fuerza de un hallazgo que para mejorar, en otras palabras, los datos de manejo de errores llevaría a Tipo 2 errores, no de Tipo 1 errores. Así, en muchos contextos, si se utiliza de edad/datos cuestionable, y todavía se encuentra un efecto, que aumentaría su confianza en que el efecto es real (porque era lo suficientemente fuerte como para sobrevivir a la adición de error aleatorio para el conjunto de datos). Por esa razón, tal vez la 'corrección' debe ir a otro lado (aumento de la alfa-nivel requerido para un 'hallazgo'), o simplemente no nos causan problemas?

De todos modos, siento ser tan detallado y obtusa, no estoy realmente seguro de cómo hacer esta pregunta de forma más concisa. Gracias por dar conmigo.

3voto

porg Puntos 101

La segunda sugerencia de @Aksakal: Si el error de medición es visto por el analista como potencialmente importante, puede y debe ser modelados explícitamente como parte de los datos de proceso de generación.

Veo varias consideraciones que se argumentan en contra de la introducción de un genérico factor de corrección basado en, por ejemplo, la edad del conjunto de datos.

En primer lugar, la edad puede ser una muy baja proxy para el grado de los datos de deterioro. La tecnología de duplicación, la compresión y la conservación, y el grado de esfuerzo y cuidado que entró en la verificación de la correcta transcripción, aparentemente son los factores importantes. Algunos textos antiguos (por ejemplo, El de la Biblia) se han conservado durante siglos aparentemente con cero degradación. Su VHS ejemplo, aunque sea legítimo, es realmente inusual, en el que cada evento de duplicación de siempre introduce error, y no hay maneras fáciles de comprobar y corregir los errores de transcripción -- si uno usa barato, ampliamente disponible de tecnologías para la duplicación y almacenamiento. Espero que un menor el grado de introducción de errores sustancialmente, a través de inversiones en el más caro de los sistemas.

Este último punto es más general: la conservación de los datos y la reproducción económica de las actividades. La calidad de la transmisión depende en gran medida de los recursos asignados. Estas decisiones, a su vez, dependen de la percepción de la importancia de los datos a quien está haciendo la duplicación y transmisión.

Las consideraciones económicas que se aplican para el analista, así. Siempre hay más factores que usted puede tomar en cuenta a la hora de hacer el análisis. ¿Bajo qué condiciones los datos de los errores de transcripción que ser suficientemente sustancial, y lo bastante importante, que son vale la pena tomar en cuenta? Mi corazonada es: tales condiciones no son comunes. Por otra parte, si el potencial de los datos de degradación se ve lo suficientemente importante como para dar cuenta de ella en su análisis, entonces es probable que sea lo suficientemente importante como para hacer el esfuerzo para modelar el proceso de forma explícita, en lugar de insertar un genérico de "corrección" de paso.

Por último, no hay necesidad de desarrollar un genérico de corrección de factor de novo. Ya existe un cuerpo sustancial de estadística de la teoría y la práctica para el análisis de conjuntos de datos para que el error de medición es visto como importante.

En suma: es un pensamiento interesante. Pero creo que no se debería estimular a los cambios en la práctica analítica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X