Ok, feria de advertencia-esta es una pregunta filosófica que no implica números. He estado pensando mucho acerca de cómo aparecer errores en los conjuntos de datos a lo largo del tiempo y cómo es que deben ser tratados por los analistas (o si lo que realmente debería importar en absoluto?
Para el fondo, estoy haciendo el análisis en un estudio a largo plazo que involucra a muchos conjuntos de datos recopilados probablemente por 25 personas de más de 7-8 años, nadie ha tenido todos los datos en una estructura coherente (es mi trabajo). He estado haciendo un montón de datos de entrada (la transcripción a partir de fotocopias de los viejos cuadernos de laboratorio) y sigo encontrando pequeños errores de transcripción que otras personas hicieron, además de encontrar entradas de datos que son difíciles o imposibles de leer, sobre todo porque la tinta se ha desvanecido con el tiempo. Estoy usando el contexto para hacer las mejores conjeturas " sobre lo que los datos que dice y dejando el punto de datos por completo si no estoy bastante seguro. Pero no dejo de pensar en el hecho de que cada vez que se copian los datos, la frecuencia de los errores que inevitablemente aumentará hasta los datos originales, se ha perdido completamente. (Esto es similar a la copia de una película en una cinta de VHS, a continuación, utilizar la copia para hacer otra copia, y repitiendo el proceso una y otra vez hasta que todo lo que obtiene es el ruido aleatorio y la estática en la pantalla.)
Así que, esto me lleva a una reflexión: además de los instrumentos/medición de errores, y los errores de grabación, hay una fundamental "para el manejo de datos de error' componente que aumentará con el tiempo y con más manejo de los datos (nota: este es, probablemente, sólo otra forma de establecer la 2ª ley de la Termodinámica, a la derecha? Datos de la entropía siempre aumenta). En consecuencia, me pregunto si hay algún tipo de corrección introducido para explicar la historia de vida de conjuntos de datos (algo parecido a una corrección de Bonferroni)? En otras palabras, debemos asumir que los mayores o de los más copiados conjuntos de datos son menos precisos, y si es así, debemos ajustar los hallazgos en consecuencia?
Pero luego, mi pensamiento es que los errores son una parte inherente de la recolección de datos y manejo de datos, y dado que todas las pruebas estadísticas se han desarrollado con los datos del mundo real, tal vez estas fuentes de error son ya 'precio' el análisis?
También, otro punto a destacar es que dado que los datos que los errores son aleatorios, que son mucho más propensos a reducir la fuerza de un hallazgo que para mejorar, en otras palabras, los datos de manejo de errores llevaría a Tipo 2 errores, no de Tipo 1 errores. Así, en muchos contextos, si se utiliza de edad/datos cuestionable, y todavía se encuentra un efecto, que aumentaría su confianza en que el efecto es real (porque era lo suficientemente fuerte como para sobrevivir a la adición de error aleatorio para el conjunto de datos). Por esa razón, tal vez la 'corrección' debe ir a otro lado (aumento de la alfa-nivel requerido para un 'hallazgo'), o simplemente no nos causan problemas?
De todos modos, siento ser tan detallado y obtusa, no estoy realmente seguro de cómo hacer esta pregunta de forma más concisa. Gracias por dar conmigo.