Tengo un gran conjunto de datos de química ambiental de datos. Muchos de los resultados son U marcado por el laboratorio o validadores. Si quiero utilizar estos resultados para encontrar los valores promedio a lo largo del tiempo veo que hay varias opciones para la incorporación de la U marcado resultados
- Sustituir el límite de detección (LOD)
- Sustituir el LOD/2
- Sustituir el LOD/sqrt(2)
- Sustituto 0
- Utilizar el valor de la mediana (siempre menos de la mitad de los valores en el conjunto de datos U marcadas)
- El uso de una media limitada
- Algunos otros métodos no sé acerca de
Me siento como que hay pros y contras para cada uno de estos métodos (algunos de sesgo bajo, alto, sesgar la variabilidad del conjunto de datos). No sé cuál es la práctica estándar es para tratar con resultados por debajo de los límites de detección. Cual de estos métodos (o en otro) es típico cuando se trata con la química de datos con valores perdidos?
Edit: Solo para aclarar, estos U marcan los valores no son, literalmente, que falta porque no es como nada se sabe acerca de ellos. Hay algo de información: son mayor o igual que 0 pero menor que el límite de detección.