5 votos

Práctica estándar para tratar con U marcado datos de química

Tengo un gran conjunto de datos de química ambiental de datos. Muchos de los resultados son U marcado por el laboratorio o validadores. Si quiero utilizar estos resultados para encontrar los valores promedio a lo largo del tiempo veo que hay varias opciones para la incorporación de la U marcado resultados

  1. Sustituir el límite de detección (LOD)
  2. Sustituir el LOD/2
  3. Sustituir el LOD/sqrt(2)
  4. Sustituto 0
  5. Utilizar el valor de la mediana (siempre menos de la mitad de los valores en el conjunto de datos U marcadas)
  6. El uso de una media limitada
  7. Algunos otros métodos no sé acerca de

Me siento como que hay pros y contras para cada uno de estos métodos (algunos de sesgo bajo, alto, sesgar la variabilidad del conjunto de datos). No sé cuál es la práctica estándar es para tratar con resultados por debajo de los límites de detección. Cual de estos métodos (o en otro) es típico cuando se trata con la química de datos con valores perdidos?

Edit: Solo para aclarar, estos U marcan los valores no son, literalmente, que falta porque no es como nada se sabe acerca de ellos. Hay algo de información: son mayor o igual que 0 pero menor que el límite de detección.

5voto

jldugger Puntos 7490

Libros enteros se han escrito sobre esto, especialmente Dennis Narh del Nondetects y Análisis de Datos (Wiley-Interscience, 2005). Narh tiene un NADA paquete para R,. Por lo tanto, limitar la respuesta a las cosas más importantes que me gustaría explicar a nadie empezando a analizar los datos ambientales.

  1. Hay más de 20 diferentes definiciones de un "límite de detección". Asegúrese de entender el significado de los límites que se han dado. Generalmente se deben considerar los informes de los límites: son los valores elegidos por el laboratorio para limitar su responsabilidad. Son generalmente no LoDs, millones de dólares, PQLS, etc. (que tienen alguna relación con el proceso de medición). Para no dar a entender algo inesperado, voy a llamar a los números asociados con los valores U "RLs."

  2. Si por "práctica estándar" que significa "lo que todo el mundo lo hace (si entienden los problemas o no", entonces la respuesta es utilizar ya sea 0, RL/2, o RL.

  3. Si te refieres a la "práctica razonable," entonces, por favor, comprenda que lo que todo el mundo no ha sido completamente y persistentemente criticado en la literatura por más de 30 años. A veces usted puede conseguir lejos con estos sencillos métodos de sustitución, especialmente cuando los resultados de su análisis de viento de hasta no dependiendo de cómo la imputación de los valores. Pero en la mayoría de los casos no se puede. El problema básico es que cualquier fijo método de imputación, tales como RL/2, se derrumba una cantidad que realmente es variable en una cantidad que no varía: que puede completamente el tornillo hasta que todas las estimaciones de la variación, y en ese punto no hay casi ningún uso en la realización de cualquier tipo de procedimiento estadístico, además de resumir los datos.

  4. Narh los defensores de la aplicación de test no paramétrico de métodos de supervivencia. Acaba de negar todos los valores y pretender que se comportan como los tiempos de supervivencia. (Es un acercamiento inteligente y a veces funciona, pero hace bastante fuertes supuestos sobre los datos y, en mi experiencia, que no parecen tener.)

  5. Una clase de máxima verosimilitud basado en técnicas funciona muy bien cuando hay suficientes datos. He sido la adaptación de estas a los modelos de regresión y más recientemente, a los modelos de serie de tiempo, con cierto éxito. El reto consiste en hacer inferencias acerca de las correlaciones entre los datos que tienen una gran proporción de nondetects. Una implementación simple (que no permite la variable RLs) está disponible en la censReg paquete para R.

  6. Usted es probablemente la mejor manera de pasar su tiempo de desarrollo de la gráfica apropiada de métodos para mostrar estos datos. En los diagramas de dispersión, por ejemplo, el uso de diferentes símbolos para las cuatro combinaciones posibles de los datos: tanto cuantificado, primero ND, segundo ND, tanto en ND. Parcela ellos en los valores dados por el síndrome de la pierna inquieta así que usted puede ver los límites de elaboración de informes. Que le da la mejor oportunidad de descubrir las partes de la información que va a ser sensible a cómo tratar la nondetects.

  7. Aprender acerca de los métodos no paramétricos disponibles para la computación en la parte superior de los límites de la tolerancia y la parte superior de la predicción de los límites. La belleza de estos métodos es que a menudo no es necesario imputar valores a la NDs. Ellos se describen ampliamente en la US EPA Análisis Estadístico de Seguimiento de las aguas Subterráneas de Datos en RCRA Instalaciones. Podría decirse que esta enorme documento (casi 1000 páginas, incluyendo sus anexos) encarna una "práctica estándar" en los estados unidos y ... porque es imitado en otros países de todo el mundo.

  8. Finalmente, es posible que como es bien sabido, la EPA de los EE.UU. ofrece algunos programas de software que se ocupa de la NDs. Se llama Pro-UCL. Porque se ve favorecida por este organismo regulador, su uso se está convirtiendo rápidamente en una "práctica estándar" entre los consultores, especialmente entre aquellos que no tienen ninguna comprensión de las estadísticas. Ofrece una gran variedad de procedimientos para cualquier conjunto de datos (que van de lo bueno a través horriblemente mal), lo que permite a cualquier usuario a elegir el estadístico los resultados que desean. (Sin comentarios.) El uso va a ser intensiva en mano de obra-es básicamente una hoja de cálculo grande. Si realmente sabes lo que estás haciendo, hay algo de valor en ella; y si tiene que presentar sus resultados a una agencia federal o estatal, usted podría ser obligado a usar independientemente.

2voto

alexs77 Puntos 36

Podemos ver este fenómeno en VIH de modelado donde CD4 y carga viral son con frecuencia por debajo de los límites de detección, a pesar de que un participante es portadora de la enfermedad. Los métodos que se describen son útiles los enfoques que, aunque parcial, son fáciles de describir. Permítanme sugerir que otro enfoque que puede tomar es al mismo tiempo el cálculo de los medios entre los casos completos, por ejemplo, los casos donde los valores ¿ no lograr LLD, a continuación, presentar, junto a una proporción/recuento de los casos que hicieron alcanzar ese valor.

Se sugieren muchas formas de sola imputación, que es conocido por no trabajar. La imputación de ser un valor que falta se llena una "mejor estimación" de lo que podría ser. El resultado es que se tiende a subestimar los errores estándar. Para solucionar esto, un enfoque que puede tomar es un enfoque de modelado paramétrico donde se asume una distribución log-normal, para los valores de concentración y el uso de un EM-algoritmo para estimar simultáneamente la forma de su distribución, y un rango de valores que el LLD observaciones logrado. Al hacer esto, usted puede apropiadamente cuenta del error asociado con el desconocido LLD valores y obtener estimaciones imparciales de la media y la desviación estándar. Esta sería la mejor forma de presentarse junto con mi anterior sugerencia de como dos enfoques para el problema.

Estimación bayesiana de un software como Winbugs o R es experto en la realización de este tipo de inferencia, pero hago hincapié en que el enfoque que describe es , en realidad, no Bayesiano. El EM-algoritmo es una máxima probabilidad de enfoque que utiliza paramétrico de los supuestos sobre los datos a rellenar en los valores que faltan.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X