77 votos

Cómo una pequeña cantidad debe añadirse a x a evitar tomar el registro de cero?

He analizado mis datos tal y como son. Ahora quiero ver en mi análisis después de tomar el registro de todas las variables. Muchas variables contienen muchos ceros. Por lo tanto, puedo añadir una pequeña cantidad para evitar tomar el registro de cero.

Hasta ahora he añadido 10^-10, sin ningún tipo de justificación en realidad, sólo porque me sentía como la adición de una pequeña cantidad sería recomendable para reducir al mínimo el efecto de mi escogido arbitrariamente la cantidad. Pero algunas de las variables contienen en su mayoría de ceros, y por lo tanto al iniciar sesión en su mayoría -23.02. El rango de los intervalos de mis variables es de 1.33 8819.21, y la frecuencia de ceros también varía considerablemente. Por lo tanto, mi elección personal de la "pequeña cantidad" afecta a las variables de manera muy diferente. Ahora está claro que 10^-10 es completamente inaceptable elección, ya que la mayoría de la varianza de todas las variables, a continuación, proviene de esta arbitraria "pequeña cantidad".

Me pregunto qué sería de una manera más correcta de hacerlo.

Tal vez sea mejor para derivar la cantidad de cada una de las variables individuales de distribución? ¿Hay alguna guía sobre cómo de grande esta "pequeña cantidad" debe ser?

Mis análisis son en su mayoría simples modelos de cox con cada variable y la edad/sexo como IVs. Las variables son las concentraciones de diversos lípidos en la sangre, a menudo con considerable coeficientes de variación.

Edit: Añadir el más pequeño distinto de cero el valor de la variable parece práctico para mis datos. Pero tal vez hay una solución general?

Edit 2: Como los ceros indican simplemente concentraciones por debajo del límite de detección, tal vez establecer a (límite de detección)/2 sería la adecuada?

43voto

jldugger Puntos 7490

La concentración química de datos a menudo tienen ceros, pero estos no representan los valores cero: son códigos que es distinto (y confusión) representar tanto nondetects (la medición se indica, con un alto grado de probabilidad, que el analito no estaba presente) y "no" en valores de medición detecta el analito, pero no pudo producir un confiable valor numérico). Vamos sólo vagamente llamamos a estos "NDs" aquí.

Normalmente, hay un límite asociado con un ND muchas veces conocida como "límite de detección", "el límite de cuantificación," o (mucho más en serio) un "informe de límite," debido a que el laboratorio elige no proporcionar un valor numérico (a menudo por razones legales). Sobre todo lo que realmente sabemos de un ND es que el verdadero valor es probablemente menor que el máximo asociado: es casi (pero no del todo) un formulario de la izquierda censura. (Bueno, eso tampoco es cierto: es una ficción conveniente. Estos límites se determinan a través de las calibraciones que, en la mayoría de los casos, han pobres terrible propiedades estadísticas. Se puede estar muy encima o por debajo del estimado. Esto es importante para saber cuando usted está buscando en un conjunto de datos sobre la concentración de los cuales parecen tener un logarítmico-normal a la derecha de la cola que se corta (por ejemplo) en $1.33$, además de un "pico" en $0$ representando a todos los de la NDs. Que sugieren fuertemente la presentación de informes límite es sólo un poco menos de $1.33$, pero el laboratorio de datos podría tratar de decirle a usted que es de $0.5$ o $0.1$ o algo así.)

Una amplia investigación ha sido realizado en los últimos 30 años, sobre cómo es la mejor manera de resumir y evaluar dichos conjuntos de datos. Dennis Narh publicado un libro sobre esto, Nondetects y Análisis de Datos (Wiley, 2005), nos enseña un curso, y publicó R paquete, basado en algunas de las técnicas que le favorece. Su sitio web es completa.

Este campo está plagado de errores y el error. Narh es frank acerca de esto: en la primera página del capítulo 1 de su libro escribe,

...el método más comúnmente utilizado en los estudios ambientales de hoy, la sustitución de la mitad del límite de detección, NO es un método razonable para la interpretación de datos censurados.

Entonces, ¿qué hacer? Las opciones incluyen ignorar este buen consejo, aplicar algunos de los métodos en Narh del libro, y el uso de algunos métodos alternativos. Así es, el libro no es completa y válida alternativas existen. La adición de una constante para todos los valores del conjunto de datos ("partida") es uno. Pero considerar:

  • La adición de $1$ es no un buen lugar para empezar, porque esta receta depende de las unidades de medición. La adición de $1$ microgramos por decilitro no tendrá el mismo resultado que la adición de $1$ millimole por litro.

  • Después de iniciar todos los valores, usted todavía tiene un pico en el valor más pequeño, lo que representa que la recolección de NDs. Su esperanza es que este aumento es consistente con los datos cuantificados en el sentido de que su masa total es aproximadamente igual a la masa de una distribución logarítmico-normal de entre $0$ y el valor de inicio.

    Una excelente herramienta para determinar el valor de inicio es un diagrama de probabilidad lognormal: aparte de la NDs, los datos deben ser aproximadamente lineal.

  • La colección de NDs también puede ser descrito con un así llamado "delta lognormal" de la distribución. Esta es una mezcla de un punto de masa y una lognormal.

Como es evidente en los siguientes histogramas de los valores simulados, el censurado y delta distribuciones no son el mismo. El delta es el enfoque más útil para las variables explicativas en la regresión: se puede crear un "dummy" de la variable para indicar la NDs, tomar logaritmos de los valores detectados (o de lo contrario transformar las necesidades de los mismos), y no preocuparse por la sustitución de los valores para la NDs.

Histograms

En estos histogramas, aproximadamente el 20% del menor de los valores han sido sustituidos por ceros. Para la comparabilidad, todos ellos están basados en la misma 1000 simulado subyacente lognormal valores (parte superior izquierda). El delta de distribución fue creado mediante la sustitución de 200 de los valores por los ceros al azar. El censurado distribución fue creado mediante la sustitución de los 200 más pequeño de los valores de ceros. El "realista" de la distribución se ajusta a mi experiencia, que es que los informes de los límites varían realmente en la práctica (incluso cuando no es indicado por el laboratorio!): Yo les hizo variar de forma aleatoria (por sólo un poco, rara vez de más de 30 en cualquier dirección) y se sustituye todos los valores simulados menos que sus límites de elaboración de informes por ceros.

Para mostrar la utilidad de la probabilidad de la trama y para explicar su interpretación, la siguiente figura muestra de probabilidad normal de las parcelas relacionadas con los logaritmos de los datos anteriores.

Probability plots

La parte superior de la izquierda muestra todos los datos (antes de cualquier censura o de reemplazo). Es un buen ajuste para el ideal de la línea diagonal (esperamos que algunas desviaciones en los extremos). Esto es lo que deseamos lograr en el resto de parcelas (pero, debido a la NDs, es inevitable caer por debajo de este ideal.) La parte superior derecha es un diagrama de probabilidad para el conjunto de datos censurados, usando un valor inicial de 1. Es un terrible ajuste, debido a que todas las NDs (graficado en 0, ya que $\log(1+0)=0$) se trazan demasiado baja. La parte inferior izquierda es un diagrama de probabilidad para el conjunto de datos censurados con un valor inicial de 120, que es cerca de un típico límite de presentación de informes. El ajuste en la parte inferior izquierda ahora es decente--sólo esperamos que todos estos valores vienen de algún lugar cerca de a, pero a la derecha de la linea ajustada--pero la curvatura en la parte superior de la cola muestra que la adición de 120 está empezando a alterar la forma de la distribución. La parte inferior derecha muestra lo que sucede al delta-lognormal de datos: no hay un buen ajuste a la parte superior de la cola, pero algunos curvatura pronunciada cerca de la presentación de informes límite (en el medio de la parcela).

Por último, vamos a explorar algunos de los más realistas escenarios:

Probability plots 2

La parte superior izquierda se muestra el conjunto de datos censurados con el conjunto de ceros a la mitad del límite de presentación de informes. Es un muy buen ajuste. En la parte superior derecha es la más realista del conjunto de datos (al azar con diferentes límites de elaboración de informes). Un valor inicial de 1 no ayuda, pero--en la parte inferior izquierda, por un valor de inicio de 120 (cerca de la parte superior del rango de los límites de elaboración de informes) el ajuste es bastante bueno. Curiosamente, la curvatura cerca de la mitad de los puntos de levantarnos de la NDs a la cuantificado valores es una reminiscencia de la delta lognormal de distribución (aunque estos datos no fueron generados a partir de una mezcla). En la parte inferior derecha es el diagrama de probabilidad que se obtiene cuando los datos reales tienen sus NDs reemplazado por la mitad de la (típico) límite de presentación de informes. Este es el mejor ajuste, aunque se muestra algunos delta-lognormal como el comportamiento en el medio.

Lo que debemos hacer, entonces, es usar la probabilidad parcelas para explorar las distribuciones como constantes diferentes se utilizan en lugar de la NDs. Empezar la búsqueda con la mitad de la nominal, promedio, informes límite, entonces variar hacia arriba y hacia abajo desde allí. Elija una trama que se parece a la parte inferior derecha: aproximadamente una línea recta diagonal de los valores cuantificados, una rápida bajada a una baja de la meseta, y una meseta de valores que (apenas) cumple con la prolongación de la diagonal. Sin embargo, después de Narh del consejo (que es fuertemente apoyado en la literatura), por real resúmenes estadísticos, evitar cualquier tipo de método que sustituye a la de NDs por cualquier constante. Para la regresión, considerar la adición de una variable ficticia para indicar la NDs. Para algunos gráfica muestra, el reemplazo constante de NDs por el valor encontrado con el diagrama de probabilidad ejercicio se trabajan bien. Por otra gráfica muestra puede ser importante para describir la actual límites de elaboración de informes, para reemplazar el de NDs, por sus límites de elaboración de informes en su lugar. Usted debe ser flexible!

29voto

cbeleites Puntos 12461

Como los ceros indican simplemente concentraciones por debajo del límite de detección, tal vez establecer a (límite de detección)/2 sería apropiado

Justo estaba escribiendo que lo que viene a mi mente donde log (frecuencia) sentido y 0 puede ocurrir a concentraciones cuando se hizo la 2ª edición. Como usted dice, para la medición de las concentraciones de 0, significa "no podía medida que bajas concentraciones".

Nota al margen: ¿quiere usted decir LOQ lugar de LOD?

Si la configuración de la 0 a $\frac{1}{2}$LOQ es una buena idea o no, depende de:

  • desde el punto de vista de que $\frac{1}{2}\mathrm{LC}$ es su "adivinar" que expresan que c es cualquier número entre 0 y LC, sí tiene sentido.
    Pero tenga en cuenta la correspondiente función de calibración: enter image description hereenter image description here
    A la izquierda, la función de la calibración de los rendimientos c = 0 por debajo de la LC. A la derecha, $\frac{1}{2}\mathrm{LC}$ se utiliza en lugar de 0.

  • Sin embargo, si el valor medido original está disponible, que puede proporcionar una mejor estimación. Después de todo, LOQ generalmente significa que el error relativo es del 10%. A continuación de que la medición todavía lleva la información, pero el error relativo se convierte en enorme.
    enter image description here
    (azul: LOD, rojo: LC)

  • Una alternativa sería la de excluir estas mediciones. Que puede ser razonable, demasiado
    por ejemplo, pensar en una curva de calibración. En la práctica se observan a menudo una forma sigmoidea: para bajo c, de la señal ≈ constante, intermedio comportamiento lineal, entonces el detector de saturación. enter image description here
    En esa situación, puede que desee restringir el mismo a las declaraciones acerca de las concentraciones que se encuentran claramente en el rango lineal como ambos por debajo y por encima de otros procesos de influencia sobre el resultado.
    Asegúrese de explicar que los datos se han seleccionado de esa manera y por qué.


edit: Lo que es sensato o aceptable, depende por supuesto del problema. Con suerte, estamos hablando aquí de una pequeña parte de los datos que no influyen en el análisis.

Tal vez una rápida y sucia de verificación es: ejecutar el análisis de datos con y sin excluir los datos (o cualquiera que sea el tratamiento que propone) y ver si algo cambia sustancialmente.

Si usted ve los cambios, entonces, por supuesto, estás en problemas. Sin embargo, a partir de la química analítica punto de vista, yo diría que su problema no principalmente radican en el método que usted usa para tratar los datos, pero el problema subyacente es que el método analítico (o de su rango de trabajo) no era el adecuado para el problema en cuestión. Por supuesto, hay una zona en la que el mejor enfoque estadístico puede salvar el día, pero al final la aproximación "basura que entra, basura que sale" por lo general tiene también para los más extravagantes métodos.

Citas para el tema:

6voto

EconStats Puntos 350

@miura

Me encontré con este artículo de Bill Gould en el Stata blog (creo que en realidad fundada en Stata), que creo que podría ayudar con su análisis. Cerca del final del artículo advierte contra el uso arbitrario de números que son cercanos a cero, como 0.01, 0.0001, 0.0000001, y 0, ya que en los registros se -4.61, -9.21, -16.12, y $-\infty$. En esta situación no son arbitrarios. Él aconseja el uso de una regresión de Poisson, ya que reconoce que el número de arriba son en realidad muy juntos.

5voto

user11867 Puntos 21

Una idea que puede probar es a escala de todo lo que encuentran en la unidad de intervalo (simplemente dividiendo por el más grande, o el conocido teórico de mayor, valor). Esto todavía no se resuelve el problema, aunque, como sus datos contiene ceros.

De acuerdo a este documento, una transformación apropiada después de reescalado es

$$ x = \frac{x(N-1) + s}{N} $$

"donde N es el tamaño de la muestra y s es una constante entre 0 y 1. Desde un punto de vista Bayesiano, s actúa como si estamos tomando una previa en cuenta. Una opción razonable para s sería .5."

Esto le apriete de datos que se encuentra en $[0,1]$ a en $(0,1)$. Esta transformación puede ser utilizada sin reescalado de antemano. Usted puede probar que, demasiado.

Aunque hay que reconocer que el papel de las direcciones de beta modelo de regresión. Ver el material complementario para la cita anterior.

3voto

Ryan Singer Puntos 38

Puede establecer los ceros de la $i^{th}$ variable ${\rm significa}(x_i) - n\times{\rm stddev}(x_i)$ donde $n$ es lo suficientemente grande como para distinguir estos casos de que el resto (por ejemplo, 6 o 10).

Tenga en cuenta que cualquier artificiales de configuración afectará a su análisis por lo que debe ser cuidadoso con su interpretación y, en algunos casos, descartar estos casos para evitar artefactos.

Utilizando el límite de detección es también una idea razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X