7 votos

Debería faltan observaciones se incluyen en el número total de observaciones si la corrección de múltiples ensayos

Estoy confundido si uno debe excluir a falta de observaciones a la hora de ajustar los valores de p para pruebas múltiples. Parece ser que no existe consenso entre la función de R en si hacerlo o no. stats::p.adjust(x) se comporta de forma diferente si se especifica el valor predeterminado n = length(x) de forma explícita (NAs son contados) vs si no se especifica el valor predeterminado de forma explícita (NAs no se cuentan). multtest::rawp2adjp(x) cuenta NAs. ¿Cuál es el comportamiento correcto?

EDIT: Clarifcation acerca de lo que se entiende por NA en esta información fue solicitada en los comentarios. Los valores de p se calcula por residual después de una mezcla de efectos de ajuste del modelo para identificar valores atípicos en los datos. El procedimiento experimental es complejo, y que se lleva a cabo por muchos experimentators en paralelo, por lo que los errores son posibles. Significado identifica puntos de datos, que son inesperadamente lejos de la equipada con valor, dado el error residual se centra y se distribuye normalmente -> probablemente atípicos [ref]. Algunas observaciones tuvo que ser removido antes del ajuste, por ejemplo, porque hay muy poco observaciones para un grupo determinado que causa problemas con el ajuste del modelo o ya estaban desaparecidos antes del análisis debido experimental fracaso.

MWE

## Generate some p values and compare the three possibilities of 
## adjusting for multiple testing
n <- 10000
x <- pmin(rexp(n,rate =1/0.01), 1) # Generate some p values
x[sample(c(F,T), n/10, TRUE)] <- NA # delete some observations
# Three different methods of p value calculation
x1 <- p.adjust(x, method = 'holm') 
x2 <- p.adjust(x, method = 'holm', n = length(x))
x3 <- multtest::mt.rawp2adjp(x, proc = 'Holm')
x3 <- x3$adjp[order(x3$index),"Holm"]
# Compare p.adjust and mt.rawp2adjp
par(mfrow=c(1,2))
plot(x1, x3); title('p.adj(x) \n vs. mt.rawp2adjp')
plot(x2, x3); title('p.adj(x, len = length(x)) \n vs. mt.rawp2adjp')

Plot output showing x1 and x3 differ in their output while x1 and x2 do not

Apéndice: ¿por Qué stats::p.adjust se comportan de la manera que lo hace?

Principio de p.adjust código fuente, R 3.4.3:

En la cabeza, n se define como length(p), sin embargo, R no se evalúa argumentos hasta que se necesitan

function (p, method = p.adjust.methods, n = length(p)) 
{
    method <- match.arg(method)
    if (method == "fdr") 
        method <- "BH"
    nm <- names(p)
    p <- as.numeric(p)
    p0 <- setNames(p, nm)
    if (all(nna <- !is.na(p))) 
        nna <- TRUE

Aquí, p es despojado de todos NAs, sin n de ser necesario hasta este punto

    p <- p[nna]
    lp <- length(p)

Ahora, n se utiliza por primera vez, lo que significa length(p) se evalúa sólo ahora. Por lo tanto, si se deja a la configuración predeterminada, length(p[!is.na(p)]) se calcula.

    stopifnot(n >= lp)
[ remaining source code omitted ]
}

3voto

bheklilr Puntos 113

Si el valor que falta hace la observación de que no se incluyen en los cálculos de las estimaciones de los parámetros, es contribuir en nada al resultado final (para mejor o peor) y no debe ser incluido en el valor de la p o ajustar el valor p de cálculo. Su efecto es el mismo que si no hubiera sido incluido en el conjunto de datos.

Sin embargo, en algunos casos, la falta de valores, no se excluyen de los cálculos. Pueden ser imputado, o, en el caso de que los valores que están censurados (por ejemplo, $x_1$ no se observa, pero sabemos que $x_1 \geq 10$), incluido en los cálculos, pero de una manera diferente a si habían sido observados. Esta es una zona más sombría. Claramente no queremos extremo - contado como si la observación es totalmente informativo o de contado como si la observación no existe en absoluto - como base para el valor p de los cálculos, pero no está claro (y, de hecho, un problema específico) ¿cuánto de "peso" entre 0 y 1 la observación debe conseguir. Proporcionar la capacidad para calcular ajustar los valores de p mediante la observación completa de recuento nos permite obtener de un límite en el ajustado los valores de p que nos hubiera gustado a calcular. Si un valor concreto para una estadística no es significativa con un "tamaño de muestra" = 100, no va a ser significativa con un "tamaño de muestra" de menos de 100, de manera que el cálculo con el tamaño de la muestra igual al número de observaciones que contiene información útil para las pruebas y la evaluación.

Para resumir: ambos cálculos son útiles, dependiendo de las circunstancias de la prueba problema y cómo el procedimiento de estimación trata de los valores perdidos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X