6 votos

¿Puede la diferencia entre las medias de dos grupos quedar fuera del intervalo de confianza de la diferencia?

Recibí esta pregunta de un colega que me dejó con ganas de saber un poco más sobre el tema.

Si tiene dos grupos A y B con medias -por ejemplo, 7,9 y 5,8-, ¿es posible que el intervalo de confianza para la diferencia entre los grupos sea tal que no abarque la diferencia actual? En este caso, el IC del 95% es 0,9-1,79 cuando la diferencia es 2,1.

(Editado: Para aclarar esto, se trataba de una pregunta de estadística de maestría en la que 150 pacientes con angina de pecho se dividieron en dos grupos (A y B) y se trataron con diferentes combinaciones de actividad física y medicación. Los niveles de colesterol se midieron después de la intervención: El grupo A tenía una media de 7,9 +/- 4 mmol/l y el grupo B 5,8 +/- 2,9 mmol/l. El IC indicado corresponde a la diferencia entre las medias de los grupos)

Creo que esto es posible, pero me gustaría poder darle un ejemplo concreto (preferiblemente con algunos datos que pueda procesar en R) para mostrarle dónde puede ocurrir.

¡Salud!

8voto

jldugger Puntos 7490

Es posible que un intervalo de confianza de una media no incluya la media muestral.

No forma parte de la definición de un IC que éste deba cubrir siempre la media muestral. Por lo tanto, en teoría se puede construir un procedimiento de IC que nunca cubre la media muestral. Pero la mayoría de la gente lo consideraría un mal procedimiento.

Examinemos, pues, los procedimientos de IC que no sólo se han propuesto seriamente, sino que se han estudiado y se ha comprobado que son buenos. Uno de ellos es el procedimiento de "intervalo de confianza lognormal generalizado" explicado y estudiado ( vía simulation) de Ulf Olsson en el Journal of Statistics Education (Volumen 13, Número 1 (2005), http://www.amstat.org/publications/jse/v13n1/olsson.html ). Es razonable utilizar este procedimiento cuando los logaritmos (naturales) de los $n$ se supone que los datos son independientes e idénticamente distribuidos con una distribución Normal.

Recordemos que cuando el logaritmo de la media poblacional es $\mu$ y la desviación típica poblacional de los logaritmos es $\sigma$ entonces la media poblacional es $\exp(\mu + \sigma^2/2)$ . (Esta relación utiliza la hipótesis lognormal.) Obtendremos límites de confianza para $\mu+\sigma^2/2$ exponenciándolos se obtienen límites de confianza para la media de la población. El procedimiento se basa en un "intervalo de confianza generalizado" conocido por producir buenos intervalos de confianza para combinaciones complicadas de parámetros como ésta.

Calcular el logaritmo medio $\bar y$ y la varianza muestral de los logaritmos $s^2$ de los datos. Un intervalo de confianza simétrico de tamaño $\alpha$ pour $\mu + \sigma^2/2$ se encuentra identificando el centro $100 - 100\alpha\%$ de la distribución de

$$T_{2} = \bar y - Z \sqrt{A^2/n} + A^2/2$$

donde $Z$ y $A^2$ son variables independientes, $Z$ tiene una distribución Normal estándar,

$$A^2 = \frac{s^2}{U^2 / (n-1)},$$

y $U^2$ tiene una distribución chi-cuadrado con $n-1$ grados de libertad. Dado que la distribución de $T_2$ es difícil de trabajar analíticamente, podemos estimarlo mediante simulación. Cuando se exponentiza, el $\alpha/2$ y $1-\alpha/2$ cuantiles de $T_2$ son los límites de confianza inferior y superior para $\exp(\mu+\sigma^2/2)$ .

El trabajo de Olsson indica que una vez $n \ge 20$ más o menos, este procedimiento tiende a alcanzar sus características nominales para $\alpha=0.05$ . Es decir, alrededor de $2.5\%$ de las veces es inferior a $\mu+\sigma^2/2$ y $2.5\%$ de las veces es mayor que $\mu+\sigma^2/2$ .

No hay que buscar mucho para encontrar conjuntos de datos que (a) parecen cumplir los supuestos de esta prueba y para los que (b) el intervalo de confianza no incluye la media muestral. He aquí uno con $n=50$ :

#0.08 0.14 0.21 0.25 0.28 0.3 0.35 0.37 0.39 0.41 0.46 0.51 0.55 0.55 0.66 0.66 0.69 0.71 0.74 0.74 0.77 0.81 0.85 1.04 1.09 1.1 1.17 1.18 1.19 1.25 1.29 1.38 1.54 1.62 1.62 1.68 1.74 1.87 2.11 2.29 2.37 2.42 2.93 2.99 4.8 5.12 5.94 7.09 11.26 120

El IC generalizado de $(1.56, 3.95)$ no incluye la media muestral de $4.03$ .

(Esto se calculó utilizando diez millones de valores simulados de la distribución de $T_2$ así que debería ser bastante preciso. Veinte simulaciones independientes utilizando sólo un millón de valores simulados nunca produjeron un límite superior mayor que $4.02$ aún por debajo de la media muestral).

Aunque los últimos valores de los datos ( $11.26, 120$ ) pueden parecer valores atípicos, su logaritmos no lo son. He aquí un histograma de sus registros:

Figure

OK, ese valor final de $\log(120)$ parece un poco alto. Pero la (muy) potente prueba de Shapiro-Wilk no rechaza enérgicamente la hipótesis de la normalidad ( $p = 0.012$ ). Esto nos da una idea: las distribuciones lognormales (y otras distribuciones de colas gruesas) suelen producir valores inusualmente grandes por su propia naturaleza. Estos valores pueden influir mucho en la media muestral, pero deberían influir menos en estimaciones de las propiedades distributivas subyacentes. No deberíamos encontrar nada paradójico en esto.

(Aunque este ejemplo se refiere a un solo grupo, podría generalizarse para comparar la diferencia de medias entre dos grupos, con un cierto coste en complejidad de los cálculos. Sin embargo, nada cambia realmente: podemos pensar que un IC debe incluir la media muestral sólo cuando nos acostumbramos tanto a utilizar los cálculos de la teoría normal que llegamos a creer, por pura repetición, que todos Las IC deben compartir sus propiedades).


Los siguientes R reproducirá estos cálculos y le permitirá explorar las propiedades del intervalo de confianza lognormal generalizado. En particular, si se pregunta si el hecho de que este IC a veces no cubra la media muestral puede deberse a un error de codificación (¡una posibilidad que siempre me preocupa!), o si en realidad no es un IC para la media poblacional, puede reproducir una parte del trabajo de Olsson simulando la cobertura de este IC, como en

set.seed(17)
x.mean <- exp(mu + sigma^2/2)                 # The true lognormal (population) mean
sim <- replicate(1e3, {ci.lognormal(exp(rnorm(n, mu, sigma)))})
mean(sim[1, ] <= x.mean & sim[2, ] >= x.mean) # Fraction of times covering the true mean

La salida de $0.949$ muestra que este nominal $95\%$ intervalo ha cubierto el verdadero media $94.9\%$ del tiempo, lo cual es excelente. (Elegí este procedimiento de IC en particular específicamente porque es muy bueno.) Por el contrario, podría comprobar con qué frecuencia este intervalo cubre (digamos) la media geométrica:

mean(sim[1, ] <= exp(mu) & sim[2, ] >= exp(mu)) # Fraction of times covering the GM

La salida de $0.899$ confirma que es no a $95\%$ intervalo de confianza para la media geométrica.

Aquí está el código completo (que tendrá que compilar antes de ejecutar las líneas anteriores).

#
# Generalized confidence intervals for lognormal means.
#
ci.generalized <- function(y, alpha=0.05, n.boot=1e4) {
  n <- length(y); m <- mean(y); s2 <- var(y)
  z <- rnorm(n.boot)
  u2 <- rchisq(n.boot, n-1)
  a2 <- s2 / (u2 / (n-1))
  sim <- m - z * sqrt(a2 / n) + a2 / 2         # Simulated distribution of T^2
  return(quantile(sim, c(alpha/2, 1-alpha/2))) # CI for mu + sigma^2/2
}
ci.lognormal <- function(x, ...) exp(ci.generalized(log(x), ...))
#
# Experiment with simulated data.
#
n <-50
mu <- 0                    # Mean log (the actual value is irrelevant)
sigma <- 1/5               # SD of logs (affects the shape of `x`)
set.seed(968)              # Reproduces the example in the text
y <- rnorm(n, mu, sigma)
y <- (y - mean(y)) / sd(y) # (Make sure the logs start out looking very Normal)
x <- round(exp(y), 2)      # Model a limited-precision data collection process
x[1] <- 120                # Tweak the data to give them a large sample mean
#
# Display the data and look at the CI of the mean.
#
hist(log(x))
ci <- ci.lognormal(x, alpha=0.05, n.boot=1e7) # Takes a few seconds
c(p.value=shapiro.test(log(x))$p.value, ci.lognormal(x), sample.mean=mean(x))

0 votos

Así que el CI se hace transformando y luego transformando de nuevo pero la media se calcula simplemente tomando la media. Yo diría que su IC no es de la media de x, pero de la exp(mean(log(x)) . En ese caso siempre capturará x.

1 votos

Por favor, lee el artículo al que me he referido, @John: se trata de un CI honesto para la media aritmética, no para la media geométrica.

0 votos

Es un CI honesto en el sentido de que la cobertura es buena. También es un CI honesto de la media geométrica de ese argumento. La cobertura no prueba que signifiquen lo mismo.

0voto

TrynnaDoStat Puntos 3590

Presumiblemente, el intervalo de confianza que está buscando es de la forma $\bar{X}_1 - \bar{X}_2 \pm M$ donde $M$ es alguna medida del margen de error. Esto incluye, por supuesto $\bar{X}_1 - \bar{X}_2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X