3 votos

Si sólo tengo un rango, ¿es aceptable calcular una media a partir de él?

Supongamos que sólo dispongo de este punto de datos:

Concentration = (1.1 - 2.0 g/L).

¿Es aceptable concluir :

(Theoretical) average = ((1.1 + 2.0) * 0.5) = 1.55 g/L?

¿O lo consideraría estadísticamente incorrecto un revisor de una tesis científica (en un campo médico)?

EDITAR 3: Reformulación completa: Si sólo tengo 2 puntos de datos de un rango, y nada más, ¿podría declarar esto como los únicos datos disponibles y, por lo tanto, calcular una media aritmética a partir de ellos?
Como: " Tengo un rango que representa dos muestras, la más baja y la más alta. No sé cuántas muestras había en medio. Por lo tanto, asumo que sólo había esas dos muestras, y calculo la media de esas dos. Y añado una nota de que este valor medio se ha calculado a partir de un rango, y debe considerarse menos fiable que otros con más muestras ".

EDITAR 4: el comentario de whubers en la pregunta es lo que estaba buscando: Gama media . No tengo suficientes puntos para upvote las otras respuestas, lo siento. Si whuber escribirá una respuesta en lugar de un comentario lo marcaré como correcto.

3voto

Hope4You Puntos 116

El cálculo de la media será correcto si la distribución subyacente es simétrica y los puntos finales de su intervalo se han elegido con el mismo criterio.

Por ejemplo, el cálculo anterior es correcto si la distribución de su concentración es normal y el intervalo se refiere al rango intercuartil.

En general, el cálculo no será cierto si la distribución es asimétrica, como una distribución log-normal.

2voto

JoanComasFdz Puntos 131

En un entorno ordinario en el que se observan realmente los valores de la muestra, el enfoque estándar sería informar de un intervalo de confianza sobre la media de la distribución. Dado que no conocemos los valores reales y sólo tenemos límites superiores e inferiores, una posible alternativa podría ser construir un intervalo que "cubra" el intervalo de confianza que se habría construido si se conocieran los valores reales de las observaciones. Si estamos dispuestos a asumir que tenemos una muestra adecuada para apelar al teorema del límite central, esto podría ser así $$ (\bar{x}_L - z \cdot s / \sqrt{n}, \bar{x}_U + z \cdot s / \sqrt{n}) $$ donde $\bar{x}_L$ y $\bar{x}_U$ son las medias de los límites inferior y superior, $n$ es el número de pares de los límites que tenemos, $s$ la desviación estándar de la muestra compuesta por todos los puntos finales y $z$ un cuantil de la distribución normal estándar. Debería ser posible demostrar que este intervalo contendrá el "verdadero" intervalo basado en los puntos de datos reales, y así tener una probabilidad de cobertura adecuada si el intervalo estándar lo hace.

1voto

Dipstick Puntos 4869

Al tener sólo información sobre el rango de sus datos, es difícil sacar conclusiones sobre la media, pero aún es posible. De hecho, incluso es posible hacer algunas conjeturas sobre la media de la población dada una un solo punto de datos . En este tipo de casos, usted tienen para hacer algunas suposiciones sobre la distribución de sus datos. Digamos que usted podría asumir que sus datos provienen de una distribución Normal, con parámetros desconocidos $\mu$ y $\sigma$ . Utilizando Bayesiano podría elegir alguna distribución a priori para esos parámetros, tomar muestras de esas distribuciones, evaluar la probabilidad de sus datos dados esos parámetros, y así, inferir sobre los parámetros. En este caso, podría utilizar Cálculo bayesiano aproximado . Por ejemplo, podría buscar los parámetros de la distribución normal que hacen que el 95% de los valores se ajusten al intervalo de su interés. Buscar la coincidencia exacta parece ser excesivamente estricto en este caso, así que vamos a suponer un cierto margen de error, digamos $\pm$ 2%. A continuación pongo un código R que ilustra el caso.

x <- c(1.1, 2.0)        # data
crit <- c(0.025, 0.975) # 95% coverage criteria

# function to simulate a single value
simf <- function(crit) {
  mu <- rnorm(1, 1.5, 0.5)                # sampling mu
  sigma <- runif(1, 0, 2)                 # sampling sigma
  p <- pnorm(x, mu, sigma)                # checking coverage
  c(accept = all(abs(p - crit) <= 0.02),  # acceptance
    mu = mu,
    sigma = sigma)
}

sim <- t(replicate(n = 1e6, simf(crit))) # simulate
sim_accepted <- sim[sim[,1] == 1, -1]    # take only accepted values

t(apply(sim_accepted, 2, function(v) c(mean = mean(v),
                                       sd = sd(v),
                                       quantile(v, c(0.025, 0.975)))))
##            mean         sd      2.5%     97.5%
## mu    1.5500938 0.03816268 1.4775592 1.6229234
## sigma 0.2173743 0.01868164 0.1843378 0.2537986

mean(x)
## [1] 1.55

library(ggplot2)

ggplot(as.data.frame(sim_accepted), aes(x=mu, y=sigma)) +
  geom_point(color = "lightgray") +
  geom_density2d() +
  geom_vline(xintercept = x, color = "red") +
  theme_bw()

Simulation result

Utilizando este enfoque, también podría intentar ajustar diferentes distribuciones (por ejemplo, las no simétricas) o hacer diferentes suposiciones a priori. Como puede ver, el uso de una distribución simétrica, como la Normal, lleva al mismo resultado que si se toma la media aritmética de los puntos, pero no será el caso con las distribuciones no simétricas, ya que Till Hoffmann que ya ha señalado en su respuesta. Se trata básicamente de una forma de pensar similar a la de dsaxton pero utilizando sólo los dos puntos de datos para el intervalo y con el uso de una simulación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X