7 votos

¿Cómo calcular la media y la desviación estándar en R dada un intervalo de confianza y una distribución normal o gamma?

Supongamos que te han dado un IC del $95 \%$ CI $(1,6)$ basado en la distribución normal. ¿Existe alguna manera fácil de encontrar $\mu$ y $\sigma$? ¿Y si proviene de una distribución gamma? ¿Podemos hacer esto en R?

5 votos

Toby, ten cuidado con cómo interpretas las respuestas a esta pregunta, porque "basado en la distribución normal" puede significar varias cosas. Por ejemplo, algunas personas podrían interpretar que un IC que utiliza la distribución T de Student está "basado en la distribución normal" (porque lo está, indirectamente). Además, hay muchos tipos de IC: a menudo son "simétricos" en algún sentido, pero no siempre (en particular, un IC relacionado con una distribución gamma podría no serlo). Todo se reduce a qué fórmula se utilizó para calcular el IC. ¿Tienes alguna información al respecto?

6voto

JMW.APRN Puntos 21

Por favor, lee el erratum al final de la respuesta.

En primer lugar, nota que no hay suficiente información para resolver este problema. En ambos casos, falta el tamaño de la muestra $n$. En el caso de la distribución gaussiana, asumiendo que sabes $n$, puedes hacerlo fácilmente siguiendo las instrucciones de @Michael Chernick. En R, eso se vería algo así (con $n=43 para el ejemplo).

n <- 43
ci <- c(1,6)
# Toma la mitad del IC para obtener x_bar (3.5).
x_bar <- mean(ci)
# Usa 1 = x_bar - 1.96 * sd/sqrt(n)
S2 <- n^2 * (x_bar - ci[1])/1.96

Para el caso de la distribución gamma, las cosas son un poco más complicadas porque no es simétrica. Entonces, la media no está en el centro del IC.

Por ejemplo, digamos que muestreas de una población gamma $\Gamma(\alpha,1)$ donde $\alpha$ es desconocido. La media de la muestra es la suma de $n$ variables distribuidas como $\Gamma(\alpha,1)$ dividido por $n, por lo que es una variable distribuida como $\Gamma(n\alpha,1/n)$. Digamos que observamos una media de $1.7$ para un tamaño de muestra de $n=5. Hay varios IC que contienen este valor, como podemos comprobar.

> qgamma(.975, shape=1.7*5, scale=1/5)
[1] 3.019101
> qgamma(.975, shape=1.7*5, scale=1/5, lower.tail=F)
[1] 0.7564186

Un IC del 95% para $\alpha$ es $(.756, 3.019)$, cuyo centro es $1.89, no $1.70. En resumen, encontrar el $\alpha$ y $\theta$ que producen un IC del 95% es posible porque la solución es única, pero es un poco complicado.

Afortunadamente, a medida que $n$ aumenta, la distribución se vuelve más y más gaussiana y simétrica, por lo que el IC será simétrico alrededor de la media. La media y la varianza de una $\Gamma(n\alpha,\theta/n)$ son $\alpha\theta y \alpha\theta/n, por lo que puedes usar los resultados del caso gaussiano y resolver esta ecuación muy simple para obtener $\alpha y $\theta.

Erratum: Siguiendo el comentario de @whuber me di cuenta de que la forma propuesta de obtener un intervalo de confianza para $\alpha$ no es buena.

El ejemplo dado anteriormente pretendía demostrar que obtener IC con variables gamma es mucho más tedioso que con variables gaussianas. Mi error demuestra aún mejor el punto. A instancias de @whuber demostraré que el IC que propuse es incorrecto.

set.seed(123)
# Simula 100,000 medias de 5 variables gaussianas(0,1) (control positivo).
means <- rnorm(100000, sd=1/sqrt(5))
upper <- means + qnorm(.975)/sqrt(5)
lower <- means - qnorm(.975)/sqrt(5)
mean((upper > 0) & (lower < 0))
[1] 0.95007 # OK.
# Simula 100,000 medias de 5 variables gamma(1,1).
means <- rgamma(100000, shape=5, scale=1/5)
upper <- qgamma(.975, shape=5*means, scale=1/5)
lower <- qgamma(.975, shape=5*means, scale=1/5, lower.tail=FALSE)
mean((upper > 1) & (lower < 1))
[1] 0.94666 # Casi, pero no del todo.

2 votos

Esta respuesta comienza muy bien. La segunda parte, sin embargo, no proporciona un IC correcto para una distribución gamma. (Simúlelo para valores pequeños de forma y tamaños de muestra pequeños.)

0 votos

+1 Para una simulación convincente, prueba un parámetro de forma de 0.5 y una escala de 2 :-).

5voto

mat_geek Puntos 1367

Si te refieres a los verdaderos parámetros, por supuesto que la respuesta es no. Pero si te refieres a que quieres recuperar las estimaciones de la muestra del intervalo de confianza, la respuesta es sí, para la distribución normal si el tamaño de la muestra $n$ también se da.

Si el intervalo de confianza fue $(1,6)$, entonces $1= \overline{X}-1.96 \cdot S/\sqrt{n}$ y $6=\overline{X}+1.96 \cdot S/\sqrt{n}$. Así que $\overline{X}= (6+1)/2=3.5$ y luego $6=3.5 +1.96 \cdot S/\sqrt{n}$ o $S=\sqrt{n} 2.5/(1.96)$.

Para la distribución gamma este documento muestra varias formas de obtener los intervalos de confianza aproximados y exactos para las tasas. Obtener las estimaciones de los parámetros a partir de estos intervalos de confianza puede ser complicado.

3 votos

Por favor considera usar TeX en tus respuestas. ¡Hace que sea mucho más fácil leer ecuaciones!

2 votos

@MånsT, ¡o podemos ganar la insignia de 'Editor de Copias' editando sus publicaciones por él :)

0 votos

@Macro Puedo hacer subíndices y superíndices en TeX y he empezado a hacerlo pero no tengo suficiente conocimiento para hacer ecuaciones completas.

1voto

alexs77 Puntos 36

Puedes construir un intervalo de confianza alrededor de cualquier cosa que pueda ser estimada, ya sea una media, desviación estándar, incluso un máximo para cualquier distribución de probabilidad dada.

Suponiendo que tienes un IC alrededor de la media estimada a partir de un experimento en el que se tomó una muestra finita de tamaño $n$ de variables aleatorias normales independientes e idénticamente distribuidas, entonces sabes que el intervalo de confianza exacto está dado por la media de la muestra más o menos 1.96 veces el error estándar, que es la desviación estándar de la muestra escalada por la raíz cuadrada del tamaño de la muestra. $\bar{x} \pm \mathcal{Z}_{\alpha/2} \left( s/\sqrt{n} \right)$. Tus estimaciones de estos parámetros, convencionalmente etiquetados como $\bar{x}$ y $s$ son las "mejores suposiciones" para la "media poblacional" $\mu$ y la "desviación estándar" $\sigma.

Estos estimadores también estiman los mismos valores independientemente de la distribución de tus muestras independientes o la correspondiente distribución muestral de la media. Sin embargo, ten en cuenta que el intervalo de confianza es asintótico y estas estimaciones no necesariamente son las mejores anymore.

1 votos

El primer párrafo es esclarecedor. En cuanto al segundo, tu CI "exacto" quedó obsoleto hace 104 años cuando "Student" demostró que no es exacto y, al encontrar un CI exacto, descubrió la distribución t. El tercer párrafo es difícil de entender. En general, ¿cuál es tu respuesta a la pregunta?

1 votos

Eso es correcto, no he tenido en cuenta los grados de libertad en lo que llamé el IC exacto. Lo que quiero decir es lo siguiente: suponiendo que el IC es una estimación asintótica, libre de dist-n basada en el TCL, entonces sí se pueden derivar aritméticamente la media de la muestra y la desviación estándar de la muestra, dado el tamaño de la muestra. Sin conocimiento de la construcción del IC, esto puede ser peligroso. Los IC para la razón de probabilidades en modelos de regresión logística no son simétricos y no se podría estimar la "media" y la "desviación estándar" de la distribución muestral de la razón de probabilidades de la muestra basada en dicho IC.

0voto

good Puntos 926

Si lo que se proporcionan son los cuantiles de una distribución normal (aunque no son lo mismo que los intervalos de confianza), entonces una solución al problema se reduce a encontrar los parámetros de distribución a partir de los cuantiles.

Para la distribución normal queremos encontrar $\mu$ y $\sigma$ de manera que la variable aleatoria $X$ cumpla con: $$ P(X $$ P(X

La variable aleatoria $X$ tiene la misma distribución que $\mu Z + \sigma$ donde $Z$ es una variable aleatoria normal estándar $Z \sim N(0,1)$ y función de distribución acumulada $\phi$.

Esto implica que: $$ \phi^{-1}(p_i)\sigma+\mu=x_i $$ En R, se ofrece un ejemplo donde 20 y 40 son los cuantiles 0.05 y 0.95 entonces.

approx_sd <- function(x1, x2){
  (x2-x1) / (qnorm(0.95) - qnorm(0.05) )
}
approx_sd(20, 40)

approx_mean <- function(x1, x2){
  (x1*qnorm(0.95) - x2*qnorm(0.05)) / (qnorm(0.95) - qnorm(0.05) )
}
approx_mean(20, 40)

Para la distribución gamma, la solución es más complicada porque la inversa de la función de distribución acumulada no tiene una forma cerrada. Sin embargo, existen herramientas y software que automatizan este problema complejo, por ejemplo, ParameterSolver descargable desde el siguiente repositorio https://biostatistics.mdanderson.org/SoftwareDownload/

Aunque tu pregunta parte de un intervalo de confianza frecuentista que por supuesto, no es un cuantil, el texto podría indicar que los lectores pueden llegar a esta pregunta buscando una distribución parametrizada por cuantiles que es un tema de investigación activo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X