3 votos

Encuentre una estimación para $p=P(X\geqq 20)$

Tengo un problema con el que estoy atascado. Agradecería mucho una ayuda.

"La siguiente es una muestra de una distribución normal.

$7.6 , 9.6, 10.4, 10.7, 11.9, 14.1, 14.6, 18.5$

a) Que $X$ tienen esta distribución normal y dejemos que $p=P(X\geqq 20)$ . Si estimamos $p$ por la frecuencia relativa, simplemente obtenemos 0. Sugiere otra estimación.

b)Que $x$ sea el percentil 95, es decir, un valor tal que $P(X \leqq x) > = 0.95$ . Sugiera una estimación para $x$ ."

Esto parece bastante sencillo. Sin embargo, no obtengo la misma respuesta que mi libro de texto. Estoy pensando que desde $X\sim N(\mu,\sigma ^2)$ podemos estimar $\mu = \bar{X} = 12.175$ y $\sigma ^2 = s^2 =\frac{1}{n-1}\sum_{k=1}^{n}(X_k-\bar{X})^2 \approx 11.79 \implies s \approx 3.43$ . Hasta aquí todo bien.

Ahora $p = P(X\geqq 20) = 1- P(\frac{X-\bar{X}}{s}\leqq\frac{20-\bar{X}}{s})$ donde $\frac{X-\bar{X}}{s} \sim F_{t_6}(0,1)$ es decir, una distribución T de $n-2 = 8-2 = 6$ grados de libertad. (Aquí es donde no estoy seguro de que esto sea correcto).

Esto lleva a $p = 1-F_{t_6}(2.28)$ que da la respuesta incorrecta según el libro. Del mismo modo, la parte (b) también es errónea. La cuestión principal es cómo utilizar la distribución T correctamente. ¿Es la distribución T incluso la opción correcta en este problema?

Agradecería mucho la ayuda porque mi libro de texto no explica muy bien este tipo de problemas.

¡Salud!

3voto

BruceET Puntos 7117

Estimación de una probabilidad. Mi opinión es que se supone que debes estimar $\mu$ como $\hat\mu = \bar X = 12.175$ y $\sigma$ como $\hat \sigma = 3.434.$ A continuación, utilice la distribución estimada $X \sim \mathsf{Norm}(\hat \mu, \hat\sigma)$ para estimar $P(X \ge 20) \approx 0.01135.$ En el software estadístico R (donde pnorm es un CDF normal), se ve así:

x=c(7.6,9.6,10.4,10.7,11.9,14.1,14.6,18.5)
mean(x); sd(x)
[1] 12.175
[1] 3.434177
1 - pnorm(20, mean(x), sd(x))
[1] 0.01134643

A continuación, se presenta el método cuantílico sugerido en la parte (b). Según R, el percentil 95 de tus datos es aproximadamente 17,1. (Varios textos y programas tienen varias reglas para encontrar cuantiles de conjuntos de datos pequeños. La La "regla del percentil" de su libro puede dar una respuesta algo diferente, probablemente en algún lugar entre 14,6 y 18,5).

sort(x)
[1]  7.6  9.6 10.4 10.7 11.9 14.1 14.6 18.5
quantile(x, .95)
   95% 
17.135 

Si buscamos el percentil 95 de la distribución normal estimada, $\mathsf{Norm}(\mu=12.175,\sigma=3.434)$ desde arriba, la respuesta no es muy diferente: alrededor de 17,82. (Los percentiles de de las distribuciones continuas se definen con precisión, por lo que no hay aquí, excepto por el redondeo).

qnorm(.95, mean(x), sd(x))
[1] 17.82372

Habiendo mostrado todo esto, lo siguiente puede estar fuera de lugar. Pero era razonable que pensaras en utilizar una distribución t para algo en la parte (a), y quiero terminar esa parte de la historia. Lee todo lo que te interese.

Además, tengo que decir que usando sólo $n = 8$ observaciones de esta manera para "encontrar $P(X \ge 20)$ de una distribución normal con un valor desconocido $\mu$ y $\sigma$ simplemente no es una idea factible idea en la práctica. Como se verá en los intervalos de confianza (IC) que aparecen a continuación, hay mucho espacio para el error aleatorio en la estimación $\mu$ y $\sigma$ de sólo $n=8$ observaciones.

Estimación de la media de la población: La distribución t sería apropiada si se tratara de encontrar una confianza de confianza basado en $\bar X$ para la media de la población normal $\mu$ o la realización de pruebas una hipótesis nula sobre $\mu.$

Específicamente, el t.test en R utiliza la distribución t de Student con $n - 1 = 8 - 1 = 7$ grados de libertad para encontrar el IC del 95% $(9.30, 15.05).$

t.test(x)

        One Sample t-test

data:  x
t = 10.027, df = 7, p-value = 2.101e-05
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
  9.303956 15.046044
sample estimates:
mean of x 
   12.175 

El IC no contiene 0, y la hipótesis nula $H_0: \mu = 0$ es se rechaza de forma abrumadora debido al ínfimo valor p.

Estimación de la varianza y de la DE de la población: También podría obtener un IC del 95% para $\sigma^2,$ utilizando el distribución chi-cuadrado: $(n-1)S^2/\sigma^2 \sim \mathsf{Chisq}(7).$ Un IC del 95% para $\sigma^2$ es $(7S^2/U,\, 7S^2/L),$ donde $L$ y $U$ corte 2,5% de la superficie de las colas inferior y superior, respectivamente, de $\mathsf{Chisq}(7).$ A continuación, tome las raíces cuadradas de los puntos finales para obtener un IC del 95% para $\sigma,$ que es $(2.27, 6.99).$

sqrt(7*var(x)/qchisq(c(.975,.025), 7))
[1] 2.270589 6.989485

La siguiente sesión del software Minitab (algo editada para su relevancia) da esencialmente el mismo CI para $\sigma:$

MTB > OneVariance 'x';
SUBC>   Confidence 95.0.

Test and CI for One Variance: x 

Method

The chi-square method is only for the normal distribution.

Statistics

Variable  N  StDev  Variance
x         8   3.43      11.8

95% Confidence Interval

                         CI for        CI for
Variable  Method          StDev       Variance
x         Chi-Square  (2.27, 6.99)  (5.2, 48.9)

Ni la distribución t de Student ni la distribución chi-cuadrado son útiles para encontrar para encontrar $P(X \ge 20).$ Cada uno de ellos es relevante para hacer una confianza para uno de los parámetros $\mu$ y $\sigma.$


Adenda: Todo funciona mejor para las muestras grandes. Considere la distribución $\mathsf{Norm}(\mu = 12, \sigma = 3.4),$ para lo cual $P(Y \ge 20) = 0.0111.$

1 - pnorm(20, 12, 3.5)
[1] 0.01113549

Si genero una muestra aleatoria de tamaño $n = 800$ a partir de esta distribución el proporción de observaciones que son 20 o más es 0,02, no muy lejos de 0,0111.$

y = rnorm(800, 12, 3.5)
mean(y >= 20)
[1] 0.02

Si finjo que no sé $\mu$ y $\sigma,$ Obtengo las estimaciones respectivas $\bar Y = 12.22$ y $S = 3.53,$ que se acercan razonablemente a la verdad.

mean(y);  sd(y)
[1] 12.22147
[1] 3.525766

La distribución normal estimada da $P(Y \ge 20) \approx 0.013.$

1 - pnorm(20, mean(y), sd(y))
[1] 0.01368513

El percentil 95 de la distribución real es $17.76.$

qnorm(.95, 12, 3.5)
[1] 17.75699

El percentil 95 de la distribución estimada es $18.02.$

qnorm(.95, mean(y), sd(y))
[1] 18.02084

El percentil 95 de los puntos muestreados de la distribución verdadera es $18.15.$

quantile(y, .95)
     95% 
18.15345 

Un intervalo de confianza del 95% para $\mu$ es $(11.98, 12.47)$ [no se muestra la salida, pero confía en mí en esto], que se acerca a la verdadera media $\mu = 12$ de la distribución que produjo los datos.

Y por último, la función de densidad de $\mathsf{Norm}(\mu = 12, \sigma = 3.4),$ se corresponde bastante bien con un histograma del $n = 800$ observaciones muestreadas.

enter image description here

Ninguno de estos partidos ha sido perfecto, pero espero que puedas ver que las ideas de su problema funcionan a mucho mejor para el tamaño de la muestra $n = 800$ que para $n = 8.$

Nota: Probablemente podría haber mostrado un ejemplo con mejores coincidencias si hubiera generado una docena de muestras de tamaño $n = 800$ y eligió el "mejor". Pero lo que ves aquí es la primera muestra que apareció. Además, supongo que es obvio que un ejemplo con $n=80,000$ habría funcionado mejor aún.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X