5 votos

Expectativa y varianza del 10% superior de cualquier distribución normal

Corto: Con la curva estándar (es decir, media=0, desviación estándar=1), ¿el 10% superior forma su propia distribución normal con la expectativa de 1,74 y la desviación estándar de 0,40?

Largo: Escribí un pequeño programa que toma los números 0.005,.015,.025,...,0.995, que son 100 números. Tomo los 10 primeros (.905-.995), encuentro su puntuación z (1,31,1,37,...,2,58), los sumo y divido por 10 y obtengo 1,7447. De forma similar, busco la varianza y obtengo 0,1578, o una desviación estándar de aproximadamente 0,3972.

Todo parece estar bien hasta ahora. Luego tomo los 90 números inferiores y calculo la expectativa y obtengo -.194. Esto funciona porque si utilizo la ley de expectativas iteradas, la expectativa resulta ser 0, lo que esperamos de la curva estándar.

A continuación, utilizo la ley de la varianza total y obtengo la inusual respuesta de 1,118, en lugar de 1. La expectativa de las dos varianzas es 0,658 y la varianza de las dos expectativas es 0,460.

Esto no parece tan malo, después de todo estoy aproximando con 100 números. Así que lo ejecuté de nuevo con 1000 números y luego con 10.000 números. Parece que converge en una varianza de alrededor de 1,116, que no esperaba.

¿Alguna idea sobre la discrepancia o una forma mejor de averiguarlo?

TIA, Cary

3voto

BruceET Puntos 7117

Tienes razón en que es suficiente con resolver el problema para la distribución normal estándar y luego extender los resultados a distribuciones más generales a partir de ahí.

El 10% superior de una distribución normal no puede ser normal. Es una distribución sesgada a la derecha. En la siguiente ilustración, se trata de la parte de la distribución situada a la derecha de la línea roja vertical.

enter image description here

Puede utilizar un programa de simulación para Aproximadamente el media y la varianza de los valores de una distribución normal estándar por encima del percentil 90, que está en $1.281552.$

qnorm(.90)
[1] 1.281552

Sin embargo, necesitará una muestra simulada muy grande para obtener una buena aproximación. En el programa R siguiente, tomo una muestra de un millón de observaciones normales estándar (vector z ), deseche el 90% inferior y encuentre la media y la desviación estándar del 10% restante en la cola derecha de la distribución distribución en el vector x .

z = rnorm(10^6);  x = z[z > qnorm(.90)]
length(x);  mean(x); median(x);  var(x)
[1] 99630      # about 100,000 observations retained
[1] 1.75691    # aprx E(X)
[1] 1.645981   # aprx Med(X) = 1.6448
[1] 0.1705936  # aprx Var(X)
qnorm(.95)   
[1] 1.644854   # 95th percentile of Z

La media aproximada es 1,76, la varianza aproximada es de 0,171.

Como comprobación de la simulación, también encontré la mediana como 1,646, mientras que la respuesta exacta tiene que ser el percentil 95 de la normal estándar, que es 1,645. Típico de muchas distribuciones sesgadas hacia la derecha, observe que la media es algo mayor que la mediana.

Sobre la base de los 99.630 (aproximadamente 100.000) retenidos observaciones, la simulación debería tener una precisión de unos dos decimales.

Si se trata de un problema en un curso, tal vez se deba utilizar un método distinto de la simulación para obtener respuestas exactas. Si quieres leer más sobre este tipo de problema, se llama "distribución normal truncada".

Adenda: Aquí hay un método de integración numérica en R para la media de esta normal truncada que no utiliza la simulación.

integrand = function(x){x*10*dnorm(x)}
integrate(integrand, qnorm(.9), Inf)
1.754983 with absolute error < 8.4e-06

Es decir, si $f(z) = 10\varphi(z)$ para $z \in (1.281552, \infty),$ como en mi comentario provocado por @Marco Bellocchi, entonces el código anterior proporciona una evaluación de $$\int_{1.281552}^\infty zf(z)\, dz = 1.754983.$$ Por tanto, vemos que el valor 1,75691 anterior de la simulación es correcto dentro del margen de error de la simulación.

Supongo que los programas matemáticos como Matlab también realizan este tipo de aproximaciones numéricas de las integrales.

0 votos

También añadiría que la parte derecha del PDF necesita básicamente ser "normalizada", lo que significa, en términos lamosos, que para tener el PDF del 10% superior, el área bajo la curva a la derecha de la línea roja de la imagen publicada debería sumar 1. Excelente respuesta.

1 votos

@MarcoBellocchi. Bien, entonces el PDF es $10\varphi(z),$ para $z > \Phi^{-1}(.9) = 1.281552.$

0 votos

Gracias por la respuesta tan completa, aunque me has dejado un poco alucinada. Suponía que los atletas olímpicos o los graduados del MIT tendrían una distribución normal entre ellos, pero supongo que no. Además, quería encontrar la varianza para hacer alguna predicción, pero no creo que sea útil dados los datos sesgados. Oh, bueno, ¡ahora entiendo la estadística un poco mejor que antes!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X