Dada una serie de valores, sé que el 68% de los valores caen dentro de una desviación estándar y que el 95% caen dentro de 2 desviaciones estándar, pero ¿cómo puedo calcular el rango en el que caerá el 90% de los valores? Llamemos a ese rango del 90% el rango típico.
Respuestas
¿Demasiados anuncios?Dada una serie de valores, sé que el 68% de los valores caen dentro de una desviación estándar y que el 95% caen dentro de 2 desviaciones estándar,
Esto no será cierto como afirmación general, a veces ni siquiera aproximadamente.
-- aparte
Para aclarar
@whuber señala que a menudo son buenas aproximaciones - lo cual es cierto. (El caso de 2 d.s. en particular parece ser bastante robusto; si tienes datos continuos unimodales que no son demasiado asimétricos, la regla de 2 d.s. no puede estar fuera por más de un 7%). Pero planteado como una afirmación general, como intenté señalar, no es el caso. Puede ser que ni siquiera estén más o menos en la balanza. He encontrado datos reales (¡muy a menudo!) que se acercan mucho al 100% dentro de 1 s.d. de la media - de hecho, hay algunos en mi sesión de R ahora mismo con los que estaba jugando hace poco (algunos datos de seguros). También me he encontrado (unas cuantas veces) con datos que estaban muy cerca del 0% dentro de 1 s.d. de la media. Por ejemplo, he visto datos de la escala Likert que estaban muy cerca de la división uniforme en los extremos, con sólo un porcentaje muy pequeño en las categorías interiores entre ellos. Esto sucede realmente.
Considere dos muestras de 100 observaciones. Una tiene 98 0 y un -1 y un 1. La otra tiene dos ceros y 49 -1 y 49 1. La primera tiene el 98% de los datos dentro de un d.s. de la media, mientras que la segunda tiene el 2% dentro de un d.s. de la media. (Los datos reales que he visto no son tan "limpios", pero los porcentajes no son tan diferentes).
Si utiliza R, estos vectores contienen esas muestras:
x1<-c(-1,1,rep(0,98))
x2<-c(0,0,rep(-1,49),rep(1,49))
-- fin de la nota
Parece que has omitido algunas condiciones.
¿Cómo puedo calcular el rango en el que caerá el 90% de los valores? Llamemos a ese rango del 90% el rango típico
Si te refieres a "para datos con distribución normal" (que es mejor que especifiques), y suponiendo un intervalo simétrico entonces sólo tienes que encontrar los percentiles 5 y 95 de la distribución normal. Esos son aproximadamente 1,645 sd a cada lado de la media.
Puedes buscarlos en las tablas normales o utilizar un programa que los encuentre por ti.
--
Edición: Es también es posible generar intervalos no paramétricos basados en los cuantiles de la muestra, como los intervalos de tolerancia o los intervalos de predicción (dependiendo de la forma precisa de la declaración de probabilidad que se desee hacer). Estos son menos eficientes que cuando sus datos tienen realmente cualquier forma paramétrica que usted asuma, pero no dependen de ninguna suposición paramétrica.
Independientemente de que los datos sean normales, uniformes o de otras muchas distribuciones, hay formas de calcular un rango en el que encaje el 90% de los datos.
La suposición habitual es que usted quiere que el medio 90%. En este caso, encuentre el 5% y el 95% y esa es su respuesta. Puede haber algunos problemas con los empates, y hay al menos 5 definiciones de "cuantil", pero ésa es la idea básica.
Por supuesto, el 90% también se sitúa entre el mínimo y el 90 %til
En R
puede obtener el 5 y los percentiles con el quantile
función. Por ejemplo
set.seed(10201082)
x <- runif(1000,0,10)
quantile(x, probs = c(.05, .95))
con estos datos, el 56% está dentro de 1 sd:
sum(x > 5 - sd(x) & x < 5 + sd(x))
y todo está dentro de 2 sd