Tengo un conjunto de datos con las siguientes características y no logro entenderlo. "Tres desviaciones estándar incluyen el 99.7% de los datos" es lo que me digo a mí mismo, pero eso parece estar mal redactado.
Observaciones: 2246
Media: 39
Desv. est.: 3
Mínimo: 34
Máximo: 46
Media - 3*sd: 30
Media + 3*sd: 48
Esto me dice que el 99.7% de los datos está entre 30 y 48, pero el 100% de los datos está entre 34 y 46 y eso no tiene sentido. ¿Significa simplemente que mi muestra no es representativa de la población total? Quiero decir, obviamente, no lo es, pero asumamos que no sé que existen humanos menores de 34 y mayores de 46. Por cierto, esto es de la variable edad
del conjunto de datos de muestra Stata nlsw88.dta
.
He mirado esta pregunta, pero tampoco me ayuda a deshacer el nudo en mi cerebro. ht lugar para preguntar.
EDITAR: Acabo de darme cuenta de que son muchas preguntas. Por favor, considere que la pregunta principal necesita una respuesta. El resto es más que nada mi confuso proceso de pensamiento desenrollándose.
1 votos
El mínimo y el máximo son el mínimo y el máximo de la población que observaste. La desviación estándar se calcula a partir de la muestra de la población. Suponiendo entonces una población infinitamente grande con las mismas características que la muestra observada, y una distribución normal, el 99,7% de las personas estaría entre 30 y 48. La consecuencia es que tu muestra inicial tendría que haber sido más grande para haber observado a alguien menor de 34 o mayor de 46.