Tradicionalmente, los histogramas se han utilizado como la densidad de los estimadores. Varios
algoritmos para el número de contenedores, basado en el número de observaciones,
están en uso. Los motivos de estos algoritmos están basados en el objetivo de que
el histograma debe dar una idea de la forma de la distribución de la población.
La sección 3.2 del artículo de Wikipedia sobre los histogramas muestran varias comúnmente implementado
reglas.
Sin embargo, en el agrupamiento de los datos en un histograma, se pierde algo de información.
En consecuencia, un CDF empírica de la curva (saltando por $\frac{1}{n}$th en cada observación)
a menudo es una indicación más clara de la población de CDF que un histograma es de
la población PDF (densidad). Las parcelas que aparecen a continuación ilustran esta para
una muestra de tamaño $n = 100$ $\mathsf{Gamma}(shape=5,rate=1/10).$
set.seed(1776); x = rgamma(100, 5, .1)
par(mfrow=c(1,2))
hist(x, prob=T, col="skyblue2", main="Histogram: Sample of 100 from GAMMA(5,rate=.1)")
curve(dgamma(x,5, .1), col="blue", lwd=3, add=T)
plot(ecdf(x), main="ECDF: Sample of 100 from Gamma(4, rate=.1)");
curve(pgamma(x, 5,.1), lwd=3, col="blue", add=T)
par(mfrow=c(1,1))
Un moderno método de estimación de densidad, generalmente implementadas por ordenador,
en un estimador de densidad de kernel (KDE). Aproximadamente, las curvas que se generan a la aproximación de
la densidad de población en varios subintervalos de la extensión de los datos, y
a continuación, el de las curvas se unen para formar una curva suave. El término 'kernel'
se refiere al tipo de curva (tal vez parte de una densidad normal de la curva), y
el término "ancho de banda" se refiere a la longitud de los subintervalos. Usted puede
consulte el correspondiente artículo de la Wikipedia de una forma más técnica de la explantación; he encontrado el libro por Silverman (1985), hace referencia a que hay que ser
una muy claramente escrito lugar de partida.
KDEs son implementadas en R de software estadístico. La siguiente figura muestra la
curva de densidad (cian) de $\mathsf{Norm}(\mu=100, \sigma=15),$ un histograma de una al azar
ejemplo de tamaño de $n=500$ a partir de esta distribución, y el defecto de KDE (rojo) de R en base
en la muestra. (Las marcas de graduación por debajo del eje horizontal se muestran las ubicaciones exactas
de los 500 observaciones.)
set.seed(1234); m = 500; mu = 100; sg = 15
x = rnorm(m, mu, sg)
hist(x, prob=T, col="skyblue3", main="Sample of 500 from NORM(100,15)")
curve(dnorm(x, mu, sg), lwd = 2, col="cyan", add=T)
lines(density(x), lwd=3, col="red") # density estimator implemented here
Nota: por supuesto, si usted sabe que la población es normal, entonces es mejor utilizar esta información y
para estimar el $\mu$ $\bar X = 100.04$ $\sigma$ $S = 15.5.$
trazar una curva de densidad normal el uso de estas estimaciones.
mean(x); sd(x)
## 100.0276
## 15.52221