Cuando es un uniforme-bin histograma mejor que un no-uniforme de reciclaje?
Esto requiere algún tipo de identificación de lo que nos gustaría que buscan optimizar; muchas personas tratan de optimizar el promedio integrado mean square error, pero en muchos casos creo que algo pierde el punto de hacer un histograma; a menudo (a mis ojos) 'oversmooths'; para una herramienta de exploración como un histograma puedo tolerar una buena oferta de más de rugosidad, ya que la rugosidad de la misma me da un sentido de la medida a la que me debe "suave" por el ojo; Tiendo a por lo menos el doble de la cantidad normal de contenedores a partir de tales normas, a veces una buena oferta de más. Tiendo a estar de acuerdo con Andrew Gelman en esto; de hecho, si mi interés era realmente un buen AIMSE, yo probablemente no debería estar considerando un histograma de todos modos.
Así que necesitamos un criterio.
Permítanme comenzar por la discusión de algunas de las opciones de la no-igualdad de área de histogramas:
Hay algunos enfoques que hacer más suavizado (menos, más amplio contenedores) en las zonas de menor densidad y son más estrechas contenedores donde la densidad es mayor, tales como "la igualdad de área" o "igual" número de histogramas. Tu editado pregunta parece considerar que la igualdad de contar posibilidad.
El histogram
función en R lattice
paquete puede producir aproximadamente igual-barras de la zona:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
El descenso justo a la derecha de la izquierda bin es aún más clara si se toma cuarta raíces; con igual anchura contenedores que no se puede ver a menos que se utilice de 15 a 20 veces la cantidad de contenedores y, a continuación, la cola derecha se ve terrible.
Hay una igualdad de contar histograma aquí, con R-código, que utiliza la muestra de cuantiles para encontrar los descansos.
Por ejemplo, en los mismos datos como la de arriba, aquí es 6 cubos de (esperemos) 8 observaciones de cada uno de ellos:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Este CV pregunta apunta a un papel por Denby y Mallows una versión de la cual se puede descargar desde aquí que describe un compromiso entre la igualdad de ancho de contenedores y de igual área de contenedores.
También aborda las preguntas que había en cierta medida.
Quizás podría considerar el problema como uno de la identificación de la rompe en trozos constante proceso de Poisson. Que llevaría a la obra como ésta. Hay también los relacionados con la posibilidad de mirar la agrupación/tipo de clasificación de los algoritmos en (digamos) de Poisson cuenta, algunos de los cuales algoritmos daría un número de ubicaciones. La agrupación ha sido utilizado en 2D histogramas (imágenes, en efecto), para identificar las regiones que son relativamente homogéneos.
--
Si hemos tenido una igual-recuento de histograma, y algún criterio para optimizar podríamos probar una serie de cuentas por los bin y evaluar el criterio de alguna manera. La Varita documento se mencionan aquí [en papel, o papel de trabajo pdf] y algunas de sus referencias (por ejemplo, a la Sheather et al ponencias por ejemplo) esquema de "enchufe" bin ancho de estimación basado en el kernel smoothing ideas para optimizar AIMSE; en términos generales que tipo de enfoque debería ser adaptable a esta situación, aunque no recuerdo ver que se haga.