10 votos

Hay un límite superior en el número de intervalos en un histograma?

He leído varios artículos y fragmentos de libros que explican cómo elegir a un buen número de intervalos (contenedores) para el histograma de un conjunto de datos, pero me pregunto si no hay un duro máximo número de intervalos basados en el número de puntos en un conjunto de datos, o algún otro criterio.

Antecedentes: La razón por la que estoy pidiendo es que estoy tratando de escribir software basado en un procedimiento de un trabajo de investigación. Un paso en el procedimiento es crear varios histogramas a partir de un conjunto de datos, a continuación, elija la resolución óptima basada en una característica de la función (definida por los autores de la ponencia). Mi problema es que los autores no mencionan una cota superior para el número de intervalos a prueba. (Tengo cientos de conjuntos de datos a analizar, y cada uno puede tener diferentes "óptima" número de contenedores. También, es importante que el óptimo número de contenedores está seleccionada, así que buscando manualmente en los resultados y la escogencia de un buen uno no funciona).

Simplemente ajuste el número máximo de intervalos a ser el número de puntos en el conjunto de datos a ser una buena guía, o hay algún otro criterio que se utiliza normalmente en las estadísticas?

6voto

AdamSane Puntos 1825

Realmente no hay ningún límite superior, pero por otro lado, en la mayoría de las situaciones, una vez que todos únicas observaciones en su propio bin, más fino contenedores sólo sirven para identificar sus posiciones más precisamente, sin transmitir mucho más. por ejemplo, comparar estos:

histogram with 30 bins
histogram with 100 bins

Excepto en algunas circunstancias muy particulares, no va a haber ningún beneficio práctico en la segunda trama, y no tanto en la primera. Si los datos son continuos, esta es probablemente la forma más allá de un útil número de contenedores.

Así, en la mayoría de las situaciones, que parece, al menos, una práctica límite superior - cada observación en su propia bandeja.

(Si no es en beneficio de más bandejas de uno por única observación, probablemente debería estar haciendo un rugplot o un jitter stripchart para obtener ese tipo de información) - algo así como lo que se hace en los márgenes de estos histogramas:

histogram rugplot with jitter
histogram with stripchart

(Los histogramas son tomadas de esta respuesta, cerca del final)

5voto

Nick Cox Puntos 22819

Es una buena ocasión para tener un gran número de contenedores, por ejemplo, contenedores para cada valor posible, siempre que se sospecha que el detalle de un histograma no sería de ruido, pero muy interesante, importante o de estructura fina.

Esto no está directamente conectado a la precisa motivación para esta pregunta, con ganas de una regla automatizada para algún número óptimo de bandejas, pero es pertinente a la cuestión como un todo.

Vamos a hacernos saltar de inmediato a los ejemplos. En la demografía de redondeo de los casos denunciados de edades es común, especialmente, pero no sólo en los países con limitado nivel de alfabetización. Lo que puede suceder es que mucha gente no sabe su fecha exacta de nacimiento, o social o por motivos personales, ya sea para la comprensión o para exagerar su edad. La historia militar está llena de ejemplos de personas que mentir acerca de su edad, ya sea para evitar o a solicitar el servicio en las fuerzas armadas. De hecho, muchos lectores saben de alguien que es muy tímida o de otra manera no del todo veraz acerca de su edad, incluso si ellos no mienten acerca de un censo. El resultado neto varía, pero como ya implícita es generalmente de redondeo, por ejemplo, las edades terminados en 0 y 5 son mucho más comunes que las edades de un año más o menos.

Un fenómeno similar de preferencia de dígitos es común que incluso los muy diferentes problemas. Con algunos antiguos métodos de medición el último dígito de un reporte de la medición se mide por el ojo por interpolación entre graduado marcas. Este fue largo estándar en meteorología con los termómetros de mercurio. Se ha encontrado que, en conjunto, ha informado de algunos dígitos son más comunes que otros y que, individualmente, muchos de nosotros hemos firmas, un patrón personal de favorecer a algunos dígitos en lugar de los demás. La referencia usual de distribución de aquí es el uniforme, que es, mientras que la gama de posibles medidas es muchas veces mayor que la de la "unidad" de la medición, los dígitos finales se espera que ocurren con igual frecuencia. Así que si se ha informado a la sombra de las temperaturas podrían cubrir un rango de (digamos) el 50 $^\circ$C los diez últimos dígitos, fracciones de un grado .0, .1, $\cdots$, .8, .9 deben ocurrir con una probabilidad de 0.1. La calidad de esta aproximación debe ser bueno, incluso para un alcance más limitado.

Por cierto, viendo los últimos dígitos de los datos registrados es un simple y buen método de comprobación para el fabricado de datos, uno que es mucho más fácil de entender y menos problemático que el de la moda, el escrutinio de los primeros dígitos con una apelación a la Ley de Benford.

El resultado para los histogramas de ahora debe ser claro. Una forma de espiga presentación puede servir para mostrar, o más en general, para comprobar, este tipo de estructura fina. Naturalmente, si no hay nada de interés se observa, en el gráfico puede ser de poca utilidad.

Un ejemplo se muestra la edad colmadas de Ghana censo de 1960. Ver http://www.stata.com/manuals13/rspikeplot.pdf

No fue una buena revisión de las distribuciones de los dígitos finales en

Preece, D. A. 1981. Las distribuciones de los dígitos finales en los datos. El Estadístico 30: 31-60.

Una nota sobre la terminología: algunas personas escriben acerca de los valores únicos de una variable cuando sería mejor hablar acerca de los distintos valores de una variable. Los diccionarios y los manuales de uso avisar que "singular" significa que ocurre sólo una vez. Así, los distintos informó de edades de una población podría ser, en los años 0, 1, 2, etc. pero la gran mayoría de esas edades no va a ser exclusivo de una persona.

4voto

Alan LaMielle Puntos 53

No hay un máximo para el número de contenedores en un histograma. Si la variable que se ha trazado es continua, entonces un argumento puede ser hecho por un infinito número de categorías (y el histograma básicamente, se convierte en una alfombra de parcela).

El número de puntos en el conjunto de datos no es un caso límite superior. Considere un conjunto de datos que contiene dos valores: 1 y 1000. Tener dos bandejas no sería apropiado.

Dos métodos prácticos para determinar un-límite superior son: a) la Determinación de los subyacentes de redondeo de los datos. Por ejemplo, si los datos son enteros, entonces hace sentido tener recipientes que se entero de ancho. b) en cuanto a la máxima visible de la resolución (por ejemplo, el número de píxeles en la dimensión horizontal que puede ser utilizado para el trazado).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X