15 votos

¿Cómo puedo grupo de datos numéricos en forma natural la formación de "soportes"? (por ejemplo, ingresos)

A continuación se describe lo que estoy tratando de lograr, pero es posible, una alternativa declaración del problema puede describir mi objetivo:

Quiero

  1. divida a los siguientes números en grupos donde las desviaciones de los números dentro de cada grupo no son demasiado grandes, y las diferencias entre las medias de los grupos no son demasiado pequeños

  2. comparar la distribución obtenida en el final con el "perfecto" y ver cómo "diferente" es de ser perfecto.


Laico de explicación de la meta

Estoy tratando de calcular la distribución de los ingresos, y determinar los "ingresos" de cada población. La clasificación de los ingresos que se supone para ser auto-ajuste basado en los datos de entrada.

Mi objetivo es, en última instancia, medir o calcular la diferencia entre los tramos de ingresos. Supongo que habrá muchos soportes, y quiero ver que tan lejos "aparte" de cada nivel.

Aquí está una muestra de ingresos por hora para un conjunto de muestras de una población de 20, y un total de ingresos de 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

¿Cómo puedo utilizar conceptos matemáticos para agrupar, ordenar y analizar los datos que actúa como la distribución de los ingresos a través de una población determinada?

Al final del cálculo, quiero determinar niveles de distribución de la renta, donde una distribución perfecta sería algo como esto

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

o esto:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

Pregunta

¿Cómo debo analizar los grupos de población, y medir la brecha de una manera que me dirá cuánto se necesita para hacer que sea más como la última conjuntos de dos modelos mencionados anteriormente?

19voto

Nick Cox Puntos 22819

El análisis de Cluster con una sola variable tiene perfecto sentido cuando hay algunos dimensión a lo largo de la cual los valores se pueden arreglar. Esto podría ser un escala de medición, el tiempo o el espacio.

Dado que los datos estén ordenados en algunos escala de medida, no puede ser interés en la búsqueda de relación se rompe dentro de una distribución de frecuencia (antimodes, en una terminología).

Nota de precaución: sin Embargo, rompe la definición de contenedores que son, o que podría parecer arbitraria, son ampliamente rechazado en varias áreas de la ciencia estadística, y está muy extendida y marcada preferencia por binning con intervalos iguales, y muy a menudo para evitar el agrupamiento por completo cuando sea posible. Esto es en parte una cuestión de gusto, en parte, de la convención: las prácticas han cambiado a medida que se vuelve más fácil para almacenar conjuntos de datos en su totalidad.

Un momento de la serie se puede dividir en los hechizos, épocas, períodos, lo que sea, idealmente con diferencias relativamente pequeñas dentro de subserie y relativamente grandes diferencias entre la subserie. El mismo problema que se plantea para el espacio siempre una sola dimensión espacial (horizontal o vertical) se puede subdividirse. En geología y otras ciencias, esto a menudo es estudiado bajo el título de zonificación.

Tenga en cuenta que cualquier formales de la agrupación debe ser siempre acompañada de las oportunas el trazado de los datos (por ejemplo, el uso de un punto o cuantil o línea de parcela), que de hecho puede hacer que claro que se rompe son obvias (de manera formal la agrupación es meramente decorativo) o que convencer a los saltos no existen (por lo que los clústeres pueden ser inútil).

Considere la posibilidad de un juguete ejemplo de valores ordenados por magnitud:

    14 15 16 23 24 25 56 57 58 

cuando es evidente que una de tres grupo de clústeres

    14 15 16 | 23 24 25 | 56 57 58 

es sensato. Si el pedido está en los valores por sí solos, o en el tiempo o en el espacio, los datos pueden ser siempre colocan en una dimensión, que da la estructura especial del problema. Así, aunque más general de la agrupación los métodos pueden ser utilizados, por la especial estructura idealmente debería ser aprovechado. $k$ grupos ideado para $n$ valores son definidos por la colocación de $k - 1$ marcadores (en el ejemplo de arriba, $k - 1 = 2$); $n - 1$ posibles lugares para ponerlos. Hay, pues, $n - 1 \choose k - 1$ posible conglomerados. Sin embargo, si $k$ es gratis para variar, entonces el número total de posibles conglomerados es $2^{n - 1}$, como cada el valor puede estar en el mismo grupo que cada vecino, o no. Incluso modesta $n$, que es un gran número.

El problema puede ser hecho preciso (Fisher, 1958; Hartigan 1975) mediante la colocación de marcadores para minimizar, para un número determinado de grupos, el

$$\text{sum over groups of variability around group centres}.$$

Una suma de cuadrados de las desviaciones de las medias de los grupos se vienen a la mente como la mayoría de los posibilidad obvia. Suma de absoluta las desviaciones de grupo de las medianas, y otras medidas, bien podría ser entretenido.

Hartigan (1975) mostró cómo una programación dinámica hace que tales cálculo sencillo y presentado código de Fortran. Stata aplicación (Cox, 2007) group1d a instalarse a partir de la CSS.

Cox, N. J. 2007. GROUP1D: Stata módulo de agrupamiento o clustering en una dimensión. http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, W. D. 1958. En la agrupación para la máxima homogeneidad. Diario, American Asociación Estadística 53: 789-98.

Hartigan, J. A. 1975. Algoritmos de Clustering. Nueva York: John Wiley. Ch.6.

Postscript Este enfoque parece coincidir con la primera parte de la pregunta específica. Me han ofrecido generalmente porque creo que la formulación es de interés general (y porque era fácil para mí para reciclar parte de la documentación de Cox, 2007). Pero si el objetivo es comparar la distribución de los ingresos con una referencia a la distribución uniforme, no veo que el agrupamiento tiene ningún papel que desempeñar en todo. Que es un problema estándar en la economía para que las curvas de Lorenz y medidas de desigualdad son los puntos de partida. En esencia, usted puede comparar cuantil para los cuantiles o por ciento punto de porcentaje de punto.

1voto

ftfarias Puntos 1

Echa un vistazo por Jenks Natural de la Rotura:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Creo que es lo que necesita, y existen implementaciones en muchos idiomas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X