El análisis de Cluster con una sola variable tiene perfecto sentido cuando hay
algunos dimensión a lo largo de la cual los valores se pueden arreglar. Esto podría ser un
escala de medición, el tiempo o el espacio.
Dado que los datos estén ordenados en algunos escala de medida, no puede ser
interés en la búsqueda de relación se rompe dentro de una distribución de frecuencia
(antimodes, en una terminología).
Nota de precaución: sin Embargo, rompe la definición de contenedores que son, o que podría parecer arbitraria, son ampliamente rechazado en varias áreas de la ciencia estadística, y está muy extendida y marcada preferencia por binning con intervalos iguales, y muy a menudo para evitar el agrupamiento por completo cuando sea posible. Esto es en parte una cuestión de gusto, en parte, de la convención: las prácticas han cambiado a medida que se vuelve más fácil para almacenar conjuntos de datos en su totalidad.
Un momento de la serie se puede dividir en los hechizos,
épocas, períodos, lo que sea, idealmente con diferencias relativamente pequeñas dentro de
subserie y relativamente grandes diferencias entre la subserie. El mismo
problema que se plantea para el espacio siempre una sola dimensión espacial (horizontal o vertical) se puede subdividirse. En geología y otras ciencias, esto a menudo es estudiado bajo el título de zonificación.
Tenga en cuenta que cualquier formales de la agrupación debe ser siempre acompañada de las oportunas
el trazado de los datos (por ejemplo, el uso de un punto o cuantil o línea de parcela),
que de hecho puede hacer que claro que se rompe son obvias (de manera formal
la agrupación es meramente decorativo) o que convencer a los saltos no existen (por lo
que los clústeres pueden ser inútil).
Considere la posibilidad de un juguete ejemplo de valores ordenados por magnitud:
14 15 16 23 24 25 56 57 58
cuando es evidente que una de tres grupo de clústeres
14 15 16 | 23 24 25 | 56 57 58
es sensato. Si el pedido está en los valores por sí solos, o en el tiempo o
en el espacio, los datos pueden ser siempre colocan en una dimensión, que da
la estructura especial del problema. Así, aunque más general de la agrupación
los métodos pueden ser utilizados, por la especial estructura idealmente debería ser aprovechado. $k$
grupos ideado para $n$ valores son definidos por la colocación de $k - 1$ marcadores (en el
ejemplo de arriba, $k - 1 = 2$); $n - 1$ posibles lugares para ponerlos.
Hay, pues, $n - 1 \choose k - 1$ posible conglomerados. Sin embargo, si $k$ es gratis
para variar, entonces el número total de posibles conglomerados es $2^{n - 1}$, como cada
el valor puede estar en el mismo grupo que cada vecino, o no. Incluso modesta $n$,
que es un gran número.
El problema puede ser hecho preciso (Fisher, 1958; Hartigan 1975) mediante la colocación de
marcadores para minimizar, para un número determinado de grupos, el
$$\text{sum over groups of variability around group centres}.$$
Una suma de cuadrados de las desviaciones de las medias de los grupos se vienen a la mente como la mayoría de los
posibilidad obvia. Suma de absoluta
las desviaciones de grupo de las medianas, y otras medidas, bien podría ser entretenido.
Hartigan (1975) mostró cómo una programación dinámica hace que tales
cálculo sencillo y presentado código de Fortran. Stata aplicación (Cox, 2007) group1d
a instalarse a partir de la CSS.
Cox, N. J. 2007. GROUP1D: Stata módulo de agrupamiento o clustering en una dimensión. http://ideas.repec.org/c/boc/bocode/s456844.html
Fisher, W. D. 1958. En la agrupación para la máxima homogeneidad. Diario, American
Asociación Estadística 53: 789-98.
Hartigan, J. A. 1975. Algoritmos de Clustering. Nueva York: John Wiley. Ch.6.
Postscript Este enfoque parece coincidir con la primera parte de la pregunta específica. Me han ofrecido generalmente porque creo que la formulación es de interés general (y porque era fácil para mí para reciclar parte de la documentación de Cox, 2007). Pero si el objetivo es comparar la distribución de los ingresos con una referencia a la distribución uniforme, no veo que el agrupamiento tiene ningún papel que desempeñar en todo. Que es un problema estándar en la economía para que las curvas de Lorenz y medidas de desigualdad son los puntos de partida. En esencia, usted puede comparar cuantil para los cuantiles o por ciento punto de porcentaje de punto.