Estoy buscando dividir a los 50 estados de los estados unidos en n
regiones. Los requisitos de la división son:
- A cada estado se le asigna un valor
- Los valores de estado en cada región, deben sumar para hacer que incluso los totales de grupo (tan cerca como sea posible). Que parece hacer de esta una bandeja de embalaje problema de la variación.
- Los estados de cada región deben estar geográficamente agrupados, Por ejemplo, CA+O+WA deben ser agrupados a pesar de CA+GA+RI produce una menor desviación estándar de valor regionales totales.
Este post le pregunta a una pregunta similar. K-means clustering parece una exageración ya que los estados sólo tienen que ser los vecinos, sin embargo, estoy bastante verde para las estadísticas.
Como nota al margen, estoy en última instancia, buscan implementar esto en Ruby (que tiene un R de la biblioteca plugin).
ACTUALIZACIÓN
La motivación detrás de la agrupación es para facilidad de los viajes, por lo tanto clúster de compacidad es más importante que el estado de adyacencia (es decir, larga, estrecha, de cadena en forma de racimos que deben evitarse).