Tengo nueve hojas de cálculo que contiene información sobre un total de 33,401 eventos únicos en el área de Chicago. Me han pedido para geocodificar todos estos, si es posible, y yo sin duda no es ajeno a la geocodificación. Sin embargo, la información de ubicación para cada uno de ellos es la peor que he visto nunca, escrito en un solo campo, con ningún convenio en particular.
No tengo el código POSTAL o la ciudad de los nombres, pero tengo condado de nombres en casi todos los casos. Cuando los nombres de las calles están incluidos, son a menudo falta a sus sufijo ("Ave", "St", "Rd"). Estado y de las autopistas de estados unidos son con frecuencia codificada como la indiscriminada "Rte/Rt". La mayoría de los lugares se han escrito como intersecciones (a menudo con exceso de información irrelevante), tales como:
SB Pulaski & 162nd St.
I-55 @ Rt.30
Devon and Cicero (Il 50) NW corner TS
NB Rt.41 @ Half Day Rd. Exit Ramp.
En el caso de las Autopistas, estos "intersecciones" a menudo, en realidad no existe, sólo hace referencia a una calle de la carretera Interestatal pasa por encima. Un buen número han (relativamente) las direcciones adecuadas:
1800 s Wolf rd. south of Oakton, north of Touhy.
1010 S. Rt. 14 - in front of Thunderbird Country C
Grayslake Maintenance Yard, 217 N. Baron, Grayslak
Algunos son más vagos, pero en general todavía bien especificado:
South bound Busse rd south of Oakton and Higgins
EB Elgin-O'Hare W of Rohlwing Rd
NB IL-59, 1 mile north of IL-132
Y algunos son casi ciertamente imposible de localizar, sin más contexto:
EB Elgin O'Hare expresway
Prairie View Rest Area
Comm Center/Stevenson Yard
Mi pregunta es, dada la amplia gama de formatos y nada-va enfoque para especificar las direcciones de estos conjuntos de datos, existen métodos propuestos para el análisis de, al menos, algunas de estas cosas en un razonablemente limpia conjunto de geocodable direcciones? He sido muy confundido y he estado yendo a por el doloroso proceso de hacer sentido de los registros individuales en los Mapas de Google. Quiero recortar tanto el trabajo manual como sea posible, ya que prefiero no pasar los próximos tres años trabajando en esto.