5 votos

La diferencia entre los extractos regionales de OSM es inesperadamente grande

Quiero crear una diferencia (archivo de cambios) entre dos extractos de Europa a partir de datos de OSM. Los archivos que quiero comparar son:

Como los archivos son bastante grandes, antes de ejecutarlos he probado el procesamiento en extractos más pequeños:

El flujo de trabajo que utilizo es:

  • primer converso xxx-180401.osm.pbf a xxx-ref.o5m y luego crear el diff:

osmconvert europe-180401.osm.pbf -o=eu-ref.o5m

osmconvert eu-ref.o5m europe-latest.osm.pbf --diff -o=eu-changes.o5c

O:

osmconvert czech-republic-180401.osm.pbf -o=cz-ref.o5m

osmconvert cz-ref.o5m czech-republic-latest.osm.pbf --diff -o=cz-changes.o5c

El proceso funciona bien con los datos de la República Checa. El resultado o5c parece razonable, su tamaño es de ~30 MB (el archivo de entrada de la República Checa es de ~700 MB).

Obtengo resultados extraños con el extracto de Europa. El resultado o5c es de ~40 GB, mientras que la entrada de Europa es de ~20 GB. Al inspeccionar el archivo, he encontrado muchos casos de datos que no fueron cambiados en OSM en este año en absoluto, como manera 539372444 .

También he intentado hacer la comparación utilizando Osmium en lugar de Osmconvert, pero el resultado fue el mismo, el archivo de cambios era enorme.

¿Estoy haciendo algo mal, o los extractos de Europa no son adecuados para la comparación por alguna razón?

4voto

Suma Puntos 245

Como se ha insinuado en los comentarios y como se ha respondido en Ayuda a OSM La limpieza de datos del GDPR ha limpiado los datos necesarios para la comparación, es decir, el ID de la versión. Esto me parece inesperado, ya que el identificador de versión no parece un dato personal.

Sin embargo, esto sólo afecta a los datos históricos (aquellos euro-18xxxx.osm.pbf), los datos recientes contienen esta información.

Para solucionar el problema he descargado los datos históricos de ubicación de la descarga interna y después de haberlos utilizado para crear el o5m de referencia, el tamaño del archivo diff es razonable 1 GB de 18 GB de datos europeos totales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X