Actualmente estoy construyendo una instancia en EC2 en la que importar toda la instantánea Planet.osm de los datos de toda la Tierra para algunos proyectos en los que estamos trabajando. He puesto en marcha una instancia grande de Ubuntu x64 y he adjuntado un montón de almacenamiento separado en un volumen EBS para la base de datos Postgres y lo he modificado para alojar los datos PGSQL allí.
Ahora el servidor tiene problemas para usar osm2pgsql
para importar la instantánea... Después de un par de intentos con diferentes configuraciones de memoria y demás, el proceso sigue mostrando "Killed" después de llegar a la mayor parte del camino; una vez se mató mientras "iba por caminos pendientes" y la siguiente vez, después de ajustar ligeramente la caché delgada, llegó a "procesar caminos" antes de estrellarse. Por lo que he leído, esto se debe generalmente a problemas de memoria.
Aquí está mi último intento de ejecutar la importación:
osm2pgsql -v -U osm -s -C 4096 -S default.style -d osm /data/osm/planet-latest.osm.bz2
Y aquí están las especificaciones para una instancia grande en EC2:
Instancia grande 7,5 GB de memoria, 4 EC2 Compute Units (2 núcleos virtuales con 2 EC2 Compute Units cada uno), 850 GB de almacenamiento local de la instancia, plataforma de 64 bits
Mi pregunta es: ¿hay algunos buenos recursos de referencia para determinar los requisitos de ajuste para osm2pgsql y Postgres? La velocidad de importación ni siquiera es tan importante para mí, sólo me gustaría ser capaz de asegurarse de que el proceso se completa con seguridad, incluso si se tarda 4 o 5 días ... He leído el libro de Frederick Ramm " Optimización de la cadena de renderizado "(PDF) del SOTM del año pasado, pero ¿hay otras buenas opiniones o recursos?