Estoy intentando extraer datos de puntos de un archivo PDF vectorial no georreferenciado, para importarlo a QGIS/ArcGIS. Se puede descargue una copia del archivo PDF aquí si está interesado, pero he intentado incluir capturas de pantalla de las partes relevantes para que no sea necesario ya que es un archivo muy grande (~171 MB).
El archivo PDF es un mapa de los recursos minerales de Afganistán, que tiene este aspecto:
Aquí hay una imagen de cerca de un pequeño segmento del mapa -- observe que contiene un montón de ubicaciones etiquetadas (ciudades/provincias, etc.), regiones coloreadas (que representan tipos geológicos/de roca), y datos de puntos con iconos de diferentes colores/formas (que representan depósitos de minerales/petróleo conocidos):
Estoy interesado principalmente en extraer las localizaciones de los pequeños iconos que representan las geo-localizaciones de los depósitos de minerales/petróleo, y utilizarlos para generar datos de puntos que pueda importar en QGIS. Es decir, para todos los iconos enumerados en la leyenda de abajo, quiero encontrar cualquier instancia en el mapa y crear una tabla que tiene su ubicación x, y el campo "categoría" que coincide con las categorías que figuran en la leyenda:
El archivo PDF no parece estar georreferenciado, pero el mapa está dibujado a escala y rodeado de una cuadrícula de latitud y longitud. El mapa contiene la siguiente información sobre la escala (y los autores):
En la esquina inferior izquierda hay la siguiente información sobre la proyección que creo que podría utilizarse de alguna manera para mapear desde las coordenadas (x,y) en el archivo PDF a las coordenadas (x,y) en WGS84:
Obviamente, si hay una manera fácil de hacer esto en QGIS, me encantaría saberlo ... pero de mis búsquedas hasta ahora, parece probable que voy a tener que escribir código para extraer los datos del PDF ...
Si ese es el caso, entonces estaría interesado en bibliotecas de Python/C/C++/Scheme que pudieran ser utilizadas para extraer la información que he descrito anteriormente. Y si no existen bibliotecas que puedan hacer esto fácilmente, entonces por favor comparte ideas sobre recursos/técnicas que puedan ayudarme a codificar mi propia solución para esto.
Cualquier idea sobre cómo abordar este problema sería útil, aunque sólo resuelva una pequeña parte...
ACTUALIZACIÓN:
Así que he experimentado un poco con una herramienta FOSS llamada pstoedit que puede extraer algunos de los datos del archivo PDF y convertirlos en un archivo DXF (un formato CAD común con el que QGIS puede trabajar). He utilizado el DXF con splines opción de formato ( pstoedit -f dxfs infile.pdf outfile.dxf ) para convertir el archivo, y obtuve un archivo DXF que QGIS pudo importar utilizando WSG84 (todavía no he descubierto cómo utilizar la información de proyección/referencia en la parte inferior izquierda del mapa para superponer estos datos de puntos, en las ubicaciones correctas, sobre mi mapa base de Afganistán).
Sin embargo, hay muy poca organización de estos datos - son sólo datos (x,y) y nombres genéricos de campos de texto como "Text" o "EntityHandle" (ver barra lateral izquierda en la imagen de abajo). Y como usuario30184 señalaron en su respuesta, todos los datos están mezclados en una capa (0). Así que no hay una forma clara de asociar los iconos gráficos con las etiquetas de texto individuales (categorías de depósitos minerales) de la leyenda. Esto es lo que parece hasta ahora - Voy a publicar más si hago más progresos:
0 votos
Dado que la página web dice que "todos los datos presentados en el mapa están también disponibles en formato GIS", ¿ha intentado ponerse en contacto con los autores o con el USGS?
0 votos
He intentado ponerme en contacto con el USGS, pero no sé si me van a responder... y mientras tanto estoy algo presionado por el tiempo y me preguntaba si podría extraer los datos fácilmente sin tener que esperar su respuesta... e incluso si me responden, me gustaría saber cómo extraer los datos geográficos de los PDF en general, porque creo que será útil en los casos en los que los autores no están localizables o dispuestos a compartir los datos en bruto.
0 votos
No es posible tener un método "en general", porque el PDF es un lenguaje de descripción de páginas y la página podría construirse de mil maneras. Al menos han distribuido la versión vectorial, pero si los puntos que quieres no tienen los metadatos correctos, podrías estar atascado. ¿Has intentado abrirlo en Inkscape? Es demasiado grande para mi pequeño portátil.
1 votos
Esto no responde a tu pregunta, pero puede resultarte útil. Cuando trabajamos en Afganistán, descubrimos que muchos mapas con sistemas de cuadrícula impresos eran deliberadamente erróneos; así que no utilices la cuadrícula impresa para determinar las coordenadas. Puede que le resulte útil para su investigación la geología de Afganistán WMS/WFS publicado como parte de OneGeology, y Servicio Geológico de Afganistán