Estoy utilizando ArcGIS 10.0 en Windows 7 de 64 bits con 4 GB de RAM.
Tengo algunas tablas muy grandes en formato CSV para importar a ArcGIS, todas tienen unos 30 campos, más de 5 millones de registros por tabla (algunas tienen el doble o más), y tamaños de archivo de hasta unos 5 GB. Estoy tratando de importar cada una de ellas a una geodatabase de archivos como tablas separadas para poder, en última instancia, vincularlas a una clase de característica y analizar los resultados en las tablas según su ubicación.
El problema es que ArcGIS parece dejar de importar registros en un momento determinado. Estoy utilizando la herramienta "Tabla a Tabla" en Conversión > A Geodatabase, pero la herramienta "Copiar Filas" tiene el mismo problema. Incluso si añado el archivo CSV directamente a ArcGIS sin intentar convertirlo primero en una tabla FGDB, el problema es el mismo. Una de mis tablas tiene unos 11 millones de registros, y ArcGIS sólo importa unos 10 millones de ellos. ArcGIS no me dice que se ha producido ningún error, la herramienta simplemente termina como si no pasara nada.
Lo he probado unas cuantas veces y el número de registros que entran en la tabla FGDB es siempre el mismo, y no parece que haya un límite de tamaño de archivo del que haya oído hablar (ni un cuadrado de 2 ni de 16). ArcGIS fue capaz de importar otro CSV con cerca de 6 millones de registros y todos los registros vinieron a través (aunque con los problemas que estoy teniendo con la tabla más grande, el más pequeño es un poco sospechoso ahora también). El sitio web de ESRI enumera lo siguiente límites de tamaño en una geodatabase de archivos y estoy muy lejos de acertar con ninguno de ellos:
- Tamaño de la geodatabase: Sin límite
- Tamaño de la tabla o clase de características: 1 TB (por defecto), 4 GB o 256 TB con la palabra clave
- Número de clases y tablas de características: 2.147.483.647
- Número de campos en una clase o tabla de características: 65,534
- Número de filas en una clase o tabla de características: 2.147.483.647
- Longitud del nombre de la geodatabase: Número de caracteres que el sistema operativo permite en una carpeta
- Longitud de la clase de características o del nombre de la tabla: 160 caracteres
- Longitud del nombre del campo: 64 caracteres
- Anchura del campo de texto: 2.147.483.647
Todo lo que necesito hacer en estas tablas es añadir un par de campos, eliminar otros dos y generar valores para los nuevos campos (sumas de algunos de los campos existentes). Estoy usando ArcGIS para ello porque estoy familiarizado con la calculadora de campos y sé (o conocía Hasta ahora, el programa podía manejar tablas con millones de registros, mientras que la mayoría de los programas de escritorio que tengo a mano (MS Access/Excel) se atascan con esa cantidad de registros. Así que estoy abierto a usar algún otro software para manipular la tabla original y luego exportar la tabla resultante (mucho más pequeña) a ArcGIS. Realmente, el hecho de que esté teniendo este problema y que ArcGIS no me dé ningún error o advertencia de que el problema está ocurriendo me hace querer manejar estos datos fuera de ArcGIS tanto como sea posible.
2 votos
Si "el número de registros que llegan a la tabla FGDB es siempre el mismo", entonces yo echaría un vistazo a los últimos y siguientes registros para ver si pueden tener algo que parezca incoherente en comparación con los millones importados con éxito anteriormente.
1 votos
Buena idea. No veo ninguna diferencia entre el último registro de la tabla FGDB truncada y el registro que le sigue (del CSV). Acabo de intentar eliminar todos los registros importados con éxito del CSV de origen, y luego importar el resto en otra tabla FGDB, y ha funcionado. Así que no parece ser un problema con un solo registro. Para empeorar las cosas, he fusionado las dos tablas FGDB (entre las dos tengo todos los registros de origen), y una vez más ArcGIS pretende que todo ha ido bien, pero la tabla fusionada contiene sólo 9,6 millones de los 10,9 millones de registros de las dos tablas FGDB.
0 votos
¿Ha abierto una incidencia de soporte con ESRI? Parece que en este punto, has descubierto lo que podría ser un problema bastante serio. Si no es así, el personal de soporte estaría interesado en conocerlo simplemente porque puede que ya conozcan una solución o estén dispuestos a ayudar con las pruebas.
0 votos
Estoy de acuerdo con Get Spatial, pero una última prueba que puedes hacer es generar un archivo CSV con un campo en el que coloques valores idénticos (quizás "test"). Si tu teoría es que 9,6 millones es el máximo, entonces este límite se alcanzaría cada vez que se utilicen 10 millones de líneas de "test", pero no cuando se utilicen 9,5 millones de líneas.
0 votos
Ahora he probado con un CSV diferente, pero también grande (más de 10 millones de registros) y falla igual, pero en una línea diferente (entran unos 8,9 millones de registros). Así que no parece ser un número específico de registros, o un tamaño específico de la tabla. Probaré con un CSV de prueba con dos campos a ver qué pasa. Llamaré a ESRI el lunes de cualquier manera, este proceso que falla sin ningún mensaje de error es inaceptable y hace que incluso los registros que entran sean sospechosos.
0 votos
Sólo por curiosidad sobre este problema en la importación de CSV de gran tamaño, ¿obtuvo alguna solución o alguna solución del soporte técnico de ESRI o de cualquier otro lugar? Por favor, compártalo.
0 votos
Además, a ArcGIS le gusta crear archivos temporales de tamaño considerable, normalmente en %TEMP%. Asegúrese de que tiene un par de GB libres en esa unidad, o al menos siga controlando el espacio libre mientras importa los datos. No espere un mensaje de error cuando se agote el espacio :-(