Cuando trabajo en proyectos de análisis de datos, suelo almacenar los datos en archivos delimitados por comas o tabulaciones (CSV, TSV). En cambio, los datos suelen almacenarse en un sistema de gestión de bases de datos específico. Para muchas de mis aplicaciones, esto sería exagerar.
Puedo editar archivos CSV y TSV en Excel (o presumiblemente en otro programa de hojas de cálculo). Esto tiene ventajas:
- las hojas de cálculo facilitan la introducción de datos
También hay varios problemas:
- Trabajar con archivos CSV y TSV lleva a una amplia gama de mensajes de advertencia sobre diversas características que se pierden y cómo sólo se guardará la hoja activa y así sucesivamente. Por lo tanto, es molesto si sólo desea abrir el archivo y hacer un pequeño cambio.
- Hace muchas conversiones "supuestamente inteligentes". Por ejemplo, si introduces 12/3, pensará que quieres introducir una fecha. ACTUALIZACIÓN: Debería haber mencionado que el ejemplo de la fecha es sólo uno de muchos ejemplos; la mayoría de los problemas parecen estar relacionados con una conversión inadecuada. En particular, los campos de texto que parecen números o fechas causan problemas.
Como alternativa, podría trabajar directamente con el archivo de texto en un editor de texto estándar. Esto garantiza que lo que introduzco es lo que se registra. Sin embargo, es una forma muy incómoda de introducir datos (las columnas no se alinean; es difícil introducir datos simplemente en varias celdas; etc.).
Pregunta
- ¿Cuál es una buena estrategia para trabajar con ficheros de datos CSV o TSV? Es decir, ¿qué estrategia facilita la introducción y manipulación de los datos y, al mismo tiempo que lo que se introduce se interpreta correctamente?