Como cabe esperar de Hadley, su artículo contiene una buena definición de datos ordenados y estoy de acuerdo con casi todo lo que dice y creo que no sólo es válido para los "profesionales de los datos". Sin embargo, algunos de los puntos que expone son relativamente fáciles de solucionar (por ejemplo, con paquetes de su autoría) si se evitan algunos problemas más fundamentales. La mayoría de estos problemas son el resultado del uso generalizado de Excel. Excel es una herramienta valiosa y tiene sus méritos, pero algunas de sus facilidades dan lugar a problemas para los analistas de datos.
Algunos puntos (de mis experiencias):
- A algunas personas les gustan las hojas de cálculo coloridas y hacen un uso abundante de las opciones de formato. Todo esto está muy bien, si les ayuda a organizar sus datos y a preparar las tablas para su presentación. Sin embargo, es peligroso si el color de una celda realmente codifica los datos. Es fácil perder estos datos y muy difícil conseguir que se importen a un software estadístico (por ejemplo, véase esta pregunta en Stack Overflow).
- A veces recibo datos muy bien formateados (después de haberles dicho cómo prepararlos), pero a pesar de pedirles que utilicen una columna dedicada o un archivo separado para los comentarios, deciden poner un comentario en una columna de valores. No sólo tengo que tratar esta columna de forma especial al importar los datos, sino que el principal problema es que tendría que desplazarme por toda la tabla para ver dichos comentarios (algo que normalmente no haría). Esto se agrava aún más si se utilizan las funciones de comentario de Excel.
- Las hojas de cálculo con varias tablas, múltiples líneas de encabezamiento o celdas conectadas suponen un trabajo manual para prepararlas para la importación en el software estadístico. Los buenos analistas de datos no suelen disfrutar de este tipo de trabajo manual.
- Nunca, nunca ocultes las columnas en Excel. Si no son necesarias, elimínalas. Si son necesarias, muéstralas.
- xls y sus descendientes no son formatos de archivo adecuados para intercambiar datos con otros o archivarlos. Las fórmulas se actualizan cuando se abre el archivo y las distintas versiones de Excel pueden tratar los archivos de forma diferente. En su lugar, recomiendo un simple archivo CSV, ya que casi todo el software relacionado con los datos puede importarlo (incluso Excel) y es de esperar que eso no cambie pronto. Sin embargo, ten en cuenta que Excel redondea a los dígitos visibles cuando se guarda en un CSV (descartando así la precisión).
- Si quieres facilitarle la vida a los demás, sigue los principios indicados en el artículo de Hadley. Tenga una columna de valores para cada variable y columnas de factores que definan los estratos.
Probablemente hay varios puntos adicionales que no se me ocurrieron.
0 votos
Este artículo no ha sido publicado (todavía) en Journal of Statistical Software.
3 votos
La etiqueta R parece innecesaria aquí. La cuestión va más allá de la elección de un software concreto.