A menos que el arXiv haya cambiado recientemente, los artículos se publican diariamente, lo que significa que los feeds y el correo electrónico están completamente acompasados.
El problema de los duplicados es que cada alimentación es una solicitud de información distinta al arXiv. El arXiv no sabe que vas a fusionar estos resultados, y nunca he oído hablar de un lector de feeds que intente fusionar los feeds para eliminar los duplicados.
Sin embargo, no todo está perdido. Los feeds que proporciona el arXiv no son la única forma de encontrar información. El arXiv dispone de una API que le permite crear su propio feed. Por ejemplo, si apunta su navegador a:
http://export.arxiv.org/api/query?search_query=submittedDate:[20091014200000+TO+20091015200000]&start=0&max_results=500
y luego se presentan todos los papeles de ayer. Puede filtrar su búsqueda por tema.
http://export.arxiv.org/api/query?search_query=%28cat:math.AT+OR+cat:math.CT%29+AND+submittedDate:[20091014200000+TO+20091015200000]&start=0&max_results=500
Como las solicitudes se gestionan todas a la vez, no se producen duplicados (como puede verse, ya que el documento de Emily Riehl es tanto math.AT como math.CT).
La única pega es que tienes que poner la fecha en la forma adecuada cada vez, no puedes poner fechas como "hoy" o "ayer". Además, el manejo de la zona horaria es un poco extraño: el arxiv publica las actualizaciones a una hora determinada por el local zona horaria, que incluye los cambios de horario de verano, pero la API utiliza GMT/UTC. Así que si quieres replicar exactamente el anuncio de "nuevos preprints" del arxiv, tienes que hacer algunas conversiones de zona horaria.
Sin embargo, esto se puede hacer y yo lo he hecho. Utilizo un programa llamado RefBase para organizar mis referencias y lo he modificado para que cada mañana me presente una lista de lo que hay de nuevo en el arxiv para que lo escudriñe y decida qué artículos añadir a mi propia base de datos bibliográfica. También puedo escanear unos días atrás si he estado de vacaciones. En esta extensión está el código para averiguar cuál debe ser la fecha. Podría extraerlo si hay algún interés.
La documentación sobre la API de arxiv se encuentra en su sitio de documentación . Sin embargo, el tema de 'submittedDate' no está cubierto allí, esa es una característica más reciente.
0 votos
Sólo una advertencia: el arXiv Front ya no funciona (ni tampoco Google Reader...)