Processing math: 100%

29 votos

Gestión de los feeds de arXiv para evitar duplicados

Estoy suscrito a los feeds del Frente arXiv para una serie de áreas temáticas, utilizando Google Reader . Esto es genial, pero hay un problema: cuando un nuevo preprint aparece en varias categorías temáticas, aparece en varios feeds, lo que significa que tengo que pasar más tiempo leyendo las listas de nuevos artículos, y debido a mi memoria ligeramente disfuncional, a menudo descargo el mismo preprint dos veces. ¿Hay alguna manera de evitar este problema, fusionando de alguna manera los feeds, utilizando un sitio arXiv diferente, o utilizando algún otro truco inteligente?

(Espero que esto no sea demasiado off-topic, creo que una buena respuesta podría ser útil para varios matemáticos. Además, me gustaría etiquetar esto "arxiv" pero no se me permite añadir nuevas etiquetas).

0 votos

Sólo una advertencia: el arXiv Front ya no funciona (ni tampoco Google Reader...)

25voto

Bob Puntos 34449

A menos que el arXiv haya cambiado recientemente, los artículos se publican diariamente, lo que significa que los feeds y el correo electrónico están completamente acompasados.

El problema de los duplicados es que cada alimentación es una solicitud de información distinta al arXiv. El arXiv no sabe que vas a fusionar estos resultados, y nunca he oído hablar de un lector de feeds que intente fusionar los feeds para eliminar los duplicados.

Sin embargo, no todo está perdido. Los feeds que proporciona el arXiv no son la única forma de encontrar información. El arXiv dispone de una API que le permite crear su propio feed. Por ejemplo, si apunta su navegador a:

http://export.arxiv.org/api/query?search_query=submittedDate:[20091014200000+TO+20091015200000]&start=0&max_results=500

y luego se presentan todos los papeles de ayer. Puede filtrar su búsqueda por tema.

http://export.arxiv.org/api/query?search_query=%28cat:math.AT+OR+cat:math.CT%29+AND+submittedDate:[20091014200000+TO+20091015200000]&start=0&max_results=500

Como las solicitudes se gestionan todas a la vez, no se producen duplicados (como puede verse, ya que el documento de Emily Riehl es tanto math.AT como math.CT).

La única pega es que tienes que poner la fecha en la forma adecuada cada vez, no puedes poner fechas como "hoy" o "ayer". Además, el manejo de la zona horaria es un poco extraño: el arxiv publica las actualizaciones a una hora determinada por el local zona horaria, que incluye los cambios de horario de verano, pero la API utiliza GMT/UTC. Así que si quieres replicar exactamente el anuncio de "nuevos preprints" del arxiv, tienes que hacer algunas conversiones de zona horaria.

Sin embargo, esto se puede hacer y yo lo he hecho. Utilizo un programa llamado RefBase para organizar mis referencias y lo he modificado para que cada mañana me presente una lista de lo que hay de nuevo en el arxiv para que lo escudriñe y decida qué artículos añadir a mi propia base de datos bibliográfica. También puedo escanear unos días atrás si he estado de vacaciones. En esta extensión está el código para averiguar cuál debe ser la fecha. Podría extraerlo si hay algún interés.

La documentación sobre la API de arxiv se encuentra en su sitio de documentación . Sin embargo, el tema de 'submittedDate' no está cubierto allí, esa es una característica más reciente.

10voto

syntonicC Puntos 48

Scirate hace exactamente esto. Te registras allí y eliges tus secciones arXiv favoritas, y obtendrás todos los artículos de esas categorías sin que se dupliquen todos los días. También puedes navegar a través de los feeds anteriores. Scirate no publica feeds Atom o RSS. Lo que ellos llaman "feeds" son simplemente listados en una página web.

He utilizado Scirate para math.CO, cs.IT y puant-ph y nunca he visto duplicados de preprints cruzados.

También puedes "upvote" (o "scite" en su jerga) una preimpresión y dejar un comentario. No creo que haya muchos matemáticos allí; originalmente era para gente de información cuántica. Pero ya es útil si estás solo en tu campo, y puede resultar aún más útil si más y más compañeros en tu campo empiezan a usarlo, creo.

9voto

Jarrod Dixon Puntos 9201

Hay que reconocer que es algo anticuado, pero yo recibo mi dosis de arxiv por correo electrónico. A través del correo electrónico, si te inscribes en varios repositorios, recibes un único mensaje combinado, sin duplicados.

Lo malo es que ese correo electrónico llega una vez al día, así que si estás obsesionado con lo último, te encontrarás ligeramente desactualizado en relación con los lectores de RSS.

1voto

Ptolemy Puntos 428

También utilizo Google Reader (casi) de la forma que sugieres, pero simplemente me he suscrito al feed de "todos los nuevos artículos de matemáticas". Esto significa que veo unos 150 artículos nuevos en el feed cada día, pero personalmente no encuentro que esto sea un gran problema (excepto cuando he estado fuera durante una semana o así). Pongo Reader en la "vista de lista" y simplemente me desplazo por los títulos, ampliando para ver el resumen cuando creo que algo puede ser relevante. La mayoría de los autores eligen su título lo suficientemente bien como para que esto funcione.

No me lleva mucho tiempo escudriñar esta lista y sé que regularmente veo cosas fuera de las categorías temáticas en las que normalmente me centraría. Por eso, encuentro trabajos de combinatoria, física y geometría algebraica que de otro modo no encontraría si me limitara a math.QA y math.RT. Starring es agradable y rápido para mantener las cosas que podría volver más tarde y tal vez descargar uno o dos al día también.

Comprendo que tal vez no sea la respuesta que buscabas pero, por mucho que me guste la tecnología, a veces es más rápido y fácil hacer que la parte orgánica del proceso haga un poco más de trabajo.

1voto

Victoria Stuart Puntos 121

Escribí un script BASH para la descarga automatizada de los canales RSS de arXiv seleccionados.

Ese contenido se deduplica y luego se analiza en uno de los dos documentos:

  • artículos de interés con palabras clave;
  • los artículos restantes.

El script puede programarse para que se ejecute diariamente a través de crontab, o ejecutarse manualmente.

Por ejemplo, hoy (10 de enero de 2019) entre cinco fuentes RSS de arXiv, mi lector de RSS ha proporcionado 690 entradas (incluidas las duplicadas y cruzadas), mientras que mi script ha devuelto 344 artículos desduplicados (únicos).

0 votos

No: los resultados devueltos se deduplican y luego se analizan en uno de los dos archivos de resultados.

0 votos

Me refiero a antes del proceso de deduplicación como 690>2×344 .

0 votos

Estás confundiendo mi comparación de un RSS lector (Complemento de Firefox Feedbro: 690 visitas) frente a mi script BASH (344 visitas).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X