En una aplicación de minería de textos, un enfoque simple es utilizar la $tf-idf$ heurística para crear vectores como representaciones compactas y dispersas de los documentos. Esto está bien para el ajuste de lotes, donde todo el corpus se conoce a-priori, como el $idf$ requiere todo el corpus
$$ \mathrm {idf}(t) = \log \frac {|D|}{|\{d: t \in d\}|} $$
donde $t$ es un término, $d$ es un documento, $D$ es el corpus de documentos, y $T$ (no se muestra) es el diccionario.
Sin embargo, normalmente los nuevos documentos se reciben con el tiempo. Una opción es seguir utilizando los $idf$ hasta que se haya recibido un cierto número de nuevos documentos, y lo vuelvan a calcular. Sin embargo, esto parece bastante ineficiente. ¿Alguien sabe de un esquema de actualización incremental que (posiblemente aproximadamente) converja con el valor si todos los datos fueran vistos de antemano? ¿O existe otra medida que capte la misma noción pero que pueda ser calculada de forma incremental?
También hay una cuestión conexa de si la $idf$ sigue siendo una buena medida a lo largo del tiempo. Dado que el idf capta la noción de la frecuencia de las palabras del corpus, es concebible que los documentos más antiguos del corpus (digamos, por ejemplo, que mi corpus incluye más de 100 años de artículos de revistas), como las frecuencias de las diferentes palabras cambien con el tiempo. En este caso podría ser realmente sensato tirar los documentos más antiguos cuando lleguen los nuevos, en efecto utilizando una ventana corrediza $idf$ . Es posible que también se puedan almacenar todos los anteriores $idf$ vectores a medida que se calculan los nuevos, y luego si quisiéramos recuperar documentos de, digamos, 1920-1930, podríamos usar el $idf$ calculado a partir de documentos en ese rango de fechas. ¿Tiene sentido este enfoque?
Editar: Hay un tema separado pero relacionado con el diccionario $T$ . A medida que el tiempo evolucione, habrá nuevos términos de diccionario que no aparecían antes, así que $|T|$ tendrá que crecer, y por lo tanto la longitud de la $idf$ vector. Parece que esto no sería un problema, ya que se podrían añadir ceros a los antiguos $idf$ vectores.