Estoy pensando si hay que normalizar o ponderar un tema por la longitud del documento (longitud de la página)?
Estoy estimando un modelo temático utilizando artículos de ciencias sociales (JSTOR), donde su longitud varía entre un mínimo de 5 páginas y un máximo de 200 páginas. Quiero analizar un tema específico, a saber, el grado de temas económicos en los artículos.
Veo que ya se planteó una cuestión similar en 2011, pero no se llegó a ninguna sugerencia clara, por lo que puedo interpretar del debate:
https://lists.cs.princeton.edu/pipermail/topic-models/2011-February/001171.html
Mi intuición sobre esta cuestión está algo dividida.
Por un lado parece lógico que haya que ponderar por la longitud del documento documento, ya que los documentos más extensos (de 200 páginas) tendrán más páginas para referirse a un tema concreto (en mi caso, "económico") que los documentos más cortos (un documento de 5 páginas). Esto se reflejará, por ejemplo, en una matriz de términos de documentos en la que los términos económicos (por ejemplo, mercados, negocios y industria) tendrán una frecuencia mucho mayor en la fila del documento de 200 páginas en comparación con la fila del documento de 5 páginas. Además, el documento de 200 páginas afectará a la distribución general de términos de las palabras. En otras palabras, los términos del documento de 200 páginas dominarán la proporción de términos por documento para todos y cada uno de los términos de la matriz documento-término.
Por otra parte, el ratio tópico-término parece ajustarse al hecho de que tenemos documentos más largos y más cortos en la muestra. Aunque la relación término-documento es alta para los documentos más largos y baja para los más cortos, la frecuencia relativa (proporción de varios términos en los documentos más largos es comparable a la de los más cortos. Por ejemplo, el documento más corto más corto puede tener una suma de 10 para la frecuencia (tokens) de los de un total de 30 tokens: da una probabilidad de tema económico de 10/30. Mientras que el documento más largo puede tener una suma de 100 para la frecuencia de frecuencia de temas económicos de un total de 3.000 tokens (todos los temas): una relación de 100/3000.
Por lo tanto, aunque el documento más corto tenga menos fichas económicas que el documento más largo, se estima que sigue siendo más económico que el documento más largo.
No estoy seguro de qué concluir de esto: ¿puedo confiar en un resultados LDA no ajustados a la página? Estoy usando el paquete topicmodels en R.
Muchas gracias de antemano por su aportación