6 votos

¿Es necesario ajustar la longitud del documento (en términos de páginas) en el modelado temático?

Estoy pensando si hay que normalizar o ponderar un tema por la longitud del documento (longitud de la página)?

Estoy estimando un modelo temático utilizando artículos de ciencias sociales (JSTOR), donde su longitud varía entre un mínimo de 5 páginas y un máximo de 200 páginas. Quiero analizar un tema específico, a saber, el grado de temas económicos en los artículos.

Veo que ya se planteó una cuestión similar en 2011, pero no se llegó a ninguna sugerencia clara, por lo que puedo interpretar del debate:

https://lists.cs.princeton.edu/pipermail/topic-models/2011-February/001171.html

Mi intuición sobre esta cuestión está algo dividida.

Por un lado parece lógico que haya que ponderar por la longitud del documento documento, ya que los documentos más extensos (de 200 páginas) tendrán más páginas para referirse a un tema concreto (en mi caso, "económico") que los documentos más cortos (un documento de 5 páginas). Esto se reflejará, por ejemplo, en una matriz de términos de documentos en la que los términos económicos (por ejemplo, mercados, negocios y industria) tendrán una frecuencia mucho mayor en la fila del documento de 200 páginas en comparación con la fila del documento de 5 páginas. Además, el documento de 200 páginas afectará a la distribución general de términos de las palabras. En otras palabras, los términos del documento de 200 páginas dominarán la proporción de términos por documento para todos y cada uno de los términos de la matriz documento-término.

Por otra parte, el ratio tópico-término parece ajustarse al hecho de que tenemos documentos más largos y más cortos en la muestra. Aunque la relación término-documento es alta para los documentos más largos y baja para los más cortos, la frecuencia relativa (proporción de varios términos en los documentos más largos es comparable a la de los más cortos. Por ejemplo, el documento más corto más corto puede tener una suma de 10 para la frecuencia (tokens) de los de un total de 30 tokens: da una probabilidad de tema económico de 10/30. Mientras que el documento más largo puede tener una suma de 100 para la frecuencia de frecuencia de temas económicos de un total de 3.000 tokens (todos los temas): una relación de 100/3000.

Por lo tanto, aunque el documento más corto tenga menos fichas económicas que el documento más largo, se estima que sigue siendo más económico que el documento más largo.

No estoy seguro de qué concluir de esto: ¿puedo confiar en un resultados LDA no ajustados a la página? Estoy usando el paquete topicmodels en R.

Muchas gracias de antemano por su aportación

1voto

Alexey Grigorev Puntos 1751

No he utilizado mucho los modelos temáticos, pero puedo decir que si se aplican los métodos habituales de agrupación a matrices documento-término no normalizadas (incluso cuando la dimensionalidad de los datos se reduce con LSA), se verá que los artículos más largos tenderán a agruparse, simplemente porque tienen más palabras.

Así que puede echar un vistazo a algunos de sus temas y ver si los documentos en su interior tienen sentido. Además, intente calcular la longitud media de los documentos por tema y compruebe si se produce o no el fenómeno que menciono.

A continuación, puede repetir lo mismo con los datos normalizados por unidades y ver si los resultados tienen más sentido o no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X