4 votos

La estimación de tamaño de muestra necesario para obtener un rendimiento óptimo de la indexación semántica latente?

Indexación semántica latente parece que funciona bien; por ejemplo, es independiente de la lengua, etc. Sin embargo, parece que el uso de la similitud de las frecuencias de los términos en el corpus para categorizarlos.

Si esta interpretación es correcta, hay una manera de medir el tamaño del conjunto de datos que va a dar un rendimiento óptimo?

3voto

Hoe Puntos 1

Antecedentes: tengo experiencia en la implementación de la LSA modelos.

Desde mi experiencia, no hay manera de predecir. La mejor manera que he encontrado es la de generar una serie de modelos basados en diferentes parámetros y prueba de ellos con un conocido de la tarea. Así que si usted quería LSA para la categorización de los documentos, se obtiene un conjunto de documentos pertenecientes a diferentes categorías (véase la Reuters 21578 o el Brown corpus ambos de los cuales están ampliamente disponibles) y preparar docs a partir de diferentes categorías. Luego de presentar a cada uno para cada modelo y ver cual es la más exacta.

También he encontrado que el contenido de los documentos también afecta el resultado no sólo del tamaño del corpus. No voy a decirte los detalles pero documentos más cortos tienden a no contribuir a un modelo de precisión.

Siento no poder ser de más ayuda en este. Yo podría estar equivocado acerca de esto, sin embargo - tratar de Google Scholar para ver si alguien ha investigado y encontrado nada útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X