Antecedentes: tengo experiencia en la implementación de la LSA modelos.
Desde mi experiencia, no hay manera de predecir. La mejor manera que he encontrado es la de generar una serie de modelos basados en diferentes parámetros y prueba de ellos con un conocido de la tarea. Así que si usted quería LSA para la categorización de los documentos, se obtiene un conjunto de documentos pertenecientes a diferentes categorías (véase la Reuters 21578 o el Brown corpus ambos de los cuales están ampliamente disponibles) y preparar docs a partir de diferentes categorías. Luego de presentar a cada uno para cada modelo y ver cual es la más exacta.
También he encontrado que el contenido de los documentos también afecta el resultado no sólo del tamaño del corpus. No voy a decirte los detalles pero documentos más cortos tienden a no contribuir a un modelo de precisión.
Siento no poder ser de más ayuda en este. Yo podría estar equivocado acerca de esto, sin embargo - tratar de Google Scholar para ver si alguien ha investigado y encontrado nada útil.