Yo no entiendo completamente el problema, pero quiero saber si esto está en el camino correcto y puedo conseguir que un poco más de feedback. Creo que de $2^{20}$ como el número de palabras en un diccionario. Te doy dos libros, uno que tiene 1 millón de palabras que contienen 30000 únicos del diccionario y el otro que contiene 3 millones de palabras y (decir) 35000 únicos del diccionario. Os doy un nuevo conjunto de palabras (¿es esto lo que usted quiere decir por 'ejemplo'?') y quiero saber cuál es el libro que vino?
Si este es el caso..buscar clasificador Naive Bayes. Es el más simple que existe. Se asume independencia condicional (dado el libro, las palabras son independientes). No se Que hace exactamente esto. Hay una gran cantidad de software que se ajuste a estos modelos para ti. Todos ellos tienen el problema de cero o muy pequeña cuenta. Ellos usan una revisión en torno a este problema. Un punto a tener en cuenta que en estos modelos, no es un fail safe..como en lo que si observo una palabra que no he visto hasta ahora (es decir, uno nuevo de la $2^{20}$). Llaman la probabilidad de observar esta probabilidad de 'descanso'. Esto significa que todos los que no se observan en la formación de la muestra va a caer en el resto.
La precisión, por lo general cae en el 60% del rango de medida como la predicción va. No es fantástico, pero es un comienzo. Existen modelos más complejos (buscar Lexicalizar PCFGs si usted piensa que se adapte a usted mejor, aunque estos son muy específicas en el contexto). Te sugiero encarecidamente el uso de pre-escrito de software en caso de que quiera utilizar estos modelos y frenar el comúnmente observados ganas de código de seguridad de estos problemas de programación dinámica.