Tengo una larga secuencia de palabras o letras {palabra1 palabra2 palabra3 palabra1 palabra1 palabra2 ..etc}. Digamos que extraemos todos los ngramas (unigramas, bigramas, trigramas, 4-gramas, 5-gramas ....) junto con su frecuencia de un texto.
Mi pregunta es simplemente cómo podemos encontrar "estadísticamente" la mejor longitud del n-grama dado este texto. es unigrama, bigrama, trigrama, 4-grama, 5-grama o valor-grama.
Tenga en cuenta que no tengo ningún conocimiento previo sobre el texto.