8 votos

Estimación de la mejor longitud del n-grama

Tengo una larga secuencia de palabras o letras {palabra1 palabra2 palabra3 palabra1 palabra1 palabra2 ..etc}. Digamos que extraemos todos los ngramas (unigramas, bigramas, trigramas, 4-gramas, 5-gramas ....) junto con su frecuencia de un texto.

Mi pregunta es simplemente cómo podemos encontrar "estadísticamente" la mejor longitud del n-grama dado este texto. es unigrama, bigrama, trigrama, 4-grama, 5-grama o valor-grama.
Tenga en cuenta que no tengo ningún conocimiento previo sobre el texto.

7voto

Alexey Grigorev Puntos 1751

Podría haber algún criterio estadístico para seleccionar los mejores $n$ pero creo que la mejor manera de seleccionar cualquier parámetro es utilizar validación cruzada .

Supongamos que está construyendo un sistema para detectar el idioma de un artículo y que ha decidido utilizar n-gramas (n-shingles) para representar los documentos. Entonces, para seleccionar el mejor $n$ En este caso, se divide el conjunto de datos en subconjuntos de entrenamiento y de prueba, y se ejecuta una validación cruzada de 10 veces en el conjunto de entrenamiento para cada $n \in \{1, 2, 3, 4, \ ... \}$ y seleccionar tal $n$ que minimiza el error de validación.

La CV también puede utilizarse en el aprendizaje no supervisado, véase por ejemplo (1)

[1] Patrick O. Perry, "Cross-Validation for Unsupervised Learning", http://arxiv.org/abs/0909.3052

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X